AI music video
AIミュージックビデオ制作記


AIでミュージックビデオを作ってみた。

歌詞、楽曲、映像、すべてAIで生成できる時代がやってきた。AIまかせでMVを作って何が楽しいのか、という批判的な意見もあるだろう。落合陽一氏もAI全盛を見据え、もはや人間ができることは「選択」だけとSNSに投稿していた。AIに大量にコンテンツを生成させ、珠玉混交の中から人が選択する。人の役割は選択のみ、というわけだ。なるほど、AI全盛ともなればそういう側面は確かにあるだろう。

ただこれは、カメラと撮影者の関係と似たようなものだ。

どれだけカメラが高性能化しても、勝手に写真は撮ってくれない。シャッターボタンを押すのは撮影者だ。このシャッターボタンを押すという意志決定は表現において大きな意味を持つ。AIがどれだけ器用に映像や音楽を生成しようとも、最初の指示は人間が出す。その指示内容こそが表現のコアであり、実際のAIを用いた制作作業はその表現のコアを吐き出し続けることに他ならない。


もちろん、AIが自律的に生成をはじめたら新時代の幕開けとなるのだけど。


AIミュージックビデオの制作では、きわめて意図的にAI使用量を作り手が決めていく。僕の場合はまず、元ネタのなる文章を用意する。箇条書きでもメモ書きでも何でもいい。MVの世界観の元になる文章だ。僕は自筆の掌編小説を元ネタにすることが多い。


この掌編小説をChatGPTに読み込み、歌詞を生成する。小説を歌詞に変換するのだ。人力だとなかなかヘビーな作業である。いくらChatGPTとは言え、そのまま使えるような歌詞にはならない。詩ではあるものの、歌詞っぽくない。言葉をダラダラと連ねてしまう。歌詞たるもの、リフレインや韻を踏むなどのお作法は押さえておきたい。無論、AIにリライトさせることも可能だが、ここは人力でリライトしていく。歌詞は作品の世界観そのものなので、しっかり手を入れる。

歌詞が八割程度できたら、sunoに読み込む。

sunoは音楽生成AIだ。歌詞とジャンルを指定すると、ボーカル入りの楽曲を生成する。海外製AIだが日本語ボーカルも実にうまい。ただ、漢字の読みを間違えたり、言葉の長さの都合で歌いづらそうだったり、いろいろと不具合が出る。この不具合を歌詞で調整する。漢字をカタカナに開いたり、言葉を置き換えたり、サビの位置を変えてみたり、かなり手を加える。これが完成度八割でsunoに読み込ませた理由だ。

楽曲生成での調整を経て、ようやく歌詞は完成に至る。

sunoは音楽ジャンルや音色を英文プロンプトで指定できる。これがそこそこハードルの高い作業だ。バンドをやっていたのは遙か昔、いまどきのジャンルや音源の英語なんて思いつかない。そこでChatGPTの出番となる。歌詞と元ネタの掌編小説を読み込ませ、世界観に見合ったsuno用プロンプトを考えさせるのだ。自分の好みのジャンルではなく、あくまでも世界観に合ったジャンルのアイデアを出させる。実のところ、このプロンプトが採用となるケースはあまりないのだけど、ゼロスタートより俄然効率がいい。アイデアメモとしてはかなり有用だ。

楽曲ができたら、Soraで動画生成を行う。

下準備として、ChatGPTに歌詞を読み込み、どんなシーンが必要か、フレーズごとに検討させる。これを叩き台にして必要な映像シーンをリストアップしていくのだ。実作業としてはほぼ人力だが、叩き台があることでかなり楽ができる。

このリストにそって動画を生成していく。Soraの場合、ディテールをできるだけ細かく指定したほうが歩留まりがいい。髪の毛や瞳の色、身につけている洋服やアクセサリーにいたるまで、ていねいに指定していく。つまり、使い手の頭のなかにすでに映像化されたものがあり、それを具現化していく作業だ。

動画生成はノーアイデアでは前に進めない。

歌詞、楽曲、動画がそろったら、動画編集ソフトでミュージックビデオとしてまとめていく。この作業はフツーに人力だ。動画の切り換え、楽曲とのテンポ合わせ、字幕の入力、ひとつずつ自力で仕上げていく。

ざっとAIミュージックビデオの制作手順を説明してみた。どうだろう。世間的にAI任せと言われているが、相当人の手が入っていることがわかるだろう。効率から生成AIにアプローチすると、正直なところあまりおもしろくないと思う。AIミュージックビデオのおもしろいところは、ビデオカメラも楽器も使わずに、言葉だけでミュージックビデオが生み出されている点だ。

AIミュージックビデオの成分は100%言葉なのだ。

人間の紡ぐ言葉が何か別の形で出力される時代。この関係性がいまおもしろくてたまらない。


https://www.youtube.com/watch?v=pnGMAOw7mWc