AIの映像生成が魅力的なのは分かるけど

AIを使った映像表現の「意味」について

最近、AIの便利さをひしひしと感じていますが、「映像」に関して言えば、皆さんはどのように活用している、あるいは活用しようと考えているのでしょうか。

面白くて素晴らしい機能だとは理解しているのですが、いざ「自分はこれで何を作りたいのか」と考えようとしても、なかなか答えが見つからないのです。

表面的なリアリティではなく、何かに「本物感」を与えるのは、それが確かに存在し、そこに時間の流れが続いているという事実が紐づけされています。

街角の交差点を車が通り過ぎ、横断歩道を人々が渡っていく。その光景を実際に撮影することと、AIで生成することの意味は、果たして同じなのでしょうか?

もちろん意味は違いますし、目的も変わります。「だから何?」と言われてしまえばそれまでですが、AIを使う上で、この違いは大きな意味を持つと私は考えています。

もしも映像そのものが重要だとするなら、その映像にはストーリーが必須です。

そうでないと、何のための映像かが希薄になるからです。

もっと言えば、簡単に凄く上質な映像が作れてしまうからこそ、最初は「凄い!」と感動しますが、何度も作ることで「リアリティ」が重要なのではないようにも感じて来ます。

つまり、「実際に起きたこと」ではないからこそ、それをなぜ作るのかというコンセプトがもの凄く問われるということ。

とはいえ、AI生成動画が無意味だと言いたいわけではありません。

例えば絵を描いたことがなくても、頭に浮かんだイメージを彼らに伝えるとそれこそいい感じで映像にしてくれます。

ただ、「いい感じに」です。

現実世界では、いろんな人がいます。

そして美男美女と呼ばれる人も存在します。

AIは綺麗な人はすぐに描いてくれますが、少し「不細工」な人を描くことには驚くほど消極的です。

それを描いてもらうには、「不細工」という言葉を自分なりに解釈し、それをプロンプトに落とし込む必要があります。

AI側は、いわゆる「ノイズ」——言い換えれば、不必要だけれども人間臭さの源泉となるもの——を含むリクエストはまだまだ難しい、と回答することがあるほどです。

つまり、AIほど有能な存在だからこそ、「醜さ」を作る必要などないのでしょう。

しかし、優れた映像作品なら、登場人物が美男美女ばかりでいいはずがありません。

現実をありのままに撮影すれば自然と含まれるはずの「ノイズ(実在感)」を、AIでは意図的に作り出すことが意外に面倒です。

先にAIの映像が「いい感じ」だと言ったのも、パッと見ればそれで十分にも感じますが、よくよく考えて違和感を覚えるのは「ノイズ」がないことで、映像表現は凄いのに何か肌の温度感のようなものが抜け落ちて感じます。

AIは、夕暮れの海岸沿いで犬を散歩させている人の姿など、巧みな技術で美しいシーンに作り出すことができます。しかし、そんなシーンを作ったところで、そこにどんな意味があるのか、あるいはどんな意味を与えられるのか。そう考えることはありませんか?

例えばそれが旅行先のPR映像でイメージとして美しさだけで充分ならそれはそれでいいのですが、本当に描きたいものはもっと違うように思ってしまいます。

最もただ単に、私の想像力がこの素晴らしいテクノロジーを使いこなせるレベルに追いついていないだけなのですが。

皆さんはどう思われるでしょうか?





The "Meaning" of Visual Expression in the Age of AI


Recently, I’ve been feeling the immense convenience of AI in my daily life. But when it comes to "video" and "visual expression," I find myself wondering: how are you all using it—or planning to use it?

I understand that AI is a fascinating and brilliant tool. Yet, when I sit down and ask myself, "What do I actually want to create with this?" I struggle to find a clear answer.


The Source of Authenticity


What gives a piece of footage a sense of "authenticity"—beyond just superficial realism—is the undeniable fact that the subject existed and that a continuous flow of time was captured.

Think about a car passing through a city intersection or people crossing a street. Is the meaning of filming that scene in reality the same as generating it with AI?

Of course, the meaning is different, and the purpose shifts. One might ask, "So what?" but I believe this distinction carries significant weight when we choose to use AI.


The Necessity of Story and Concept


If the visual itself is the priority, then a story becomes essential. Without one, the reason for the footage's existence becomes thin and blurred.

Because we can now create high-quality visuals so easily, the initial "Wow!" factor eventually fades. After making several videos, you start to realize that "realism" isn't the most important element.

In other words, because the footage isn't something that "actually happened," the concept—the why behind the creation—is questioned more than ever before.


The Challenge of "Noise" and Human Touch


I’m not saying that AI-generated video is meaningless. For someone who has never picked up a paintbrush, AI can take an image from their mind and turn it into a beautiful visual.

But the key word is "beautiful." In the real world, there is a vast diversity of people. While AI is quick to render "beautiful" men and women, it is surprisingly reluctant to depict someone who might be considered "unattractive" or "plain." To get that result, you have to interpret the idea of "unattractiveness" yourself and meticulously translate it into a prompt.

AI often feels that requests involving "noise"—those unnecessary yet essentially human flaws—are difficult to process. Perhaps because AI is so capable, it sees no inherent "need" to create ugliness.


Visuals Without Temperature


A great cinematic work shouldn't just be filled with perfect-looking people. When you film reality as it is, "noise" (the sense of existence) is naturally included. In AI, intentionally creating that noise is unexpectedly tedious.

AI can masterfully craft a stunning scene of someone walking their dog along a beach at sunset. But once that scene is created, I find myself thinking: What is the meaning here? What meaning can I actually give to this?

If it’s a promotional video for a travel destination where "surface-level beauty" is enough, then that’s fine. But I feel like the things I truly want to depict lie somewhere else.

Perhaps my own imagination simply hasn't caught up to the level of this incredible technology yet.


What do you all think?




こちらもオススメ