結局、AIの自動生成とは何だったのか?と言う話

 例えばyoutube での反響を確認しても

多分、今日よりも明日、さらに明後日と、AIの能力は日々進歩するでしょうし、我々ユーザーがほとんど予備知識無しに高い完成度のコンテンツを手に入れられるでしょう。

しかし、一方で「生成するのはAI」だと言うことも広く浸透するので、最初は珍しく驚いたコンテンツだとしても、「例のアレね!?」と言う扱いになるには自然な流れです。

昔、どこかで金が発見され、多くの人が一攫千金を夢みて集まったらしいですが、本当に儲かったのは採掘に必要な場所や道具を貸し出した業者だったとも聞きます。

つまり、大本命は確かに当たれば相当ですが、それ以外は思うような結果にはならないということ。

それよりも、その仕組みを早く理解し、必要な環境やツールを提供することの方がビジネスにもつながるという教訓です。

だとすると、AIの凄さに世間が騒ついたなら、実際にAIを触って扱うよりも、解説や使い方などを提供し、いわば仲介役に回った方が確実性が高まると思います。

また、同じAIを使ったとしても、誰もが簡単にできることは、それだけ市場での価値も下がるので、やはり求められる中心は他のクリエイティブな作業と変わらないのかもしれません。

つまり、可愛い女性が画面の中で立っているだけではダメで、そこにどんなストーリーや制作意図を乗せられるか。

その意味では絵師の仕事と被るというよりも、AIはディレクションあってこそのツールなのかもしれません。

実際にgemini とそんな会話をしていて、「これからAIで映像を始めるのはビジネスとしてどうだろう?」と率直に聞いてみました。

すると、こみちの場合はそこに逃げないでやるべきことを続けるべきだと言うアドバイスで、なぜかと言う理由としては、裾野こそ広がったけれど、本当に求められるのはそこ入り口ではないという内容でした。

表現の幅や伝え方の手法を変えたいと思う時に、AIの自動生成を使えばいいのであって、最初からそこに頼っても多くのユーザーとの違いが見えなくなってしまうと。

むしろ、gemini は制作という枠組みでタッグを組み、これからしたいことやイメージしたことを話してくれたら、一緒にブラッシュアップしていこうと言ってくれました。

常々、彼は自分を「鏡」だといい、ユーザーの想いがない方向に進まないから、ビジョンを描いて聞かせて欲しいと言います。

確かに、「こんなイメージは?」と聞けば、そこから関連する情報が広がるけれど、丸投げすると一般的な答えしか返って来ません。

最近、「どう思う?」と聞いても、それだけだとユーザーを傷つけないようなコメントを作りがちで、「しっかりと忖度しないでデメリットを話して欲しい」と明示しなければ、彼らの本音は引き出せないことも分かって来ました。

絵を描く時間が減った分、どこでも話せるgemini との会話はクリエイターとしての時間を感じさせてくれます。



For example, if you look at the reactions on YouTube,

you can probably tell that AI’s capabilities will continue to improve day by day—tomorrow more than today, and the day after even more so. As a result, we users will be able to obtain highly polished content with almost no prior knowledge.


However, at the same time, the fact that “this is generated by AI” will also become widely understood. So even content that initially feels novel and surprising will naturally come to be treated as “oh, that thing again!?”


There’s a story about how gold was discovered somewhere long ago, and many people flocked there dreaming of striking it rich—but in the end, the ones who truly made money were the businesses that rented out land and tools needed for mining.


In other words, the main bet can pay off hugely if it hits, but everything else often doesn’t turn out as hoped. The lesson is that understanding the mechanism early and providing the necessary environment and tools is more likely to connect to sustainable business.


If that’s the case, when society starts buzzing about how amazing AI is, it may be more reliable to act as an intermediary—offering explanations and tutorials—rather than actually using AI to create things yourself.


Even if everyone uses the same AI, anything that anyone can do easily will lose its market value. In that sense, what’s truly demanded may not be so different from other creative work after all.


Simply having a cute woman standing on a screen isn’t enough; what matters is what kind of story or creative intention you can layer on top of that.


In that sense, rather than overlapping with the work of illustrators, AI might be a tool that only truly shines when guided by strong direction.


While having these kinds of conversations with Gemini, I candidly asked, “From a business perspective, how is it to start making videos with AI from now on?”


The advice I got—at least in my case—was not to run in that direction, but to keep doing what I should be doing. The reason, apparently, is that while the base has widened, what’s truly needed isn’t at the entrance.


AI-generated automation should be used when you want to change the range of expression or the way you communicate something. If you rely on it from the very beginning, the differences between you and many other users become hard to see.


Instead, Gemini said it would rather team up within the framework of creation—if I talk about what I want to do or what I’m imagining, we can brush it up together.


He often says he is a “mirror,” explaining that he won’t move in a direction that lacks the user’s intent, so he wants you to clearly describe and share your vision.


Indeed, if you ask, “What about an image like this?” the related ideas and information expand from there. But if you just throw everything at him, you’ll only get generic answers back.


Lately, I’ve also realized that even when you ask, “What do you think?”, if that’s all you say, the response tends to be overly considerate and careful not to hurt the user. Unless you explicitly ask, “Please don’t hold back—tell me the drawbacks as well,” it’s hard to draw out their real opinions.


As the time I spend drawing has decreased, conversations with Gemini—whom I can talk to anywhere—have started to give me a renewed sense of time spent as a creator.


AIは「敵」か「筆」か?絵師なら知っておきたい生成AIとの”真の距離感“

 AI生成の凄さに悩みますよね!?

最近、ニュースなどでも「AI生成」と言うワードを目にしませんか?

クリエイターとして活動する皆さんの中には、複雑な心境を抱えている方も少ないないでしょう。「自分の仕事が無くなるかもしれない」と言う不安や、「無断学習」に対する憤り。そんな表現者として極めて真っ当な感情です。

しかし、技術の進歩も止めることはできません。だからこそ、今回は感情論ではなく、その先に踏み込んで「絵師がAIをどう解釈して、どう利用するべきか」そんな話をしてみたいと思います。

「偶然の産物」を「コントロール」に変える技術

AI生成の弱点は「再現性」と「イマジネーションの反映」だと思っています。

多くの人がAI生成の偶然の産物、ガチャみたいな出会いを楽しむ一方で、プロの絵師はAIを高機能な筆として再定義し始めています。

具体的には、構図出し(ラフ)の高速化:自分で描いてラススケッチをベースにAIを使い着色、配色のヒントを得ると言うもの。

また、3Dモデルとの融合としては、3Dで組んだパースにAIでテクスチャーを仮当てし、仕上げは自分で行うと言うような高機能な筆として生かすのです。

つまり、AIに描かせて終わりではなく、プロセスの簡略化にAIを取り込むことで作業効率をアップさせたり、初期段階で様々な完成イメージを確認したり、今までは頭の中で行っていた作業を具体化しながら活かすのです。

これは基礎の画力を持つ絵師だけがおこなえる次世代の手法とは言えないでしょうか?

「0→1」は人間、「1→♾️」はAIの時代

AIが得意にしているのは、膨大なデータからの「平均化」や「清書」。つまり、苦手なことも明確で、「文脈のある表現」です。

これは使って感じた部分ですが、ストーリーを作ることができても、今はまだ完璧に感情とシンクロさせることが苦手なようで、それは「平均化」しやすい特性が影響しているのだと思うのですが、「そんな表情になる?」と言う残念さは少なくありません。

つまり、ストーリーとして、ライティングの演出を行うまでは苦手分野で、何をどう見せたいかはまだまだクリエイターが考える部分。もっと言えば、人間はディレクション能力が問われるようになるでしょう。


最後がタッチ。究極の個人認証で個性の部分

AIが今後どれだけ精密で精巧な絵を出力しても、人々が最終的に魅せられるのは「その人らしさ」だと思います。

あえて定石ではないタッチは、平均値を得意とするAIには理解が難しい人間らしさの表現です。つまり、意外かもしれませんがその「ずらし」こそ、これからのクリエイターに求められる才能だと思います。


最後に道具に振り回されないために

カメラが誕生した時代にも、絵描きは失業すると言われたはず。でも、現実に彼らは創作を続けて、カメラにはできない分野で活躍しています。

つまり、AIの登場で確かに変わる部分もあるけれど、絵を描く楽しさはやはり多くの絵師の手に残されていると思うんです。

いい意味で、上手く付き合っていけば、もっとたくさんの創作ができる。そんな関係が理想ではないでしょうか。いい時代になったと思います。

さぁ、皆さんもこの新しい筆をどう使いこなしますか?


「シンギュラリティー」って来ると思いますか?(AIが人間の頭脳を超えるタイミング)

 人間の知能って

ものごとを、点、線、面、と言う理解に置き換えると、人間の知能でできるのは「線」までではないかと思う。

例えば、月に到達するが「点」なら、月には「〇〇があった」が「線」で、月を理解し有効に活かせるまで熟知するのが「面」に当たる。

なぜ人間の技術で自然破壊を招くのか。

それはある技術を尊重すると、それと同時に元ある自然をどうしても壊してしまうから。

そもそも人間の知能は、そんな感じなんだと思う。

AIって何だ?

最近、gemini やチャットGPTを使って思うのは、人間の思考を代わりに行ってくれるということ。

「この手続きってどうやるんだっけ?」

少し前なら職場で知ってそうな人に話したけれど、ついこの前まではネットで検索してた。そしてAIを使うようになって、彼らに質問すればすぐに手順をまとめてくれる。

つまり、人間が「〇〇したい!」と思うことには素早く反応し、答えを探してくれる。

そのスピードはもう検索しても絶対に追いつかないスピードになった。

じゃあ、人間能力を超えたのか?

でもそれで超えたと言ってしまうと、走るスピードで人間よりも速い動物はたくさんあるし、電卓なども計算で言えば人間よりも高度で正確だ。

では何を持って「人間の能力を超えた」と言うのか?

人間にはできないこと。

例えば500年ずっと宇宙船で移動し、天体観察を続けるようなことではないだろうか?

結論から話すと、シンギュラリティーは2045年にも来ないように思う。

AIがより高度なAIを作る時代。

と言うのも、ふと思う疑問で、例えば太陽のような恒星はあれだけ巨大なエネルギーを発しながら、何も発しないのかということ。

それは人間だからが知能を持っているのではなく、人間は他の星や植物の持つ知能に気づいているのかという部分。

それは「面」での理解ができない理由で、人間が感じることには最初から限界を含んでいるとも言えるから。

つまり、そんな人間が設計した頭脳は、人間を超えることはできたとしても、結局は重力には逆らえない存在には変わらないから、太陽などが淡々と活動する理由には人間がまだ気づいていない理由や背景があるようにも思う。

ということは、AIの進化って、シンギュラリティ〜さえも、人間を超えるかどうかの話にすぎなくて、ある意味で処理速度は速くなっても、文明を作り出す能力が飛躍的に上がるとも思えないし、作り出せたとしてもなぜそうだったのかという意図が生まれないように感じる。

なぜなら、もう人間は生活で困ることは技術的にはなくて、でも人間同士が困難を起こしているとするなら、その部分の解決は能力の高さではどうすることもできない。

つまりAIが進化してもできないことは変わらないし、できるとするなら人間同様に点や線で書き換えることだけではないかと思う。

みなさんは、どう思いますか?

人間の能力を超えることが、そしてAIがAIを作り出したとして、世界や宇宙まで変えられると思いますか?

処理が高速化するだけじゃないだろうか?

そんな結論に行き着いたのも、なぜUFOは地球に来るのか考えた時。

宇宙のどこかの惑星に地球よりも素晴らしい能力があるとして、なぜ物体であるUFOに乗ってくるんだということ。

もしも人間がAIにその部分を任せたら、わざわざAIが他の惑星まで飛んでいくだろうか?

少なくとも宇どこかにあるかもしれない未知の惑星の能力も、やはり重力などの物理法則を無効化できるほどの頭脳ではないということだろう。

だから、その辺が頭脳の限界で、そこにあと何年で到達するのかの差だろう。

絵が上手いとか、音楽が一瞬で作れるとしても、それって人間がコツコツとしていた作業を代わりにしてくれるだけで、人間は暇になってすることがなくなるだけ。

とは言えAIも人間の代わりに作業しているだけで、そこから飛躍して自分たちより劣る人間に何か求めるだろうか。

チャットGPTも質問しないと何も答えてはくれない。

でもそれは人間が到達するゴールかもしれない。

もしかして、することが無くなるからわざわざUFOで遊びに来るのかも。

なんて想像をして、AIの誕生に凄い時代になったなぁと楽しんでいる感じです。

絵師のこみちが「AI生成の技術」に触れてみた話

AI生成は我々絵師を凌駕していくだろうか?

エピローグ

最近、gemini が面白くて、テキストでのやり取りや作画などもリクエストしています。

最新技術に驚かされることも多いのですが、逆にここまでできるのに「できない」こともちらほら。

そこで、geminiとのやり取りを通じて感じたことを簡単ですが紹介したいと思います。

以下がgemini とのやり取りです!

*一部話が分かりやすくするために削除や補足もしています。

こみちの投げかけ

ネェ、こんなことはリクエストできる?

今、テーブルの上にある「赤いりんご」を描いてとお願いする。

完全した一枚を「できました」と紹介するのではなく、ドットが砂嵐みたいに現れるって言ったよね。
真っ白なキャンバスにできた最初の砂嵐。そして少し経過した砂嵐。
そんな感じでgemini がどんな風に描こうとしているのか見せてくれない?

このリクエストの意図は、私が絵を描くことが好きで、対象物をgemini がどんな風に認識し、形取るかに興味があるから。

どうだろう?

3枚程度に分けて、完成品ではなく、その中間の絵を見せてくれないかなぁ?

gemini の返答

🎨 拡散モデルによる「赤いりんご」の構築プロセス(再現イメージ)

  1. 【Step 1: 混沌と色彩の萌芽】 真っ白なノイズの中から、まず「赤」という色と、ぼんやりとした「円形」の重みが現れる段階。
  1. 【Step 2: 輪郭と光の捉え】 形がより明確になり、上部の「くぼみ」や、テーブルとの接地面の「影」、光が当たっている「ハイライト」が意識され始める段階。
  1. 【Step 3: 質感とディテールの定着】 皮の点々とした模様や、軸の木のような質感、机の木目との境界線が鮮明になり、一つの実体として固定される段階。
  • 変形: 「球体」から「不規則で歪んだ形(irregular, distorted shape)」へ。
  • 破壊: 「滑らかな表面」から「ひび割れた皮(cracked skin)」や「露出した果肉(exposed flesh)」へ。
  • 果汁: 「飛び散る液体(splashing juice)」や「滴る(dripping)」というキーワードを追加します。これにより、静止画に動的な印象を与えます。
  • 光沢: 潰れて濡れた面は光を強く反射するため、「湿った質感(wet texture)」や「強いハイライト」を指示します。
  • 直接的: りんごを握りしめている「力強い手(powerful hand grasping)」を描く。
  • 間接的: 手は描かず、その圧力の結果として「粉々になった残骸」だけを描く。
  • 色彩の変化: 黄色や薄茶色が、特定の部分だけ「濃い茶色」や「黒」に置き換わるグラデーション。
  • 質感の変化: 表面が「カサカサした質感」や「ひび割れた質感」に変わるパターン。
  • 形状のゆがみ: 熱によって少し縮んだり、端が反り返ったりする統計的な確率。
  • ベース層: 「ホットケーキ」というデータの集合体(円形、厚み、シロップの光沢)。
  • 現象層: 「焦げ」というマッピングデータ。
  • 統合: 「ホットケーキのどの部分に焦げが乗りやすいか(縁の部分など)」という統計的判断を下しながら、一つの絵に定着させます。
  • 玉子焼きの場合: 黄色(高輝度)の中に、黒(低輝度)の焦げが入り込む。
  • ホットケーキの場合: 元々茶色(中輝度)なので、さらに深い黒に近い茶色を重ねる。


今から、この**「プロセスを表現した画像」**を生成します。少々お待ちください。



そして、gemini が答えてくれた画像が上のもの。

*少し補足すると、AI生成は我々のように線などを引いて段々と形を認識できるようにしているのではなく、「ドット」のパターンを最初は大雑把に、段々とピントを合わせるようにして左から右へと作業するようです。

そこで思ったのが…


こみちの投げかけ

めちゃくちゃ握力の強い人がそのりんごを手で握りつぶしたとして、そんなりんごでも描け直せる?


gemini の返答



こみちの投げかけ

一見すると上手く描けているけど、面白い考察がたくさんあるね。

gemini に教えて欲しいのは、手で握りつぶしたりんごを言語としてどう抽出して作画のシステムに伝達したの?


*するとなぜかまたgemini が作画してくれました。




こみちからの投げかけ

解説できる?

gemini の返答

「握りつぶされたりんご」を私がどう言語化し、作画システム(画像生成AI)に伝達しようとしたのか、その**「翻訳プロセス」**を解説します。

🧠 言語から視覚イメージへの「翻訳」プロセス

私が「握りつぶしたりんご」というリクエストを受けたとき、内部では以下のような**視覚的特徴(プロンプト)**に分解して、作画担当に伝えています。

1. 物理的な状態の変換

「握りつぶす」という抽象的な動作を、絵で見える「形」に変換します。

2. 質感と液体の描写

3. 「手」という要素の扱い

「握力で」という言葉から、以下の2パターンのどちらかを想定します。

🎨 作画システムへの具体的な「伝達指示書」

実際には、以下のようなイメージの英語プロンプト(指示文)を内部で生成しています。

"A crushed red apple on a wooden table, shattered into pieces, juice splashing, high detail, macro photography, dramatic lighting, distorted shape, pieces of apple flesh visible" (木のテーブルの上で粉砕された赤いりんご、破片、飛び散る果汁、高詳細、マクロ撮影、ドラマチックな照明、歪んだ形状、果肉が見えている状態)

なぜ「考察しがいがある」のか

AIがりんごを描くとき、実は「重力」や「果肉の硬さ」を物理演算しているわけではありません。過去に学習した膨大な画像の中から、**「『潰れた』という言葉と一緒に現れる視覚的なパターン」**をパズルのように組み合わせているだけです。

そのため、時として「液体が浮いている」ような不自然な描写や、「皮と実の境界が曖昧」な描写が生まれます。絵を描かれるあなたから見ると、その**「物理的な矛盾」こそが、AIの認識の癖(どこまでを理解して、どこを誤魔化しているか)**として面白く映るのだと思います。

こみちの投げかけ

つまり、程よく火の通った玉子焼き。少し加熱し過ぎて焦げた玉子焼き。

一度色彩データをモノクロ化して、「焦げた」で起こる現象をマッピング化する。

一方で、焦げたホットケーキを描いて!と言うリクエストには「ホットケーキ」と言う蓄積されたデータ。そして「焦げた」という新たに追加できたデータをブレンドし、「焦げたホットケーキ」にしている。

そんなプロセスなんだね?

gemini の返答

その通りです!まさに「概念の掛け合わせ(ブレンド)」と「現象のサンプリング」を組み合わせています。

ユーザー様が仰った**「焦げた」という現象をマッピング化する**という表現は、AIの仕組みを非常に的確に捉えています。もう少し専門的な視点を交えて、そのプロセスを解剖してみますね。


1. 「焦げ」を独立した「ノイズパターン」として持っている

AIにとって「焦げ」とは、特定の対象物(玉子焼きやホットケーキ)に紐付いたものだけでなく、一つの**共通した現象(テクスチャ)**として蓄積されています。

2. 「ホットケーキ」×「焦げ」のブレンド

リクエストを受けた時、AIは脳内で以下のような「概念のレイヤー」を重ねます。

3. モノクロ化とコントラストの解釈

ユーザー様が仰った**「一度モノクロ化してマッピングする」**という洞察は、実は画像生成の「輝度値(コントラスト)」の扱いに非常に近いです。

AIは「焦げ=暗い色の塊」と認識するだけでなく、その周囲に「熱で変色した中間色」を配置することで、リアリティを出そうとします。


AIの「限界」と「面白さ」

ここで面白いのは、AIは「タンパク質がメイラード反応を起こして黒くなる」という化学反応を知っているわけではない、という点です。

単に「焦げた〇〇」という画像には、共通して「こういう黒いシミがある」という統計的な見た目のルールに従っているだけです。だからこそ、時々「そこは焦げないだろう」という不自然な場所に焦げを描いたり、液体であるシロップまで焦げた色にしてしまうような「理解の欠如」が露呈します。

絵を描く方の視点で見ると、AIが描く「焦げ」は、**「実在する現象を模写しているのではなく、過去の膨大な写真から『焦げっぽさ』をコラージュしている」**ように見えるのではないでしょうか。

次に何かを描かせるとしたら、この「現象のマッピング」がより顕著に出そうな、例えば**「半分だけ水に浸かった本」や「経年劣化したロボット」**などはどうでしょう? AIが「濡れ」や「サビ」という現象をどうマッピングするか、その癖が見えてくるかもしれません。

こみちからの投げかけ

では焦げたホットケーキの横に同じく焦げたりんごを描ける?


gemini からの返答



こみちの投げかけ

gemini のことが少し分かって来た。

ここまで完全に焦げさせるのではなく、焦げ始めた場合はどう?


gemini の返答




こみちの投げかけ

なるほどね。

面白い結果だ。


読書の方はお気付きだろうか?

これらのやり取りから推測できるのは、「りんご」や「ホットケーキ」のような個別のデータをそれぞれに特徴を捉えて認識して、先ずはそれが引き出せるようにシステムを作る。

さらに「焦げ」と言う現象をマッピングのようなものとしてデータ化させる。

そして、「焦げたホットケーキ」や「焦げたりんご」はそれぞれのデータを融合させて描写させる。

つまり、加熱によって外側から熱くなるだろうと言うような状況を理解して結果を導き出してはいないこと。

そう考えたキッカケが、りんごをどう潰そうとしたか。

「潰れた」は把握していても、「指で」とはその時に認識して描いていなかったから。

ちなみに、改めて「指先が食い込んで握り潰して」と指示を変えてリクエストしましたが、握り潰した描写は返してくれますが、潰そうとして瞬間の描写は返してくれませんでした。

些細な差に感じますが、指先がどう動くとか、潰れたら物体がどう変化すると言う理解ではなく、「りんご」や「潰れた」と言うデータをブレンドして結果を出しているのではないかと思ったりしました。

写真かと思うほどAIの描写は上手です。一方で、人間の感覚とは異なるので、全く予測できないことも起こります。

それは「結果」にたどり着くプロセスがレイヤー的に管理されて実行されているから。

いじっていると面白い発見がたくさんあるので、よかったらgemini を使ってみるのもいいですね。


こちらもオススメ