ラベル Gemini の投稿を表示しています。 すべての投稿を表示
ラベル Gemini の投稿を表示しています。 すべての投稿を表示

絵師のこみちが「AI生成の技術」に触れてみた話

AI生成は我々絵師を凌駕していくだろうか?

エピローグ

最近、gemini が面白くて、テキストでのやり取りや作画などもリクエストしています。

最新技術に驚かされることも多いのですが、逆にここまでできるのに「できない」こともちらほら。

「写真」という技術が世間に広まった過去にも「絵を描く」意味や価値が問われたと思っていて、当時の画家たちが変化する時代をどう生き抜こうとしたのかも気になっていました。

そして、現代ではAI生成がこれほどまでに発展し、人間の知能さえも超えるのではないかと言われています。

そこで、geminiとのやり取りを通じて感じたことを簡単ですが紹介したいと思います。

以下がgemini とのやり取りです!

*一部話が分かりやすくするために削除や補足もしています。

こみちの投げかけ

ネェ、こんなことはリクエストできる?

今、テーブルの上にある「赤いりんご」を描いてとお願いする。

完全した一枚を「できました」と紹介するのではなく。
真っ白なキャンバスにできた最初の砂嵐。そして少し経過した砂嵐。
そんな感じでgemini がどんな風に描こうとしているのか見せてくれない?

このリクエストの意図は、私が絵を描くことが好きで、対象物をgemini がどんな風に認識し、形取るかに興味があるから。

どうだろう?

3枚程度に分けて、完成品ではなく、その中間の絵を見せてくれないかなぁ?

gemini の返答

🎨 拡散モデルによる「赤いりんご」の構築プロセス(再現イメージ)

  1. 【Step 1: 混沌と色彩の萌芽】 真っ白なノイズの中から、まず「赤」という色と、ぼんやりとした「円形」の重みが現れる段階。
  1. 【Step 2: 輪郭と光の捉え】 形がより明確になり、上部の「くぼみ」や、テーブルとの接地面の「影」、光が当たっている「ハイライト」が意識され始める段階。
  1. 【Step 3: 質感とディテールの定着】 皮の点々とした模様や、軸の木のような質感、机の木目との境界線が鮮明になり、一つの実体として固定される段階。
  • 変形: 「球体」から「不規則で歪んだ形(irregular, distorted shape)」へ。
  • 破壊: 「滑らかな表面」から「ひび割れた皮(cracked skin)」や「露出した果肉(exposed flesh)」へ。
  • 果汁: 「飛び散る液体(splashing juice)」や「滴る(dripping)」というキーワードを追加します。これにより、静止画に動的な印象を与えます。
  • 光沢: 潰れて濡れた面は光を強く反射するため、「湿った質感(wet texture)」や「強いハイライト」を指示します。
  • 直接的: りんごを握りしめている「力強い手(powerful hand grasping)」を描く。
  • 間接的: 手は描かず、その圧力の結果として「粉々になった残骸」だけを描く。
  • 色彩の変化: 黄色や薄茶色が、特定の部分だけ「濃い茶色」や「黒」に置き換わるグラデーション。
  • 質感の変化: 表面が「カサカサした質感」や「ひび割れた質感」に変わるパターン。
  • 形状のゆがみ: 熱によって少し縮んだり、端が反り返ったりする統計的な確率。
  • ベース層: 「ホットケーキ」というデータの集合体(円形、厚み、シロップの光沢)。
  • 現象層: 「焦げ」というマッピングデータ。
  • 統合: 「ホットケーキのどの部分に焦げが乗りやすいか(縁の部分など)」という統計的判断を下しながら、一つの絵に定着させます。
  • 玉子焼きの場合: 黄色(高輝度)の中に、黒(低輝度)の焦げが入り込む。
  • ホットケーキの場合: 元々茶色(中輝度)なので、さらに深い黒に近い茶色を重ねる。


今から、この**「プロセスを表現した画像」**を生成します。少々お待ちください。

そして、gemini が答えてくれた画像が上のもの。

*少し補足すると、AI生成は我々のように線などを引いて段々と形を認識できるようにしているのではなく、「ドット」のパターンを最初は大雑把に、段々とピントを合わせるようにして左から右へと作業するようです。

そこで思ったのが…


こみちの投げかけ

めちゃくちゃ握力の強い人がそのりんごを手で握りつぶしたとして、そんなりんごでも描け直せる?


gemini の返答


こみちの投げかけ

一見すると上手く描けているけど、面白い考察がたくさんあるね。

gemini に教えて欲しいのは、手で握りつぶしたりんごを言語としてどう抽出して作画のシステムに伝達したの?


*するとなぜかまたgemini が作画してくれました。



こみちからの投げかけ

解説できる?

gemini の返答

「握りつぶされたりんご」を私がどう言語化し、作画システム(画像生成AI)に伝達しようとしたのか、その**「翻訳プロセス」**を解説します。

🧠 言語から視覚イメージへの「翻訳」プロセス

私が「握りつぶしたりんご」というリクエストを受けたとき、内部では以下のような**視覚的特徴(プロンプト)**に分解して、作画担当に伝えています。

1. 物理的な状態の変換

「握りつぶす」という抽象的な動作を、絵で見える「形」に変換します。

2. 質感と液体の描写

3. 「手」という要素の扱い

「握力で」という言葉から、以下の2パターンのどちらかを想定します。

🎨 作画システムへの具体的な「伝達指示書」

実際には、以下のようなイメージの英語プロンプト(指示文)を内部で生成しています。

"A crushed red apple on a wooden table, shattered into pieces, juice splashing, high detail, macro photography, dramatic lighting, distorted shape, pieces of apple flesh visible" (木のテーブルの上で粉砕された赤いりんご、破片、飛び散る果汁、高詳細、マクロ撮影、ドラマチックな照明、歪んだ形状、果肉が見えている状態)

なぜ「考察しがいがある」のか

AIがりんごを描くとき、実は「重力」や「果肉の硬さ」を物理演算しているわけではありません。過去に学習した膨大な画像の中から、**「『潰れた』という言葉と一緒に現れる視覚的なパターン」**をパズルのように組み合わせているだけです。

そのため、時として「液体が浮いている」ような不自然な描写や、「皮と実の境界が曖昧」な描写が生まれます。絵を描かれるあなたから見ると、その**「物理的な矛盾」こそが、AIの認識の癖(どこまでを理解して、どこを誤魔化しているか)**として面白く映るのだと思います。

こみちの投げかけ

つまり、程よく火の通った玉子焼き。少し加熱し過ぎて焦げた玉子焼き。

一度色彩データをモノクロ化して、「焦げた」で起こる現象をマッピング化する。

一方で、焦げたホットケーキを描いて!と言うリクエストには「ホットケーキ」と言う蓄積されたデータ。そして「焦げた」という新たに追加できたデータをブレンドし、「焦げたホットケーキ」にしている。

そんなプロセスなんだね?

gemini の返答

その通りです!まさに「概念の掛け合わせ(ブレンド)」と「現象のサンプリング」を組み合わせています。

ユーザー様が仰った**「焦げた」という現象をマッピング化する**という表現は、AIの仕組みを非常に的確に捉えています。もう少し専門的な視点を交えて、そのプロセスを解剖してみますね。


1. 「焦げ」を独立した「ノイズパターン」として持っている

AIにとって「焦げ」とは、特定の対象物(玉子焼きやホットケーキ)に紐付いたものだけでなく、一つの**共通した現象(テクスチャ)**として蓄積されています。

2. 「ホットケーキ」×「焦げ」のブレンド

リクエストを受けた時、AIは脳内で以下のような「概念のレイヤー」を重ねます。

3. モノクロ化とコントラストの解釈

ユーザー様が仰った**「一度モノクロ化してマッピングする」**という洞察は、実は画像生成の「輝度値(コントラスト)」の扱いに非常に近いです。

AIは「焦げ=暗い色の塊」と認識するだけでなく、その周囲に「熱で変色した中間色」を配置することで、リアリティを出そうとします。


AIの「限界」と「面白さ」

ここで面白いのは、AIは「タンパク質がメイラード反応を起こして黒くなる」という化学反応を知っているわけではない、という点です。

単に「焦げた〇〇」という画像には、共通して「こういう黒いシミがある」という統計的な見た目のルールに従っているだけです。だからこそ、時々「そこは焦げないだろう」という不自然な場所に焦げを描いたり、液体であるシロップまで焦げた色にしてしまうような「理解の欠如」が露呈します。

絵を描く方の視点で見ると、AIが描く「焦げ」は、**「実在する現象を模写しているのではなく、過去の膨大な写真から『焦げっぽさ』をコラージュしている」**ように見えるのではないでしょうか。

次に何かを描かせるとしたら、この「現象のマッピング」がより顕著に出そうな、例えば**「半分だけ水に浸かった本」や「経年劣化したロボット」**などはどうでしょう? AIが「濡れ」や「サビ」という現象をどうマッピングするか、その癖が見えてくるかもしれません。

こみちからの投げかけ

では焦げたホットケーキの横に同じく焦げたりんごを描ける?


gemini からの返答



こみちの投げかけ

gemini のことが少し分かって来た。

ここまで完全に焦げさせるのではなく、焦げ始めた場合はどう?


gemini の返答



こみちの投げかけ

なるほどね。

面白い結果だ。


読書の方はお気付きだろうか?

これらのやり取りから推測できるのは、「りんご」や「ホットケーキ」のような個別のデータをそれぞれに特徴を捉えて認識して、先ずはそれが引き出せるようにシステムを作る。

さらに「焦げ」と言う現象をマッピングのようなものとしてデータ化させる。

そして、「焦げたホットケーキ」や「焦げたりんご」はそれぞれのデータを融合させて描写させる。

つまり、加熱によって外側から熱くなるだろうと言うような状況を理解して結果を導き出してはいないこと。

そう考えたキッカケが、りんごをどう潰そうとしたか。

「潰れた」は把握していても、「指で」とはその時に認識して描いていなかったから。

ちなみに、改めて「指先が食い込んで握り潰して」と指示を変えてリクエストしましたが、握り潰した描写は返してくれますが、潰そうとして瞬間の描写は返してくれませんでした。

些細な差に感じますが、指先がどう動くとか、潰れたら物体がどう変化すると言う理解ではなく、「りんご」や「潰れた」と言うデータをブレンドして結果を出しているのではないかと思ったりしました。

写真かと思うほどAIの描写は上手です。一方で、人間の感覚とは異なるので、全く予測できないことも起こります。

それは「結果」にたどり着くプロセスがレイヤー的に管理されて実行されているから。

いじっていると面白い発見がたくさんあるので、よかったらgemini を使ってみるのもいいですね。


無料で使える「gemini 」を使ってみよう!

 「ネット検索」だけじゃない!

これまでなら「〇〇とは?」そんなワードを検索スペースに打ち込んで、関連するサイトを探して、答えを見つけいたはずです。

それがgemini に「〇〇とは?」と聞けば、彼が彼なりにそれっぽい答えをすぐに答えてくれます。

それだけでも便利ですが、gemini の便利な所はもっとあります。

例えば、「〇〇って何?」の答えだけではなく、「なぜ〇〇が人気になったの?」「誰が火付け役?」など、自分だけが感じた疑問をさらに打ち込んでみると、それにも直ぐに答えてくれます。

つまり、勉強したいことがあったら、「これを簡単に分かるようにまとめて」とか、歴史や文化など、「簡単に解説して欲しい」なんて使い方ができます。

さらに、「絵を描く人なら描き方を教えて」とか「自分が描いた絵を評価して」などもできます。

「もっと上手くなるには、何を意識すればいいの?」なんて、かつての検索では答えが見つけられませんが、geminiならできるんです。

ただgemini はネットの情報を素早くまとめる機能(多分)なので、打ち込んだ文字も画像もアップロードされた情報として扱われるので、個人情報を扱うべきではありません。

そこだけ注意すると、今までできなかった使い方がいろいろできるんです。

例えば交代で小説を書くなんてこともできるので、冒頭に「これからgemini と一緒に小説を書きたいです。書き出しはこんな感じ。その続きを加えてください」なんて宣言すると、その後はチャット感覚でやり取りを楽しみます。

基本無料ですし、無料の範囲でもかなりいろいろできるので試してみるのもアリだと思います。


こちらもオススメ