正直に言うと、AI は驚くほどクールです。ただし、驚くほど予測可能でなければの話です。
これまでに、生成型 AI が超現実的なアート、目もくらむようなビジュアル、信じられないほど独創的なデザインを生み出し、注目を集めた例をいくつか目にしたことがあるでしょう。ネオンの光に照らされた異星の都市や、木々に生物発光する花が咲く森を想像するように AI に頼んでみれば、なんと、人間が通常思い描くものの限界を押し広げるイメージが提示されます。
しかし、AI に時計を描くように指示すると、すべての魔法がきしむ音とともに停止します。何が得られるでしょうか? 頑固に10:10 のまま動かない時計です。
ほとんど笑える話です。AI に「ビンテージ腕時計を描いて!」「未来的な腕時計を描いて!」「溶けたダリ風の時計を描いて!」などと指示しても、時計の針はなぜかあの妙に明るい 10:10 の位置にたどり着きます。AI がニュアンス、ランダム性、創造性を理解できるはずなのに、なぜここまでこだわるのでしょうか。
その答えは、トレーニング モデルの面白い成果物というだけでなく、創造性や偏見を理解し、使い古された慣習から抜け出すという点で AI が直面する大きな課題を縮図的に見るものでもあります。それでは、リストバンドを締めて、この驚くほど哲学的で、非常に技術的な謎を深く掘り下げていきましょう。
AIを非難する前に、まずは私たち人間について話しましょう。AIが10:10を好む理由は、アルゴリズムが「そうだ、ここが完璧な時間だ」と決めたからではありません。AIは、私たち人間が何十年もかけて時計のデザインに取り入れてきた行動を単に繰り返しているだけなのです。
これまで目にした時計の広告のほとんどすべてに、同じ象徴的な 10:10 のタイムスタンプが使われています。これは、世界中のすべての製品写真家が「10:10 カルト」に加わったからではありません。この時間選択がこれほど主流になっている理由は次のとおりです。
対称性が美しい: 10:10 の時計の針は、視覚的に美しい調和を生み出します。対称的ですが、厳しすぎません。また、ほとんどの時計で 12 時の位置に配置されていることが多いブランド ロゴを完璧に囲んでいます。
「笑顔の時計」効果: よく見てください。10:10 のところで、上向きにカーブした針が笑顔の形を模倣しています。意識的であろうと潜在的であろうと、ブランドは、幸せで歓迎的なデザイン要素が製品の売り上げを伸ばすことを理解しています。
マーケティングの過剰: この慣習が支配的になると、雪だるま式に拡大しました。広告からストック画像、カタログ写真まで、時計が登場するあらゆる場所で10:10 が標準になりました。これは永続的なデザイン ルールになりました。
何十年もの間、私たちはこのビジュアルを世界に提供し続け、それがあまりにも遍在的になったため、時計の文字盤を想像するとき、私たちの脳でさえそれをデフォルトで思い浮かべるようになりました。私たちはそれについて考えることすらなく、ただそれを期待しているのです。
そして今、AI も同様です。
「偉大な模倣者」とも呼ばれる AI が 10:10 から抜け出せない理由を理解するために、これらのモデルがどのように学習するかを簡単に説明しましょう。
Stable Diffusion、DALL-E 2、MidJourney などの強力なモデルを含むすべての生成 AI モデルは、トレーニングに膨大なデータセットに依存しています。これらのデータセットは、インターネットから収集された膨大な画像コレクション (多くの場合、数十億) です。ストック写真、オンライン リポジトリ、ユーザー生成コンテンツなど、ありとあらゆるものが対象です。
AI がこれらの画像から「時計」の概念を学習するとき、単に時計の美しさや機能を分析するだけではありません。繰り返しのパターンを探します。
インターネット上の時計の画像で最も多く見られるのは何かわかりますか? そうです、10:10 です。
AI の無批判な「心」にとって、時計に関する最も統計的に重要な真実は、時計が時間を知らせるということではなく、時計がほぼ常に次のように見えるということである。
アルゴリズムが認識する「時計」の画像の 95% が本質的に同一である場合、時計を作成するように指示すると何が起こると思いますか? AI はそれ以上のことは知りません。AI は、最も馴染みのある時計のバージョン (10:10) をユーザーが望んでいると想定します。
「ちょっと待って、AI は創造的であるはずだ!なぜ反抗しないのか?」と思うかもしれません。
そこがややこしいところです。AI は創造的であるように思えるかもしれません。まるで何もないところからアイデアを引き出しているかのように。しかし、そうではありません。AI は確率的に機能し、トレーニング中に学習したパターンから引き出します。その謎を解き明かしましょう。
AI の脳を巨大な「オートコンプリート」ゲームと考えてみましょう。Google に「犬種」と入力すると、「ラブラドール」や「ジャーマン シェパード」などのオートコンプリート候補が表示されます。これは、これらが最も一般的だからです。同様に、AI が「腕時計」の画像を生成する場合、AI はこれまでに見たパターンに基づいて、平均的な腕時計の外観をサンプリングします。
重要な技術的な詳細は次のとおりです。
生成モデルは、学習したすべてのものの高次元数学的表現である「潜在空間」を探索して画像を作成します。この潜在空間を、パターン、アイデア、形状で構成された高密度の銀河として想像してください。「時計の文字盤」などのオブジェクトは、この銀河内でクラスターを形成します。時計の場合、そのクラスターの最も密度が高く、最も簡単にアクセスできる部分は、ご想像のとおり、10:10 です。
モデルが画像の生成を開始すると、これらの密集した領域は重力井戸のように機能します。「創造的なランダム性」に迷い込むのではなく、近くにあるものを選択する可能性が高くなります。
ここでは、モードの崩壊という別の問題も発生しています。
モード崩壊は機械学習でよくある落とし穴で、AI モデルが可能性の狭いサブセットのみを優先し、あまり頻繁に見られないオプションを無視し始めます。これは、最も一般的な例だけにスポットライトが当てられ、残りが暗闇に消えていくようなものです。10:10 の時計は AI トレーニング データセットで大幅に過剰に表現されるため、これが「デフォルト」になります。AI に指示するたびに、AI はこの安全で馴染みのある選択に戻ります。
問題は、これが時計に限った話ではないということです。同じ偏見は、あらゆる種類の生成出力に潜んでいます。たとえば、AI に「ビジネスマン」の一般的な画像を生成するように依頼すると、スーツとネクタイを着用した典型的な西洋人男性の画像が生成されることがよくあります。ストック画像ではそれが主流だからです。AI の偏見は、そのデータと同じくらいしかなく、ご存知のように、データセットには数十年、場合によっては数世紀にわたる人間の偏見が詰まっています。
理論的にはそうです。技術的には?それははるかに難しい問題です。
AI が 10:10 のマンネリ、あるいはその他の深く根付いた文化的偏見から抜け出すには、平均というセーフティネットに積極的に抵抗するデータとアルゴリズムが必要です。そのイメージは次のようになります。
データセットの多様化: まず、トレーニング データセットに、あまり取り上げられていない代替案が含まれていることを確認します。AI のトレーニング データに、10:10 という頻度でランダムな時刻の時計が含まれていれば、この偏りを和らげることができます。ただし、これを大規模なデータセットに拡張するのは簡単なことではありません。また、データセットをクリーニングするには、かなりの計算リソースと人的リソースが必要です。
確率の再重み付け: エンジニアは AI の報酬アルゴリズムを微調整して、より珍しい出力を積極的に促進することができます。たとえば、10:10 のようなデフォルトの出力に強く引き寄せられすぎる場合にペナルティを追加することができます。
プロンプトへのノイズの注入: 高度なシステムでは「プロンプト ノイズ」を導入して、時計の針の位置など、出力の微妙な側面を AI に明示的にランダム化させるか、より広義には、潜在空間の未探索領域を探索するように強制することができます。
カスタム微調整: モデルを微調整して、作品の創造性を高めることもできます。より多様なデータやニッチなデータ (7:13 や 4:47 の時計のデータセットなど) で小規模で特化されたモデルをトレーニングすることで、クリエイターは特定の出力を型破りなものにすることができます。
とはいえ、ここには危険な道があります。ランダム性を過度に奨励すると、AI が完全に基盤を失い、「創造的」というよりは、支離滅裂または無意味な出力が作成されることになります。デフォルトのパターンと真のイノベーションの間のスイートスポットを見つけることは、今日の AI 開発における最大のジレンマの 1 つです。
AI が 10:10 のまま止まった時計を描き続ける理由は、単にトレーニング データやコーディングの癖のためだけではありません。これは、生成型 AI が私たちの創造性、偏見、データの限界をいかに反映しているかを示す縮図なのです。AI に「既成概念にとらわれない思考」を期待するとき、私たちは AI がもともと私たちの枠内で構築されていたことを忘れてしまいます。
私がこれについて興味をそそられるのは、潜在空間やトレーニング分布がどのように機能するかという技術的な退屈なことではありません (ただし、それ自体が非常にクールであることは認めます)。ここで印象的なのは、AI が私たちに独自のパターンを認識させる方法です。私たちは 10:10 を時計の普遍的なシンボルにしました。そして、私たちが慣習を変えるか、AI に親しみやすさよりも多様性を重視するように教えるまで、AI はそれらの選択を私たちに繰り返し伝え続けるでしょう。
したがって、次に AI に過去にとらわれた時計の作成を依頼するときは、創造性とは必ずしもアルゴリズムではなく、意図によるものであるという穏やかなリマインダーとして考えてください。
そして今のところ、AI のウォッチフェイスは 10 時 10 分で永遠に止まったまま、あなたに微笑みかけています。