AIを人間として扱いますか?間違っている！

[編集者注] 人間の科学者や起業家は、機械が人間のように学習し、人間に代わって現実の問題を解決できるようになることを期待して、人間の思考方法に従って人工知能 (AI) システムをトレーニングしてきました。

しかし、Google DeepMind の研究科学者であるウィル・ホイットニー氏の見解では、モデルを人間として扱うことは、モデルとのやり取りについての考え方を大きく制限し、大規模モデルの潜在能力を最大限に引き出すことを妨げることになります。「AI 内部のコンピューティング」と題された記事で、ホイットニーは「モデルを人として扱う」ことの欠点を分析し、「モデルをコンピュータとして扱う」という概念を提案しました。

彼はウェブサイトの構築を例に挙げて両者の違いを比較しました。「モデルは人である」という比喩では、ビッグモデルは請負業者または協力者とみなされ、ますます厳しくなる要求の長いリストの中でウェブサイトのスタイル、コンテンツ、機能を絶えず「修正」するため、コミュニケーションコストが高くなります。「モデルをコンピュータとして」のインタラクション方法は異なりますが、ビッグモデルはウェブサイトを直接構築するのではなく、リアルタイムでインタラクトし、オンデマンドで生成される「生成ユーザーインターフェイス」を提供することで、より効果的なコミュニケーションを実現し、より短時間で最終製品をより細かく制御できるようになります。

いくつかの見解は次のとおりです。

「モデルは人である」という考えは、2 人の人間間のコミュニケーションギャップと同じように、ユーザーとモデルの間に距離を生み出します。この距離は縮めることはできても、完全に埋めることはできません。通信のオーバーヘッドを考慮すると、モデルを人間として扱うシステムは、作業全体を独立して完了できる場合に最も役立ちます。優れたツールは、そのツールが何に使用できるかを人間に伝えます。これは、言葉でリクエストを書くよりも迅速です。「モデルはコンピュータである」という比喩では、「コンピュータアプリケーション」はモデルが私たちに自身を明らかにする手段となり、より短時間で最終製品をより細かく制御できるようになります。生成型ユーザーインターフェイスは、必要に応じてインターフェイスとウィンドウをオンザフライで生成および管理し、オペレーティングシステムを完全に置き換える可能性があります。

Academic Headlines では、原文の主な意味を変えずにインタビュー内容の一部を要約しています。内容は以下のとおりです。

ChatGPT の発売以来、人工知能 (AI) 分野における業界の 2 つの方向への探求は最高潮に達しました。

最初の方向は技術的な能力です。どのくらいの規模のモデルをトレーニングできますか? SAT（Scholastic Assessment Test）の質問にどの程度正確に答えられますか?どれだけ効果的にサービスを提供できているでしょうか?

2 番目の方向はインタラクションデザインです。モデルとどのようにコミュニケーションをとるのでしょうか?どうすればそれを有用な仕事に活用できるでしょうか?それを説明するためにどのような比喩を使うのでしょうか?

最初の方向は幅広い注目と投資を集めており、これは当然のことです。技術力の進歩は、あらゆる可能なアプリケーションの基盤となるからです。しかし、2 番目の方向もこの分野にとって同様に重要であり、大きな未知数を含んでいます。大型モデルの時代に入ってまだ数年しか経っていません。それらを使用する最善の方法をすでに見つけている可能性はどれくらいあるでしょうか?

私は、モデルがコンピュータ（電話など）アプリケーションの役割（グラフィカルインターフェイスの提供、ユーザー入力の解釈、状態の更新）を果たす新しいインタラクションパラダイムを提案します。このモデルでは、人工知能はもはや人間に代わってコンピューターを使用する「インテリジェントエージェント」ではなく、より豊富で強力なコンピューティング環境を提供できるようになります。

インタラクティブなメタファー

インタラクションの中心となるのは、システムに対するユーザーの期待を導くメタファーです。初期のコンピューティングでは、「デスクトップ」、「タイプライター」、「スプレッドシート」、「手紙」などの比喩がデジタルの同等物に変換され、ユーザーが自分の行動を推論できるようになりました。机の上に物を置いて、後で戻ってくることもできます。手紙を送るには住所が必要です。これらのデバイスに関する文化的知識が進化するにつれて、これらの特定のメタファーの必要性はなくなり、それとともに、メタファーを強化するスキューモーフィックなインターフェースデザインも消滅しました。ゴミ箱や鉛筆と同様に、コンピューターも今では比喩になっています。

今日、大きなモデルを表す主な比喩は「モデルを人として見る」というものです。人間は幅広い能力を持ち、それらの能力について強い直感を持っているため、これは効果的な比喩です。つまり、モデルと話して質問することができます。モデルは私たちと協力してドキュメントやコードを完成させることができます。タスクを与えて、それを自ら完了させることができます。

しかし、モデルを人として考えると、モデルとのやり取りについての考え方が大きく制限されます。人と人との間のやりとりは、本質的に遅く直線的であり、会話の帯域幅と順番交代の性質によって制限されます。会話の中で複雑な考えを伝えるのが難しく、情報が失われてしまうような経験をしたことがある人は多いでしょう。精度を求める場合、直接操作と高帯域幅のビジュアルインターフェイスを使用して図を作成したり、コードを記述したり、CAD モデルを設計したりするツールに頼ります。私たちはモデルを人間として概念化しているため、モデルが迅速かつ直接的な入力を受け入れて視覚的な結果を生成する能力を十分に備えているにもかかわらず、ゆっくりとした会話を通じてモデルを使用します。私たちが使用するメタファーは、私たちが構築する体験を制限し、「モデルは人である」という考え方により、大きなモデルの可能性を最大限に探求することを妨げています。

多くのユースケース、特に生産作業では、私は「モデルとしてのコンピュータ」という別の比喩を信じています。

AIをコンピューターとして使う

「モデルはコンピュータである」という比喩のもと、コンピュータアプリケーション (デスクトップ、タブレット、電話など) に関する直感に基づいて、大きなモデルと対話します。これは、モデルが従来のアプリケーションになることを意味するものではないことに注意してください。「コンピューターアプリケーション」は、モデルが私たちに明らかになる 1 つの方法です。モデルはもはや「人」のようなものではなく、「コンピュータ」のようなものになります。

そして、それをコンピューターのように実行するには、グラフィカルインターフェイスを生成する必要があります。 ChatGPT が提供する魅力的で電信的な直線的なテキストストリームの代わりに、「モデルをコンピューターとして」システムは、ボタン、スライダー、タブ、画像、描画など、最新のアプリケーションインターフェイスに似たものを生成します。これにより、「人間としてのモデル」チャットインターフェースの主な制限が解決されます。

発見可能性。優れたツールは、それが何に使用できるかを人間に伝えます。唯一のインターフェースが空のテキストボックスである場合、何をすべきかを判断し、システムの境界を理解する責任はユーザーにあります。 Lightroom の編集サイドバーは、プログラムで写真に対して何ができるかだけでなく、自分が何をしたいかもわかるので、写真編集を学ぶのに最適です。同様に、DALL-E の「モデルをコンピュータとして」インターフェースは、画像生成に新たな可能性をもたらします。スケッチスタイルの画像を要求すると、描画媒体 (鉛筆、マーカー、パステルなど) のラジオボタン、スケッチの詳細レベルのスライダー、カラーと白黒の切り替え、およびパースペクティブ (2D、同形、2 点透視図法など) を選択するためのグラフィカルボタンが生成されます。効率。リクエストをテキストで記述するよりも直接操作する方が高速です。 Lightroom の例を続けると、写真を編集する場合、どのスライダーをどの程度動かすかを誰かに指示することは考えられません。それがどのように機能するかを確認するために、露出を低くして鮮明度を上げるように要求して一日中過ごすことになります。「モデルをコンピューターとして」という比喩では、モデルはアイデアをより効果的に表現し、タスクをより速く完了できるツールを作成できます。 DALL-E の場合、これらのオプションをクリックしてスライダーをドラッグすることで、生成されたスケッチの空間をリアルタイムで探索できます。従来のアプリケーションとは異なり、このグラフィカルインターフェイスはモデルによってオンデマンドで生成されます。つまり、表示されるインターフェースのすべての部分は、作業の具体的な内容 (この絵画の主題、このテキストのトーン) を含め、現在行っている作業に関連しています。これは、より多くのインターフェースや異なるインターフェースが必要な場合、それを要求できることを意味します。 DALL-E に、有名なスケッチアーティストからインスピレーションを得た編集可能な設定プリセットを作成するよう依頼できます。 DaVinci プリセットをクリックすると、スライダーが非常に詳細な黒インク遠近法の描画に設定されます。 Charles Schulz をクリックすると、低精細のテクノカラー 2D コミックストリップが選択されます。

思考の変化する自転車

「モデルは人である」という考え方には、ユーザーとモデルの間に距離を生み出す奇妙な傾向があります。それは、2 人の人間の間に生じるコミュニケーションのギャップのようなもので、縮めることはできても、完全に埋めることは決してできません。言語によるコミュニケーションは困難でコストがかかるため、人々はタスクを可能な限り独立した大きな塊に分割する傾向があります。モデルを人間として扱うインターフェースは、次のようなパターンに従います。自分で記述する方が速い場合は、関数に return ステートメントを追加するようにモデルに指示してもほとんど意味がありません。通信のオーバーヘッドを考慮すると、モデルを人間として扱うシステムは、作業全体を独立して完了できる場合に最も役立ちます。彼らはあなたのために物事をやってくれます。

これは、私たちがコンピューターや他のツールとやり取りする方法とはまったく対照的です。ツールはリアルタイムの視覚的なフィードバックを生成し、直接操作によって制御されます。これらのツールの通信オーバーヘッドは最小限であるため、個別の作業ブロックを指定する必要はありません。常に人間がツールの状況を把握し、ツールを制御できるようにしておく方が理にかなっています。七リーグブーツのように、ツールを使用すると、各ステップでさらに前進できますが、作業を行うのは依然としてあなたです。タスクをより速く完了できるようになります。

大規模なモックアップを使用して Web サイトを構築するタスクを考えてみましょう。現在のインターフェースを使用すると、モデルを請負業者または共同作業者として扱うことができます。希望する Web サイトの外観、コンテンツ、機能について、できるだけ詳しく書き記すことができます。モデルは予備バージョンを生成し、それを実行するとフィードバックが得られます。「ロゴを大きくする」「最初のヒーロー画像を中央に配置する」「ヘッダーにログインボタンを配置する」などと言うでしょう。すべてを自分の希望通りにしようとして、細かい要求をどんどん細かく列挙した長いリストを送りつけます。

「モデルをコンピューターとして」のインタラクション方法は異なります。モデルは Web サイトを直接構築するのではなく、Web サイトを構築するためのインターフェイスを生成します。インターフェースにおけるユーザーのあらゆる入力は、インターフェースの背後にある大きなモデルを動かします。おそらく、ニーズを説明すると、サイドバーとプレビューウィンドウを含むインターフェイスが生成されるでしょう。最初は、サイドバーには開始点として選択できるレイアウトスケッチのみがいくつか表示されます。各スケッチをクリックすると、モックアップはそのレイアウトを使用して Web ページの HTML を書き込み、プレビューウィンドウに表示されます。これでページが機能するようになったので、サイドバーには、フォントの組み合わせや配色など、ページ全体に影響する追加のオプションが追加されます。プレビューは WYSIWYG エディターのようなもので、要素を取得して移動したり、その内容を編集したりできます。これらすべてはモデルによって実行され、モデルはユーザーによるこれらのアクションを認識し、ユーザーが行った変更に基づいてページを書き換えます。モックアップは、より効果的なコミュニケーションに役立つインターフェースを生成するため、より短時間で最終製品をより細かく制御できます。

「モデルはコンピューターである」という考え方は、モデルをタスクを割り当てる協力者としてではなく、リアルタイムのインタラクティブツールとして扱うことを推奨しています。これはインターンやカウンセラーの代わりというよりは、常にあなたとあなたが横断する予定の地形に合わせて調整される、心のための多目的自転車です。

コンピューティングにおける新しいパラダイム?

オンデマンドでインターフェースを生成できるモデルは、コンピューティングにおけるまったく新しい分野です。既存のアプリケーションモデルをバイパスすることで、まったく新しいパラダイムが生まれる可能性もあります。エンドユーザーにアプリケーションを即座に作成および変更する機能を与えると、コンピューターとのやり取りの方法が根本的に変わります。モデルは、開発者が構築したモノリシックで静的なアプリケーションに取って代わり、ユーザーとその当面のニーズに合わせたアプリケーションを生成します。モデルは、コードに実装されたビジネスロジックを置き換え、ユーザー入力を解釈して、ユーザーインターフェイスを更新します。この生成型ユーザーインターフェイスは、オペレーティングシステムを完全に置き換え、必要に応じてインターフェイスとウィンドウをオンザフライで生成および管理することもできます。

当初、ジェネレーティブユーザーインターフェイスは、創造的な探求やその他のニッチなアプリケーションにのみ役立つ「おもちゃ」でした。結局のところ、時々誤って元恋人にメールを送信したり、受信トレイの状態について嘘をついたりするようなメールアプリは誰も欲しくないはずです。しかし、時間が経つにつれて、これらのモデルは改善されるでしょう。まったく新しい経験の領域にさらに踏み込んでいくにつれて、実際の仕事として使えるほどに徐々に信頼性が増していきます。

この未来の始まりはすでに現れ始めています。数年前、Jonas Degrave 氏は、ChatGPT が Linux コマンドラインを非常にリアルにエミュレートできることを示しました。同様に、websim.ai は LLM を使用して、閲覧時にオンデマンドで Web サイトを生成します。 Oasis、GameNGen、DIAMOND は、単一のビデオゲームでアクション条件付きビデオモデルをトレーニングし、Doom などのゲームを大規模なモデルでプレイできるようにします。 Genie 2 は、テキストプロンプトに基づいてプレイ可能なビデオゲームを生成します。生成 UI はまだクレイジーなアイデアかもしれませんが、それほどクレイジーではありません。

それがどのようなものになるかについては、まだ多くの疑問が残っています。生成型ユーザーインターフェイスはどこで最初に登場するのでしょうか?モデルの操作を通じて得た経験が、より大きなモデルのコンテキスト内でのみ存在する場合、どうすればそれを共有できるでしょうか?私たちはこれをやるつもりですか?どのような新しい体験ができるのでしょうか？これは実際どのように機能するのでしょうか?モデルはユーザーインターフェイスをコードとして生成する必要がありますか、それとも生のピクセルを直接生成する必要がありますか?

これらの答えはまだ分かりません。確かめるには実験してみる必要があります!

オリジナルリンク: https://willwhitney.com/computing-inside-ai.html

翻訳：李文静

この記事は著者の見解を述べたものであり、Academic Headlines の立場を代表するものではありません。

<<: 有名俳優が浴室で死亡、原因は「ヒートショック」とみられる。ヒートショックとは何ですか？どうすれば回避できるでしょうか?

>>: Gigya: ソーシャルメディアログインの現状と E コマースへの影響 (インフォグラフィック)