1つの記事でAIの最新動向を理解できます！ワーカーユーザーガイド→

2023年3月、GPT-4に代表されるAI技術がAI熱の波を引き起こしました。半年が経ち、AI分野では多くの新たな展開があり、その中には「働く人々」の生活を完全に変えるものもあるかもしれない。

次に、過去 6 か月間に AI 分野で最も注目された事柄を振り返ってみましょう。

GPTの最大のライバル、ジェミニ登場

2023年5月、Google I/O開発者会議で、Google CEOのピ・チャイ氏は、GoogleのDeepMindがGeminiモデルをトレーニングしていることを明らかにした。

Gemini は、GPT-4 と競合するために特別に設計された大規模な言語モデルです。半導体調査会社SemiAnalysisの分析によると、Geminiの計算能力はGPT-4の5倍になるという。

さらに、GPT-4と比較して、Genimiはマルチモーダル入力をより適切にサポートできるため、テキスト情報に加えて、画像や音声情報も処理でき、現在のGPT-4よりもGeminiの使いやすさが向上します。

そして、私たちはまもなくジェミニが活動するのを見ることになるかもしれません。海外テクノロジーメディア「The Information」が9月14日に報じたところによると、ジェミニは一部企業に使用権とテスト権を開放したという。 Gemini が Google の製品マトリックスに導入され、一般向けにサービス提供が開始されるまで、そう長くはかからないかもしれません。

画像出典: インターネット

Open AIがより汎用性の高い「GPT-5」をトレーニング

もちろん、Gemini のようなマルチモーダル機能を備えた相手と対峙した OpenAI は、黙って座っているつもりはない。

実際、今年 3 月の GPT-4 発表会議で、GPT-4 はマルチモーダル処理機能を早くも実証しました。記者会見では、デモンストレーターがウェブページのスケッチを手描きし、それを写真に撮ってGPT-4に送信し、このレイアウトに従ってウェブページを作成するように指示しました。 GPT-4 はすぐに Web ページのコードを書き込みました。

しかし、記者会見後の実際のアプリケーションでは、ユーザーは ChatGPT のマルチモーダル処理機能を体験しなかったようです。

Google の Gemini の課題に対応するため、OpenAI は ChatGPT と新しい画像生成モデル DALL·E-3 を組み合わせて、GPT をより「多用途」なものにしました。 9月25日にGPT-4のバージョンがアップデートされ、音声や画像情報も処理できるようになりました。

たとえば、以下はDALL・E-3とChatGPTによって生成されたコンテンツです。 GPT は、テキストに基づいて対応する絵を描くだけでなく、絵の情報も解釈し、会話に基づいて絵に変更を加えることもできます。

DALLE3 テキストから作成された画像

GPTは、写真の小さなハリネズミがなぜこんなにも素晴らしいのかを説明する

「小さなハリネズミが熱狂的であることを示しなさい」という要件に従って DALL·E 3 によって生成された画像

OpenAIはDALL・E-3とChatGPTを組み合わせるだけでなく、「GPT-5」の導入も開始している。 9月25日にリリースされたGPTの新バージョンでは、音声通信や画像認識のテスト機能が導入されました。

実際、今年3月（GPT-4の登場直後）には、情報セキュリティやプライバシーへの懸念から、GPT-5の研究を中止すべきだという声がネット上で相次ぎました。 OpenAIのCEOであるサム・アルトマン氏も、短期的にはGPT-5モデルのトレーニングを行わないと約束した。

The Informationによると、GPT-4の登場から半年後、OpenAIは設計当初からマルチモーダル機能を備えた「Gobi」というコードネームの新しいモデルの開発を開始したという。一部のメディアでは、これが将来の GPT-5 になるかもしれないと主張しています。

マイクロソフトが「従業員福利厚生パッケージ」を発表: Microsoft Copilot

マイクロソフトは 9 月 21 日に Microsoft Copilot ファミリーパッケージをリリースしました。 Microsoft Copilot に慣れていない場合は、次のように理解できます。 Word、Excel、PPT、Windows に付属するブラウザなど、私たちがよく使用するソフトウェアはすべて GPT-4 でサポートされます。

私たちが最もよく使う Word を例にとると、文書を作成するときに、トピックを Word に直接伝えると、そのトピックに関連する文書が自動的に生成されます。同時に、画像マッチング機能も備えています。インターネットで写真を探すのに時間を費やす必要さえありません。テキストに基づいて画像を生成することもできます。

Excel に関しては、新しい Microsoft Copilot ファミリでは、さまざまな数式を覚える必要も、Excel でプログラミングする必要もありません。 Excel に目的を伝えるだけで、数式の作成、コードの記述、データの分析などの作業が自動的に完了します。ただ待って結果を見る必要があります。

さらに、Web を閲覧するときに、Web ページの内容を詳細に読む必要もありません。ブラウザは現在のページの重要な情報を直接要約するのに役立ち、多くの時間を節約するのに役立ちます。

これは、過去 6 か月間で労働者に贈られた最も「フレンドリーな」 AI ギフトパッケージかもしれません。

AIが人間の匂いの理解を助ける

人間の視覚、聴覚、嗅覚の中でも、嗅覚は私たちが考えるよりもはるかに複雑かもしれません。

視覚の場合、私たちが見る色は光の波長と関連しており、聴覚の場合、音は物体の振動周波数に関連しています。嗅覚に関しては、人間は数百の嗅覚受容体を持っているだけでなく、生活の中で一般的な匂いは多くの種類の匂い分子によって形成されることが多いため、単純で完璧な数学モデルを確立することは困難です。

今年8月にサイエンス誌に掲載された論文では、科学者らが「グラフニューラルネットワーク」というAI技術を使って匂いと成分の関係を特定し、匂いマップを生成したと指摘されている。このマップに基づいて、既知の化合物を使用して目的の味を設定できます。

さらに重要なのは、AI が描いた匂いマップは 50 万種類の潜在的な匂いをカバーしており、AI の助けを借りれば、これまで想像もできなかった匂いを嗅ぐことができるようになるかもしれないということです。これにより、食品・スパイス業界の現状が大きく変わり、私たちの生活はより「風味豊かに」なるかもしれません。

AIが匂いを識別するプロセス。画像出典: 参考文献

自動運転は運転方法を教えます

自動運転企業Wayveは9月14日、オープンループ自動運転評価システムLINGO-1をリリースした。簡単に言えば、自動運転の説明装置だと考えることができます。

自動運転にはなぜ通訳が必要なのでしょうか?これは実は非常に興味深く、重要な研究です。運転中、あなたが行うすべての選択と行動には根拠がなければならないと想像してください。例えば、前の車が遅すぎると感じ、隣の車線は空いていて安全なので、追い越すために隣の車線まで運転することにしたり、交差点では人が多く周囲の環境を注意深く観察する必要があるため減速したりします。

LINGO-1は、人間が慣れ親しんでいる自然言語で自動運転車の動作を説明することもでき、人間の具体的な質問に答えることもできます。たとえば、自動運転車が交差点で停止したときに、「今何を観察していますか？」と尋ねることができます。近くに自転車に乗っている人がいる場合、自動運転車に「この自転車と安全な距離を保っているとどのように判断しますか？」と尋ねることもできます。

現在、LINGO-1の回答精度は60％程度に過ぎませんが、LINGO-1の機能は絶えず向上しており、このような研究は大きな意義を持っています。

人工知能の説明可能性を向上させることができます。これまで、自動運転車が下した決定の多くは人間にとってブラックボックスでした。なぜ車が車線を変更したのか、また、追い越しができたのになぜそうしなかったのかも分かりませんでした。 AI がどのように意思決定を行うかを理解することで、エンジニアは自動運転アルゴリズムをより適切に設計し、自動運転車の安全性を継続的に向上させることもできます。同時に、一般ユーザーの自動運転に対する理解と信頼も高まり、人工知能による意思決定のプロセスがブラックボックスではなくなります。

AIは複数の競技で人間を上回る

8月30日、ネイチャー誌に掲載された記事によると、一人称視点のドローンレースでAIが人間を上回ったことが分かった。

一人称視点のドローンレースは、通常のリモコン航空機とは異なります。パイロットは高速飛行するドローンの視点から周囲の環境を観察し、操作を行う必要があります。 AI の場合、ビデオセンサーから返された情報を迅速に分析し、飛行経路を最適化するための決定を下す必要があります。 Nature の記事によると、この競争で人間のチャンピオンに勝つことができたのは、「移動ロボットと機械知能の分野における画期的な出来事」だという。この成果は、将来の自動運転車や無人航空機にとって大きな価値となる可能性があります。

ドローン分野だけでなく、認証コードの分野でもAIは驚異的なパフォーマンスを発揮しています。

認証コードは私たちの日常生活で非常に一般的です。 Web ページにログインするためにアカウントを入力する場合、奇妙な形の文字や数字を認識したり、パズルのようなスライダーをドラッグしたり、「ヘッドアップ」画像をクリックしたりするなど、さまざまな確認コードを目にすることがよくあります。これらの検証コードの目的は、ロボットが悪意を持ってログインして登録するのを防ぐことです。

しかし、2023年7月の記事では、AIは人間よりもCAPTCHAの処理に優れている可能性があることが示されました。この実験では、1,000人以上の人間のテスターを招待し、120の主要なウェブサイトで確認コードを使用するように依頼しました。

結果によると、人間が CAPTCHA 問題を解く精度は 50% から 80% の間です。比較すると、CAPTCHA 問題を解く AI の精度は 85% から 100% の間であり、そのほとんどが 96% を超えています。 AI は人間よりも高い精度を誇るだけでなく、CAPTCHA を人間よりも 0.5 秒速く解くこともできます。

これは、AI技術が発展するにつれて、人間がAIから身を守るために使用する検証コードの有効性がますます低下する可能性があることを意味しており、これはネットワークと情報セキュリティにとって非常に深刻な課題です。科学者は、AIから保護しつつも人間を混乱させない新しいタイプのCAPTCHAの設計を開始する必要がある。

人間の脳のシミュレーションプロジェクトは「失敗」

近年、人工知能技術は大きく進歩しましたが、 AIを使って人間の脳をシミュレートすることに関しては、人間は悲惨な敗北を喫しました。

2013年、ヨーロッパの科学者たちは10年間にわたる「人間の脳プロジェクト」を立ち上げた。科学者たちは最先端のコンピューター技術を使って、10年以内に人間の脳内の数百億のニューロンとそのシナプスをシミュレートし、それによって人間の脳の動作プロセスを復元し、人間の脳の謎を解明する計画を立てている。

今年10月1日がこのプロジェクトの「達成」日だが、科学者らは総額13億ユーロ（約100億元）を投資したが、「人間の脳をシミュレートする」という目標にはまだ程遠い。科学者たちは人間の脳の複雑さを過小評価してきました。これは人類が「人工知能」を構築しようとした試みの失敗だと言えるでしょう。

人間はヒューマン・ブレイン・プロジェクトにおいて「人工知能」の構築にはまだ成功していないが、このような探究は非常に有意義である。このプロジェクトで、科学者たちは確かに人間の脳についてより深い理解を獲得しました。例えば、科学者たちは人間の脳のより詳細な地図を描き、前頭前皮質の中にこれまで知られていなかったいくつかの脳領域を発見しました。

さらに、科学者は遺伝子発現と脳構造の関連性を確立し、脳構造に関連するいくつかの疾患（うつ病など）を遺伝子レベルで研究できるようになりました。一部のデジタル脳モデルは、パーキンソン病などの病気にも臨床応用されています。

画像ソース: unsplash.com 撮影者: Xu Haiwei

ヨーロッパのヒューマン・ブレイン・プロジェクトに加えて、中国、米国、日本、韓国、オーストラリアなどの国々でも独自のヒューマン・ブレイン・プロジェクトが実施されています。人間の脳の構造と知能の起源をより深く理解して初めて、「人工知能」技術をより良く開発することができるのです。

人工知能の分野は非常に急速に発展しています。わずか半年で、GPT-4は強力な敵に遭遇し、AIは人間が匂いマップやより詳細な脳マップを構築するのを助け、自動運転車にも「説明者」が誕生した。

この急速な技術発展により、私たちはより安全で便利な生活を享受できるようになりました。彼らの開発は、私たちの生活の中で毎日繰り広げられる SF 大ヒット作です。

参考文献

[1] https://www.semianalogy.com/p/google-gemini-eats-the-world-gemini

[2]https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai

[3] https://openai.com/dall-e-3

[4]https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

[5] https://sitn.hms.harvard.edu/flash/2023/this-ai-smells-better-than-you/

[6] https://wayve.ai/ Thinking/lingo-natural- language-autonomous-driving/