1つの記事でAIの最新動向を理解できます!ワーカーユーザーガイド→

1つの記事でAIの最新動向を理解できます!ワーカーユーザーガイド→

2023年3月、GPT-4に代表されるAI技術がAI熱の波を引き起こしました。半年が経ち、AI分野では多くの新たな展開があり、その中には「働く人々」の生活を完全に変えるものもあるかもしれない。

次に、過去 6 か月間に AI 分野で最も注目された事柄を振り返ってみましょう。

GPTの最大のライバル、ジェミニ登場

2023年5月、Google I/O開発者会議で、Google CEOのピ・チャイ氏は、GoogleのDeepMindがGeminiモデルをトレーニングしていることを明らかにした。

Gemini は、GPT-4 と競合するために特別に設計された大規模な言語モデルです。半導体調査会社SemiAnalysisの分析によると、Geminiの計算能力はGPT-4の5倍になるという。

さらに、GPT-4と比較して、Genimiはマルチモーダル入力をより適切にサポートできるため、テキスト情報に加えて、画像や音声情報も処理でき、現在のGPT-4よりもGeminiの使いやすさが向上します。

そして、私たちはまもなくジェミニが活動するのを見ることになるかもしれません。海外テクノロジーメディア「The Information」が9月14日に報じたところによると、ジェミニは一部企業に使用権とテスト権を開放したという。 Gemini が Google の製品マトリックスに導入され、一般向けにサービス提供が開始されるまで、そう長くはかからないかもしれません。

画像出典: インターネット

Open AIがより汎用性の高い「GPT-5」をトレーニング

もちろん、Gemini のようなマルチモーダル機能を備えた相手と対峙した OpenAI は、黙って座っているつもりはない。

実際、今年 3 月の GPT-4 発表会議で、GPT-4 はマルチモーダル処理機能を早くも実証しました。記者会見では、デモンストレーターがウェブページのスケッチを手描きし、それを写真に撮ってGPT-4に送信し、このレイアウトに従ってウェブページを作成するように指示しました。 GPT-4 はすぐに Web ページのコードを書き込みました。

しかし、記者会見後の実際のアプリケーションでは、ユーザーは ChatGPT のマルチモーダル処理機能を体験しなかったようです。

Google の Gemini の課題に対応するため、OpenAI は ChatGPT と新しい画像生成モデル DALL·E-3 を組み合わせて、GPT をより「多用途」なものにしました。 9月25日にGPT-4のバージョンがアップデートされ、音声や画像情報も処理できるようになりました。

たとえば、以下はDALL・E-3とChatGPTによって生成されたコンテンツです。 GPT は、テキストに基づいて対応する絵を描くだけでなく、絵の情報も解釈し、会話に基づいて絵に変更を加えることもできます。

DALLE3 テキストから作成された画像

GPTは、写真の小さなハリネズミがなぜこんなにも素晴らしいのかを説明する

「小さなハリネズミが熱狂的であることを示しなさい」という要件に従って DALL·E 3 によって生成された画像

OpenAIはDALL・E-3とChatGPTを組み合わせるだけでなく、「GPT-5」の導入も開始している。 9月25日にリリースされたGPTの新バージョンでは、音声通信や画像認識のテスト機能が導入されました。

実際、今年3月(GPT-4の登場直後)には、情報セキュリティやプライバシーへの懸念から、GPT-5の研究を中止すべきだという声がネット上で相次ぎました。 OpenAIのCEOであるサム・アルトマン氏も、短期的にはGPT-5モデルのトレーニングを行わないと約束した。

The Informationによると、GPT-4の登場から半年後、OpenAIは設計当初からマルチモーダル機能を備えた「Gobi」というコードネームの新しいモデルの開発を開始したという。一部のメディアでは、これが将来の GPT-5 になるかもしれないと主張しています。

マイクロソフトが「従業員福利厚生パッケージ」を発表: Microsoft Copilot

マイクロソフトは 9 月 21 日に Microsoft Copilot ファミリー パッケージをリリースしました。 Microsoft Copilot に慣れていない場合は、次のように理解できます。 Word、Excel、PPT、Windows に付属するブラウザなど、私たちがよく使用するソフトウェアはすべて GPT-4 でサポートされます。

私たちが最もよく使う Word を例にとると、文書を作成するときに、トピックを Word に直接伝えると、そのトピックに関連する文書が自動的に生成されます。同時に、画像マッチング機能も備えています。インターネットで写真を探すのに時間を費やす必要さえありません。テキストに基づいて画像を生成することもできます。

Excel に関しては、新しい Microsoft Copilot ファミリでは、さまざまな数式を覚える必要も、Excel でプログラミングする必要もありません。 Excel に目的を伝えるだけで、数式の作成、コードの記述、データの分析などの作業が自動的に完了します。ただ待って結果を見る必要があります。

さらに、Web を閲覧するときに、Web ページの内容を詳細に読む必要もありません。ブラウザは現在のページの重要な情報を直接要約するのに役立ち、多くの時間を節約するのに役立ちます。

これは、過去 6 か月間で労働者に贈られた最も「フレンドリーな」 AI ギフト パッケージかもしれません。

AIが人間の匂いの理解を助ける

人間の視覚、聴覚、嗅覚の中でも、嗅覚は私たちが考えるよりもはるかに複雑かもしれません。

視覚の場合、私たちが見る色は光の波長と関連しており、聴覚の場合、音は物体の振動周波数に関連しています。嗅覚に関しては、人間は数百の嗅覚受容体を持っているだけでなく、生活の中で一般的な匂いは多くの種類の匂い分子によって形成されることが多いため、単純で完璧な数学モデルを確立することは困難です。

今年8月にサイエンス誌に掲載された論文では、科学者らが「グラフニューラルネットワーク」というAI技術を使って匂いと成分の関係を特定し、匂いマップを生成したと指摘されている。このマップに基づいて、既知の化合物を使用して目的の味を設定できます。

さらに重要なのは、AI が描いた匂いマップは 50 万種類の潜在的な匂いをカバーしており、AI の助けを借りれば、これまで想像もできなかった匂いを嗅ぐことができるようになるかもしれないということです。これにより、食品・スパイス業界の現状が大きく変わり、私たちの生活はより「風味豊かに」なるかもしれません。

AIが匂いを識別するプロセス。画像出典: 参考文献

自動運転は運転方法を教えます

自動運転企業Wayveは9月14日、オープンループ自動運転評価システムLINGO-1をリリースした。簡単に言えば、自動運転の説明装置だと考えることができます。

自動運転にはなぜ通訳が必要なのでしょうか?これは実は非常に興味深く、重要な研究です。運転中、あなたが行うすべての選択と行動には根拠がなければならないと想像してください。例えば、前の車が遅すぎると感じ、隣の車線は空いていて安全なので、追い越すために隣の車線まで運転することにしたり、交差点では人が多く周囲の環境を注意深く観察する必要があるため減速したりします。

LINGO-1は、人間が慣れ親しんでいる自然言語で自動運転車の動作を説明することもでき、人間の具体的な質問に答えることもできます。たとえば、自動運転車が交差点で停止したときに、「今何を観察していますか?」と尋ねることができます。近くに自転車に乗っている人がいる場合、自動運転車に「この自転車と安全な距離を保っているとどのように判断しますか?」と尋ねることもできます。

現在、LINGO-1の回答精度は60%程度に過ぎませんが、LINGO-1の機能は絶えず向上しており、このような研究は大きな意義を持っています。

人工知能の説明可能性を向上させることができます。これまで、自動運転車が下した決定の多くは人間にとってブラックボックスでした。なぜ車が車線を変更したのか、また、追い越しができたのになぜそうしなかったのかも分かりませんでした。 AI がどのように意思決定を行うかを理解することで、エンジニアは自動運転アルゴリズムをより適切に設計し、自動運転車の安全性を継続的に向上させることもできます。同時に、一般ユーザーの自動運転に対する理解と信頼も高まり、人工知能による意思決定のプロセスがブラックボックスではなくなります。

AIは複数の競技で人間を上回る

8月30日、ネイチャー誌に掲載された記事によると、一人称視点のドローンレースでAIが人間を上回ったことが分かった。

一人称視点のドローンレースは、通常のリモコン航空機とは異なります。パイロットは高速飛行するドローンの視点から周囲の環境を観察し、操作を行う必要があります。 AI の場合、ビデオ センサーから返された情報を迅速に分析し、飛行経路を最適化するための決定を下す必要があります。 Nature の記事によると、この競争で人間のチャンピオンに勝つことができたのは、「移動ロボットと機械知能の分野における画期的な出来事」だという。この成果は、将来の自動運転車や無人航空機にとって大きな価値となる可能性があります。

ドローン分野だけでなく、認証コードの分野でもAIは驚異的なパフォーマンスを発揮しています

認証コードは私たちの日常生活で非常に一般的です。 Web ページにログインするためにアカウントを入力する場合、奇妙な形の文字や数字を認識したり、パズルのようなスライダーをドラッグしたり、「ヘッドアップ」画像をクリックしたりするなど、さまざまな確認コードを目にすることがよくあります。これらの検証コードの目的は、ロボットが悪意を持ってログインして登録するのを防ぐことです。

しかし、2023年7月の記事では、AIは人間よりもCAPTCHAの処理に優れている可能性があることが示されました。この実験では、1,000人以上の人間のテスターを招待し、120の主要なウェブサイトで確認コードを使用するように依頼しました。

結果によると、人間が CAPTCHA 問題を解く精度は 50% から 80% の間です。比較すると、CAPTCHA 問題を解く AI の精度は 85% から 100% の間であり、そのほとんどが 96% を超えています。 AI は人間よりも高い精度を誇るだけでなく、CAPTCHA を人間よりも 0.5 秒速く解くこともできます。

これは、AI技術が発展するにつれて、人間がAIから身を守るために使用する検証コードの有効性がますます低下する可能性があることを意味しており、これはネットワークと情報セキュリティにとって非常に深刻な課題です。科学者は、AIから保護しつつも人間を混乱させない新しいタイプのCAPTCHAの設計を開始する必要がある。

人間の脳のシミュレーションプロジェクトは「失敗」

近年、人工知能技術は大きく進歩しましたが、 AIを使って人間の脳をシミュレートすることに関しては、人間は悲惨な敗北を喫しました。

2013年、ヨーロッパの科学者たちは10年間にわたる「人間の脳プロジェクト」を立ち上げた。科学者たちは最先端のコンピューター技術を使って、10年以内に人間の脳内の数百億のニューロンとそのシナプスをシミュレートし、それによって人間の脳の動作プロセスを復元し、人間の脳の謎を解明する計画を立てている。

今年10月1日がこのプロジェクトの「達成」日だが、科学者らは総額13億ユーロ(約100億元)を投資したが、「人間の脳をシミュレートする」という目標にはまだ程遠い。科学者たちは人間の脳の複雑さを過小評価してきました。これは人類が「人工知能」を構築しようとした試みの失敗だと言えるでしょう。

人間はヒューマン・ブレイン・プロジェクトにおいて「人工知能」の構築にはまだ成功していないが、このような探究は非常に有意義である。このプロジェクトで、科学者たちは確かに人間の脳についてより深い理解を獲得しました。例えば、科学者たちは人間の脳のより詳細な地図を描き、前頭前皮質の中にこれまで知られていなかったいくつかの脳領域を発見しました。

さらに、科学者は遺伝子発現と脳構造の関連性を確立し、脳構造に関連するいくつかの疾患(うつ病など)を遺伝子レベルで研究できるようになりました。一部のデジタル脳モデルは、パーキンソン病などの病気にも臨床応用されています。

画像ソース: unsplash.com 撮影者: Xu Haiwei

ヨーロッパのヒューマン・ブレイン・プロジェクトに加えて、中国、米国、日本、韓国、オーストラリアなどの国々でも独自のヒューマン・ブレイン・プロジェクトが実施されています。人間の脳の構造と知能の起源をより深く理解して初めて、「人工知能」技術をより良く開発することができるのです。

人工知能の分野は非常に急速に発展しています。わずか半年で、GPT-4は強力な敵に遭遇し、AIは人間が匂いマップやより詳細な脳マップを構築するのを助け、自動運転車にも「説明者」が誕生した。

この急速な技術発展により、私たちはより安全で便利な生活を享受できるようになりました。彼らの開発は、私たちの生活の中で毎日繰り広げられる SF 大ヒット作です。

参考文献

[1] https://www.semianalogy.com/p/google-gemini-eats-the-world-gemini

[2]https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai

[3] https://openai.com/dall-e-3

[4]https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

[5] https://sitn.hms.harvard.edu/flash/2023/this-ai-smells-better-than-you/

[6] https://wayve.ai/ Thinking/lingo-natural- language-autonomous-driving/

[7] https://www.nature.com/articles/d41586-023-02600-x#ref-CR3

[8] https://arxiv.org/pdf/2307.12108.pdf

[9] https://qz.com/ai-bots-recaptcha-turing-test-websites-authenticity-1850734350

[10] https://www.nature.com/articles/s41586-023-06419-4

企画・制作

著者: サイエンス・スクラップス・ポピュラーサイエンス・チーム

監査丨テンセントセキュリティ玄武ラボ責任者、Yu Yang

企画丨崔英浩

編集者:リンリン

<<:  満腹か満腹すぎるかということに加え、眠気は実は食べたものと関係があるのでしょうか?

>>:  鮮やかな緑は実は死の色?

推薦する

「死の海」に「緑のリボン」を結ぶ

「死の海」として知られるタクラマカン砂漠の中心部には、黒いアスファルトの道路が広大な砂の海を縫うよう...

世界手指衛生デー丨正しい手洗い姿勢を教えます

COVID-19 を予防するには、手指衛生を徹底することが重要です。衛生を保つことに加えて、手を洗う...

電動技術車ニュース:BBAは中大型車市場で国産車を圧倒していると言われていますが、Trumpchi GA8の登場により状況が変わるかもしれません

現在の国内中大型車市場において、BBAの市場実績は非常に好調である一方、同レベルの米国や日本の中大型...

戦闘機は木で作れますか?それは本当です!

植物にはさまざまな選択肢があります。 1 年に 5 メートルまたは 6 メートル成長する木もあれば、...

コーヒーを適切に飲むと筋力が増す

運動中に純水を飲むのが好きな人もいれば、お茶を飲むのが好きな人もいれば、スポーツドリンクを飲むのが好...

2Cインターネットにおける残された機会の定量分析

冬が来ました。 「首都の冬」という言葉は2018年から今日まで使われてきました。 2020年初頭、疫...

お子さんは手足口病にかかっていますか?注入は不要

読了時間: 5分、全文は約850語手足口病(HFMD)は、子供によく見られる感染症で、毎年親たちに大...

皆既日食のとき、他の人たちが「太陽を食べる犬」を見ている間、彼は彩層を観察していた。

編集者注:日食を見る機会があったら、何に注目しますか?この記事の著者は太陽光関連の研究に従事していま...

ホタテの自家製レシピ

実際、干しホタテは私たちの日常の食生活で非常に一般的な食材です。干しホタテは、干した一種の魚介類から...

事件を解決せよ!科学者がピラミッド建設の謎を解明:巨大な石材がどのように運ばれたか

第三王朝時代に建てられたジェセル王の階段ピラミッド。画像提供:エマン・ゴーネイム現在、サハラ砂漠のう...

リコピンの役割

トマトは世界で最も一般的に栽培されている野菜の一つです。中国はトマトの主要生産国であり、多くの地域で...

大雨の後、外来が混雑していたのですが、その理由はこれです!雷雨喘息について知っておくべきこと

咳や喘息の患者数が急増し、多くの国民が治療のために病院を訪れた。地元の病院の呼吸器科と救急室は混雑し...

時間が長いほど効果は上がるのでしょうか?蒸気アイマスクを盲目的に着用しないでください。

レビュアー: 劉 東宝瀋陽赤十字病院眼科主任医師冬になるとすぐに、大手ショッピングサイトやおすすめア...

長城奇瑞が電気自動車17,623台をリコール、ファラシス・エナジーなどが関与、CATLは否定

国家市場監督管理総局が発表した情報によると、7月16日以降、長城汽車と奇瑞汽車は合計17,623台の...

高価なマットレスの方が本当に良いのでしょうか?

ワールドカップ以外で、最近多くのネットユーザーの注目を集めているのは、おそらくマットレスでしょう!画...