インターネット上には男女の会話を氷山のように表した写真が 2 枚出回っています。女性が表現しているのは彼女の考えの氷山の一角に過ぎず、男性にはそのほんの一部しか理解できません。少年が言っていることは氷山の一角に過ぎないが、少女は水面下には暗流があると考えている。 ほとんどのストレート男性と同様に、寡黙な藍振中は、男性と女性の考え方の違いに悩まされることが多い。妻とコミュニケーションをとるとき、彼は本能的に問題解決を手伝いたいと思うが、結果は理想的ではないことが多い。 「後になって、彼女が必要としているのはほとんどの場合、話を聞いて共感することだけで、彼女自身で問題を解決する能力があることに気づいたのです。」 AIは共感やコミュニケーション効率の向上に役立ちますか? カーネギーメロン大学で博士号取得を目指して勉強しながら、藍振中さんはAIをもっと普及させる方法について考え始めました。彼の妻はカーネギーメロン大学の同級生であり、彼もまた優秀な学生だった。 「彼女は私よりも学業の成績がよかった。」 卒業後、彼は Google に入社し、人工知能の波を次々と目の当たりにし、参加しました。彼は博士号取得のために勉強していたときに抱いた考えを決して忘れることはできなかった。 彼は、ハリウッド映画「her」のAIアシスタントサマンサや「ベイマックス」のロボットベイマックスのように、AIにはIQとEQの両方が備わっていると固く信じている。 ダバイは温かいロボットです 言葉の意味を理解できる大型モデル Xihu Xinchen のオフィスは、西湖大学雲谷キャンパスから 500 メートル以内の雲荘ガリウム渓谷にあります。また、ウェストレイク大学/ウェストレイク研究所の成果変革拠点のパイロットパークでもあります。 藍振中氏はGoogleから中国に戻った後、まず西湖大学に入学し、その後西湖新辰を設立した。彼は平均年齢25歳の若者グループとともに、AIが人間の感情や意図をよりよく理解できるようにする研究に没頭した。その中には、Google、Meta、Amazonなどの企業のAI技術者や、ニューヨーク大学、エモリー大学、キャピタル医科大学などの心理カウンセリングを専攻する優秀な学生もいます。 9月5日の2024年外灘会議で初めて発表された汎用エンドツーエンド音声モデル「Xinchen Lingo」は、同社の最新の成果である。藍振中氏は第1回Ant InTechテクノロジー賞も受賞した。 Ant Group によるこの純粋な公共福祉賞は、コンピューター サイエンスの分野における科学研究の進歩を促進する上で重要な役割を果たした中国の若手学者に授与されます。 Black Myth: Wukong をプレイしています: 「Big Head Monk に到達しました。このレベルに 10 回以上戦いました。」 友人A:「わあ、頭の大きいお坊さんでも抑えられるんだね、このレベルは本当に感動的だね。」 あなたは落ち込んでいます: 「少し不満です。今日は同僚とちょっとした衝突がありました。」 友人B:「ねえ、職場での不和は本当に不快だよ。何が起こったの?職場での誤解か、コミュニケーション不足?」 悪い友達 A と親友の妹 B と遊ぶことは、Lingo と人々とのリアルタイムのやり取りのデモで示されたアプリケーション シナリオの一部です。 「他のAIと比較して、エンドツーエンドのLingoは人間の行動、感情、反応パターンを完全にシミュレートでき、非常に人間らしくすることができます。 」Lan Zhenzhong氏は、ユーザーはいつでもそれを中断したり、キャラクター設定(音声、職業役割)を変更してコミュニケーションしたりできると述べました。 エンドツーエンドとは何ですか? これまでに経験した AI 音声ツールのいくつかは、主に TTS に依存しています。これは、書かれたテキストを音声に変換する技術です。機械が話すことを可能にし、音声出力の問題を解決しますが、意図の認識や対話の理解は含まれません。エンドツーエンドの音声モデルの利点は、超低遅延と制御性にあります。感情、口調、環境ノイズなど、テキスト以外の情報も聞き取ることができるため、大規模なモデルが音声コンテンツをより包括的に理解するのに役立ちます。 「音量を上げたい場合も、特定の音色を真似したい場合も、比較的簡単にコントロールできます。」藍振中氏は、エンドツーエンドの音声モデルは、音声認識、自然言語処理、意図認識、対話管理、音声合成などの複数のリンクを統合し、音声入力から音声フィードバックまでの完全なインタラクティブプロセスを実現すると説明した。 この基礎的な機能に基づいて、Lingo と組み合わせたさまざまなスマート デバイスは、ユーザーの言葉の背後にある真意を読み取り、応答することができます。たとえば、「バルコニーの床が少し汚れている」と聞くと、掃除ロボットが率先して掃除を始めます。 「日光が少し眩しい」と聞くと、スマートカーテンコントローラーが遮光カーテンを自動的に調整します。 マシンビジョンから自然言語処理まで 蘭振中さんは広東省潮州市出身。彼は1986年に教師の家庭に生まれました。 2007年、中山大学でソフトウェア工学と統計学を学んでいたときに、人工知能に興味を持ち始めました。 2012年、彼は米国のトップコンピュータスクールであるカーネギーメロン大学コンピュータサイエンス学部の言語技術研究所(LTI)に入学し、コンピュータビジョンとマルチメディア分析を専門としました。 2018 年に Google AI 研究所に入社し、複数のコンピューター ビジョンおよび自然言語処理プロジェクトの研究開発を担当しました。研究開発の成果は、Google ニュースや Google アシスタントなどの製品に応用されています。 彼の履歴書を見ると、なぜ彼が視覚から言語へと「キャリアパスを変更」し、AIの感情的伴侶を専門とするようになったのかを直接知ることは難しいようです。 人にとって、社交は消費です。彼は日常生活におけるコミュニケーションを、目的に応じて問題解決、感情重視、関係構築の 3 つのカテゴリに明確に分類できますが、最初のタイプが得意であり、助けが必要であることも認識しています。 もっと直接的な理由は、博士号を取得して卒業しようとしていたとき、同級生がうつ病のために若くして命を絶ったことを知ったことだ。 この事件は彼に深い感銘を与えた。もし外部の力が適時に介入すれば、たとえそれが単なる心理的な交友関係や基本的なサービスであっても、心理的な問題に深刻に悩まされている人々は、この世界で再び何らかの温かさと美しさを感じることができるようになるでしょうか? 2020年、藍振中氏はグーグルを辞職し、中国に戻って西湖大学に入学し、ディープラーニング研究所の所長と博士課程の指導者を務めた。彼は、いつでもどこでも患者に付き添い、心理カウンセリングを提供できる会話型ロボットを作りたかったのです。言語処理は会話システムの中核です。 翌年7月に西湖新塵が誕生した。その年、藍振中はMITによってアジア太平洋地域の「35歳未満の技術革新者35人」の一人にも選ばれました。 画像出典: ウェストレイク大学公式ウェブサイト この経験を振り返って、Lan Zhenzhong 氏は「とても幸運だった」と感じています。2018 年に Google に在籍していたとき、機械学習のパラダイムが教師あり学習から自己教師あり学習へと変化する場面に偶然遭遇したのです。自己教師学習の時代では、機械は手動でラベル付けする必要なく大量のテキストや画像を読み取ることで学習を完了できるため、言語や視覚コンテンツを理解する能力が大幅に向上します。 私は研究室で技術開発に携わることを好む 西湖新塵の最初の製品は、無料の心理カウンセリングプラットフォーム「聊慧小天」です。 藍振中氏と彼のチームは心理学の専門家、精神科医などに相談し、また調査や患者へのインタビューも行った。大量のコーパスを蓄積し、実際の心理カウンセリングの事例を研究し、独自に開発した感情コンピューティングと共感モジュールを組み合わせることで、Xiaotian は感情を聞き、コミュニケーションをとることができるようになりました。 西湖新辰は創立2周年に、長期記憶、感情認識、アクティブチャットなどの機能を備えたマルチモーダル汎用大型モデル「西湖大モデル」をリリースした。これを基に繰り返し練習することで、小田さんは中級心理カウンセラーのレベルに到達しました。 1か月前、杭州第一人民病院と協力し、AI心理学者「世怡小曦」が誕生した。オンライン心理カウンセリングに加え、医学知識ベースに基づいた専門的なレポート解釈も提供できます。 昨年、Westlake Xinchen に 2 度投資した Jinke Tom Cat は、最近、Xinchen Lingo の機能を活用して、「Talking Tom Cat」を「Chatting Tom Cat」ロボットにアップグレードしました... テクノロジーの導入シナリオは常に拡大しています。 彼は一方ではビジネスを立ち上げ、他方では学術研究を行っています。日常的に2つのアイデンティティを切り替えながら、Lan Zhenzhongは研究室でテクノロジーを探求することを好むようだ。 「今、私の主な焦点はここにあります。テクノロジーは急速に進化しています。振り返ってみると、本当に痕跡を残せる仕事はそれほど多くありません。」そのため、彼は「本質」に触れ、その分野の進歩を促進できるようなことを続けていきたいと考えています。 藍振中氏は、同じくAI科学者である何開明氏を尊敬しており、氏の研究は非常に「重要」だと考えている。後者が提案した ResNet は、コンピューター ビジョンの分野で人気のあるアーキテクチャです。 昨年3月、藍振中はWeChatモーメンツに「英雄招待」を広く投稿し、科学研究成果の転換、リソースの統合、市場の把握、顧客の獲得を担当するCEOを募集した。 現在この役職に就いているのは、かつてアリババグループに勤務し、レイクサイドイノベーション&リサーチセンターの設立に創設チームの一員として参加した星塵氏です。 藍振中は科学研究にさらに集中できるようになります。彼のモーメントの一番上にグループ写真がピン留めされています。写真では家族4人が明るく笑っている。家族は常に最も大切なものでした。仕事以外では、ランニング、ヨガ、バスケットボール、水泳などのスポーツが好きで、学生時代にヨガを始めた。「リラックスしてストレスを和らげるのに役立つ」という。 「新しい若者」との対話 10月頃にAIメンタルヘルスサービスホットラインを立ち上げる予定 Nine Thousand Light Years: あなたとあなたのチームは、ビッグボイスモデルを開発するというアイデアをどのように思いついたのですか?プロセス中に遭遇した最大の課題や困難は何でしたか? Lan Zhenzhong: 最初はテキストを使っていましたが、すぐにそれだけでは十分ではないことに気付きました。テキストでは多くの情報が失われるため、心理カウンセリングでは、多くの人がタイピングよりも電話でのコミュニケーションを好みます。タイピングでは言語を事前に整理する必要があることが多く、このプロセス自体が人々の思考の負担を増大させる可能性があります。人は疲れていたり、情緒不安定なときには、ためらうことなく言葉で自分の感情を表現したくなります。 昨年から、チーム内の7~8人がプロジェクトチームを結成し、音声モデルのトレーニングを開始した。データをどう取得するか、事前学習の安定性をどう確保するか、音声をどう調整するか…これらはすべて問題です。最も難しいのは、「脳」との統合、つまりテキストモデルを音声モデルに変換する方法です。さらに、Lingo はコンテンツ プロデューサーであるため、不適切な言語が出力されないように、インタラクション中の安全性を確保する必要があります。 九千光年:心理カウンセリングのほかに、Xinchen Lingo はどのような場面で使用できますか? 藍振中:日常販売、教育研修、医療相談、スマートデバイスインタラクション、子どもの付き添いなど、さまざまな分野に一般的な基本音声サービスを提供できます。10月頃には、AIメンタルヘルスサービスホットラインを立ち上げる予定です。 AIは賢い木の穴のようなもの 9000光年: 人間の感情は非常に複雑ですが、AI は IQ と EQ の両方を備え、十分な感情的価値を提供できるのでしょうか? Lan Zhenzhong: AI は、世界中のあらゆるものをシミュレートできるツールと考えることができます。多くの点で人間を凌駕しています。十分なデータが提供される限り、AI は無制限に模倣学習を実行できます。 『武林外伝』の多くの行には隠された意味があります。私たちはこれらの文章のいくつかを使って、この大規模モデルが中国語の比喩を理解する能力をテストしてみましたが、基本的には人間のレベルに到達できるという結論に達しました。 AI には、無限の忍耐力など、感情的なサポートを提供する上での独自の利点もあります。人間が聞くには多くのエネルギーが必要になることが多いですが、AI は疲れを知らずに仲間として付き添うことができます。 九千光年:本当に感情的なサポートが必要な場面もあり、そのときに AI が提供されると相手ががっかりしてしまうこともあるのでしょうか。 藍振中:確かに、人と人との感情の交流はかけがえのないものである場合もあります。 AI は、人が一人になりたい場合や、他の人と共有するのが適切でない問題がある場合のシナリオに適しています。それは、一方的に話をしたり、他の人と交流したりしてカタルシスと安らぎを得ることができる、スマートな木の穴のようなものです。 Xiaotianの背後には評価と介入のプロセスが完備されている 九千光年:小天は2年前にエクスプレスの未来生命フェスティバルに参加しました。初期のバージョンでは、返信スクリプトの一部にはまだ心理カウンセラーの指導が必要でした。今日でもその背後には人間の努力が残っているのでしょうか? Lan Zhenzhong: 数回の反復を経て、Xiaotian は現在 100% 自律的なプログラムになっています。 Lingo に接続すると、音声通話や電話もできるようになります。今年これまでに10万人の登録ユーザーにサービスを提供しており、Alipay、WeChat、浙江大学や科技大学などの大学のアプリで見つけることができます。 九千光年: 小天とチャットをしたいユーザーの中に、深刻な精神的問題や自殺傾向のある人はいますか?この状況にどう対処しますか? 藍振中:小天は心理的な交友とサポートが得意です。チャットの効果を随時評価し、次回の指導の方向性を決定します。重大な心理的問題や精神障害がある可能性があると判断された場合は、診断と治療のために適切な病院への搬送を勧告します。自殺の傾向があることが検知されると、訪問者は自殺介入ホットラインに紹介されます。相手が複数回表現した場合は、人による介入が必要になります。当社には包括的な評価および介入プロセスがあります。 ビジネスを始めるのは、穴の開いたボートを漕ぐようなものだ Nine Thousand Light Years: 過去数年間の起業家としての経験から、どのような洞察を共有できますか? 藍振中:人は秩序感を追求するために生まれてきたとよく言われますが、秩序のない環境では不安や不確実性を感じます。ビジネスを始めるプロセスは、穴の開いたボートを漕ぐようなものです。十分に速く漕ぐことによってのみ、安全に目的地に到着することができます。 博士号取得のための勉強にも不確実性が伴いますが、多くの人がこの課題を克服することができます。事業を始めるのはさらに困難です。常に「お金を燃やす」ことになり、起業家は常に変化する環境の中で確実性を見出すことを学ぶ必要があります。 Nine Thousand Light Years: 次の研究の焦点は何になるのか教えていただけますか? 藍振中:それはやはり「脳」の側面、つまり人間の感情をいかに正確に捉えるか、どんな言葉で応答するか、といったことです。実際、これは常に焦点となってきました。 |
<<: タマネギを切るとなぜ涙が出るのでしょうか? 「心を一枚一枚剥がしていく」という歌詞のせいではないのですが…
>>: 猫が避ける寄生虫が科学者によって医療兵器に変わるかもしれない
日常生活でよく食べられる食品であるベーコンを生産するには、適切な気候が必要です。一般的に、漬物は寒い...
椎茸といえば、日常生活でよく食べられるキノコの一種であり、他のキノコに比べて香りが強いため、多くの人...
「アジアドラゴン」はトヨタの新型フラッグシップセダン「アバロン」の愛称です。今後「アジアドラゴン」が...
噂によると、米国は新型コロナウイルスの核酸ワクチンの有効性を高める新たな方法を発見したという。まずワ...
トウモロコシは最も一般的な種類の作物であり、粗粒穀物のカテゴリに属し、その栄養価は私たちに良い健康効...
麻辣湯は多くの人に好まれています。この種類の食べ物は独特の味があり、この種類の食べ物を食べると、人体...
昨日、Meizuは新製品発表会を開催し、次世代製品であるMeizu Blue Note 2を正式にリ...
マンボウは魚の一種です。多くのマンボウは非常に美しい色をしています。最も美しいマンボウは嫦娥と呼ばれ...
ほうれん草は栄養価が高く、特に鉄分含有量は他の野菜よりも高くなっています。また、ビタミンCも最も豊富...
牛乳は多くの人に好まれているので、牛乳を選ぶのは安全な選択です。牛乳は人体の健康に害を及ぼすことはな...
特に美容を愛する女性は、自分を美しくするために何を食べたらよいか、また、どんな美容法が最も安全で肌に...
卵は私たちの日常生活に欠かせない食べ物です。卵はスープを作るのに使われ、卵を炒め物に入れ、さらにはお...
川や湖のそばで、黒い水鳥が突然水に飛び込み、跡形もなく消えていくのを見たことがありますか?この号の主...
蛇の胆嚢を食べる人がいることは誰もが知っていますが、蛇の胆嚢を扱うことになるとは誰も思っていませんで...
ここでは海に近いので、魚、特に自家養殖の魚よりも海の魚をたくさん食べます。何しろ、自家養殖の魚には、...