この AI の波は目を見張るものがあります。しかし、実際には、その到達可能な方向は 4 つしかありません。まず、音声とセマンティクスのブレークスルーにより、音声による対話がようやく可能になります。 2 つ目は、コンピューター ビジョンの進歩により、現実空間と仮想空間を融合した AR などの表示方法が生まれたことです。 3つ目は、コンピュータービジョンの進歩により自動化がアップグレードされ、自動運転車やロボットなどの高度に自動化された製品が生まれることです。 4 番目に、機械学習はデータを処理する新しい方法を提供します。最後のタイプの基本的な起業モデルについては、前回の記事「Google DeepMind が最近行った 2 つの取り組みがもたらした AI 起業のインスピレーション」を参照してください。最初の 3 つの起業モデルは、製品シリーズ、ソフトからハードへ、ハードからソフトへに分類できます。この記事では、これら 3 つのモデルの長所と短所について説明します。 製品シリーズ 私たちがよく知っている人工知能のスタートアップは、中国のMobvoiやRokid Robotics、海外のJibo、Savioke、Knightscope、Metaなど、基本的に製品ベースです。このタイプのスタートアップの基本的な特徴は、人工知能の技術革新を活用して、新しい体験(音声対話や AR など)を備えた新製品を作成し、美しい販売曲線を生み出そうとすることです。 では、美しい売上曲線とは何でしょうか?おそらく次のようになります: 美しい売上曲線とは、新製品の市場が立ち上げられると、年間 10% の緩やかな増加ではなく、次の 3 年間で売上曲線が 2 倍 (場合によっては 2 倍以上) になることを意味します。これは、これらのスタートアップにとって決定的な期間は実際にはわずか 3 年であることを意味します。これまでどれだけ努力してきたとしても、この 3 年間を逃すと、これまでの努力がすべて無駄になってしまう可能性があります。 では、市場が初期段階から本格的に立ち上がるまでにどれくらいの時間がかかるのでしょうか?誰も知らない。傾向は論理的な推論で判断できますが、具体的な開始時期は実際には単なる推測にすぎません。それは 1 年、2 年、あるいは 5 年、10 年になるかもしれません。 このように、すべての製品ベースの AI 起業家が把握する必要がある重要なポイントは 2 つだけです。 1. 期間の長さが明確に予測できないウォーミングアップ期間中に、製品、販売チャネル、生産・製造能力など、十分な準備を整える。 2. 市場が始まると、上に示した売上曲線が生成されます。 最初のポイントがうまく行われなければ、Luo Yonghao 氏と彼の Smartisan Technology のようになります。 2 番目の点がうまく行われなければ、モトローラなど、すべてを備えているのに何もできない大企業と同じ状態になります。両方のポイントが達成されれば、間違いなく新たなユニコーン企業となるでしょう。 ここで強調しておかなければならないのは、上記の 2 つの目標を達成する上で本当に重要なのは、技術の進歩ではなく、製品体験であるということです。言い換えれば、このモデルでは、セルゲイ・ブリンのような技術を創造できる人ではなく、スティーブ・ジョブズのような技術をうまく活用できる人が必要なのです。すべてのテクノロジーが他人のものであるとしても、それがユーザーエクスペリエンスに影響を与えない限り、実際にはそれほど問題にはなりません。しかし実際には、この世代の AI 起業家は非常に賢く野心的なため、純粋な組み立て企業になることを望んでおらず、そのためこれらのスタートアップは通常、初期段階で ASR などの特定の重要な技術ポイントに焦点を当てようとします。その中でも最も極端なのがMobvoiです。さまざまな情報によると、Mobvoi は独自の ASR、NLU、さらには検索を構築しています。 つまり、製品ベースの起業はエベレストの北斜面を登ることに非常に似ているということです。成功すれば間違いなく大きな事業となるが、成功するのは極めて困難だ。高いリスクは次の 2 つの側面から生じます。 1. ウォームアップ期間の長さは非常に予測不可能です。 AIはさておき、今のところこのモデルを使用して最も成功している国内企業の一つがDJIです。 DJI の売上は 2013 年頃から伸び始めました (まだ公式データはなく、Dronelife の推測のみです)。 それで、DJI は何年に設立されたのですか? 2006年、DJIは自社製品が普及するまでに約7年を待った。 2. 重要な技術的ポイントをブロックしようとするため、コストが大幅に増加します。前述のように、新しい起業家たちは通常、単純な組み立て・販売会社になることを望んでいません。そのため、早い段階でいくつかの重要な技術的ポイントを把握します。これは、製品の販売量が増え始めた後の会社の発展に役立ちます。これらの点をコントロールできなければ、たとえ会社が成功したとしても、今日のような PC 会社や携帯電話会社になってしまうかもしれません。これは間違っていないかもしれません。結局、Amazon も Echo を作るために独自の技術システムを構築するため 3 つの企業を買収しました。しかし、これは間違いなくスタートアップのコストとリスクを大幅に増加させ、企業が長期間にわたって収入がなく比較的高い経費がかかる状態を引き起こすことになります。 ハードからソフトへ ハードからソフトへ、あるいはソフトからハードへという場合でも、企業自身が製品を作るのではなく、製品を作る企業に対してサービスを提供することを意味します。ハードからソフトへというのは、その優位性はフロントエンド(マイクアレイなど)から始まり、バックエンド(クラウド)まで広がる必要があると同社が考えていることを意味します。ソフトからハードへ、つまり同社はクラウドがインテリジェンスの中核であり、フロントエンドの優先順位は低いと考えているということです。もちろん、両方に強みを持つことが最善だと言えますが、限られたリソースや創業者の経歴により、スタートアップは通常、最初は片方の部分しか重視できません。これら 2 つのモードは、それぞれ音声インタラクションとコンピューター ビジョンに分けられます。しかし、これらを一緒に明確に説明するのは難しいため、音声インタラクションを例に挙げて、まずこれら 2 つのモードについて説明し、その後、これら 2 つのモード全体を分析します。 ハードからソフトへの道を歩んでいる国内の音声対話人工知能スタートアップは比較的少ない。最も典型的なのは SoundAI Technology でしょう (この会社は私のポートフォリオ企業の 1 つなので、比較的よく知っています)。 SoundAI テクノロジーは、最も基本的な音響アレイから始まり、最初にノイズ抑制、残響除去、エコーキャンセルなどを実行し、次に ASR などを考慮します。これは、Unisound などがたどった道とは逆の道です。 このモデルの利点は、産業チェーンの最前線に立つことができ、実装が容易で、データの唯一の方法であることです。データ自体は将来の ASR や NLU の原動力となるため、大きな可能性を秘めています。 デメリットとしては、短期的には顧客獲得のためにハードウェアが必要となり、ハードウェアの生産を組織化する必要があり、多額の初期資本が必要になることです。 実際には、製品ベースのスタートアップが成功するには 2 つの外部要件があると言えます。1 つはトレンドが生まれること、もう 1 つは製品が市場のテストに耐えることです。ハードからソフトへ移行する企業には、2 つの外部要件があります。1 つはトレンドが到来すること、もう 1 つは強力な技術と価格の優位性を持つことです。 2B 企業が直面する顧客は通常非常に合理的であり、多くの派手なマーケティング手法はあまり効果的ではありません。 ソフトからハードへ 音声インタラクションにおいてソフトからハードへと移行した典型的なスタートアップが Yunzhisheng です。このモデルの選択と会社の位置付けは、名前からもわかります。 ソフトからハードに移行する利点は、既存の成熟したコンピューティング プラットフォームをカバーしやすくなることです。たとえば、すべてのアプリには独自の Siri が必要なので、Unisound のような企業は技術的な障壁を構築し、Ctrip や Toutiao が登場するのを待つだけで済みます。この方向における主な課題は、大企業(Baidu や iFlytek など)と直接競争することです。この記事の主な焦点は新しいハードウェア製品の実装であるため、この点については詳しく説明しません。 欠点は、新しいハードウェア製品(Echo、車、ロボット、ARなど)に実装するのが難しいことです。新しいハードウェア製品に実装するには、中間にアレイ層を追加する必要があり、そうしないと効果が非常に悪くなります。一度実装できなければ、その技術的な優位性は簡単に失われてしまいます。音声認識の精度は本質的にデータ駆動型ですが、配列などのハードウェアがなければ実装できないのは明らかです。実装がなければデータはなく、データ、テクノロジー、精度、シナリオに関する肯定的および否定的なフィードバックを得ることは困難です。実際の環境における音声認識精度の問題を解決することも容易ではありません。雲智盛氏らは明らかにこれに気付いており、彼らもこの方向へ積極的に進出している。現時点では、ソフトウェア企業がハードウェアの製造に移行すると、サプライチェーンとの交渉が不可能になるなど、同じ製品のコストが数十パーセント高くなるという一般的な問題に遭遇することがよくあります。 ルートの違いはコンピューティングアーキテクチャの理解から生じます 上記の例では、音声セマンティクス会社を例に挙げていますが、実際には、詳細が異なる点を除けば、コンピューター ビジョンでも同じことが当てはまります。たとえば、Movidus のチップは、マイクロフォン アレイのようにチップ自体で処理して結果をクラウドに送信する必要がなく、端末上で画像認識プロセスを完了できる可能性があります。このモデル選択の背後にある共通点は、コンピューティング アーキテクチャの理解と仮定です。 これまでのところ、そのような仮定と認識には 3 つの種類があります。 1 つは、エクスペリエンス (速度など) を確保することであり、エンド側は常に重要な役割を果たし、クラウドはエンド側が計算を完了するのを支援するために使用されます。私たちが使用するすべてのハードウェア製品(携帯電話、タブレットなど)は、基本的にこのモデルに従います。 1 つは、コンピューティングは主にクラウドで行われるべきだということです。 Google が推進している ChromeBook はこのモデルであり、銀行の端末も以前はこのモデルでした。 1 つは、新興のセンサー + フォグ コンピューティング + クラウド アーキテクチャです。これは最初のアーキテクチャの拡張として見ることができます。たとえば、スマートホーム内のすべてのデバイスがクラウドに直接接続されている場合、コンピューティング コストが高くなりすぎます。処理できるものは先に処理するハブを自宅に設置しておくと良いでしょう(例えば、寒いときはエアコンをつけ、雨が降ったら窓を閉めてクラウドに送信しないようにするなど)。それが不可能な場合は、クラウドに接続します。 最初の 2 つのアーキテクチャは、実際には PK を引き起こすことが多く、深刻な結果につながります。ここに 2 つの例を示します。 PC上でPKが発生しました。当時、オラクルなどが作ろうとしていたネットワーク コンピュータは、基本的にあらゆる種類の計算をバックエンドに転送し、フロントエンドを入出力デバイスに変えるというものでした。この試みは明らかに惨めに失敗しましたが、興味深いのは、20年以上経ってPCのカテゴリーが十分に成熟したとき、依然としてこの道を歩んでいたChromebookが成功の希望を見出していたことです。 1つはネイティブAPPとHTML5に発生しました。当時、Facebook は HTML5 を積極的に推進したいと考えていました。ザッカーバーグは、Web アプリを使用して iOS と Android の独占を打ち破りたいと考えていましたが、実際には、この選択のせいで Facebook はほぼ消滅しかけていました。この選択によって Facebook はモバイル インターネットを逃すところだったからです。その後のInstagramとWhatsAppの大規模買収は、おそらくこの誤った選択に関係していたのだろう。 これについての私の個人的な基本的な理解は、新しいカテゴリのハードウェア製品が初めて登場したとき、まず第一に、その製品は究極の体験を提供できるほど強力でなければならない、ということです。アプリケーションや帯域幅などが徐々に発展していくと、コスト面でのメリットがあるためエンド側のコンピューティング能力がクラウドに移行される可能性がありますが、これには長いプロセスが必要です。 PC がこの可能性に気づくまでに 20 年以上かかりました。 もしこれが正しければ、新しいハードウェア製品の場合、最初に確立されるモデルはソフトからハードではなく、ハードからソフトになるということになります。 AR、自動運転などは、前述の音声インタラクションと同様に、他のことを議論する前に、まずは端末上の問題を解決し、製品がリアルタイムで迅速かつ正確に応答し、ユーザーエクスペリエンスを確保できるようにする必要があります。この問題を別の角度から考えることもできます。新製品の場合、iPhone の方がユーザーへの影響力が強く、新しいカテゴリを確立する可能性が高いため、iPhone が先に発売され、その後に Android フォンが発売される可能性の方が高くなりますが、iPhone は HTML を使用して作成することはできません。 しかし、ハードからソフトへのモデルは、創業者にとってより複雑な要件を課します。たとえば、SoundAI Technology の Chen Xiaoliang 氏は、何よりもまず音響の専門家であり、音声認識の専門家でもあるため、フロントエンドから始めてバックエンドと組み合わせるという方法を選択しました。 Yunzhisheng の CTO は、アルゴリズムとディープラーニングに精通したコンピューター サイエンティストであるため、データ、ニューラル ネットワーク アルゴリズム、大幅に向上したコンピューティング パワー (クラウド コンピューティングから HPC まで) を使用して問題を解決することに本質的に傾倒しています。より集中した方向に切り替えるには、精神的障壁と技術的障壁の両方を克服する必要があり、それは簡単ではないかもしれません。 まとめ 次の 2 つのことはほぼ確実です。 1.AIの波が来ています。 2. 新しいハードウェア製品が必ず登場します。 したがって、この製品ラインからは必ず新たなユニコーンが誕生するでしょう。 新しいハードウェア製品は、優れたエクスペリエンスを保証するために強力な端末でサポートされる必要があり、新しいカテゴリの基本的な登場順序は iPhone が最初に登場し、次に Android であると考えているなら、ハードウェアからソフトウェアへのモデルでユニコーンが最初に登場することにおそらく同意するでしょう。 (私はこれらの見解について多くの人と話してきましたが、偶然にも、私と同じ見解を持つ美しい投資家の女性に最近出会ったばかりです。彼女の見解を盗用したとは言えないでしょう…) この記事は主に新しいハードウェア製品における可能性のある状態について説明していることを強調しておく必要があります。データ分析はこの記事の対象外です(データ分析は純粋なクラウドコンピューティングです)。また、既存のプラットフォーム(携帯電話、Pad など)を主対象とした製品やサービスもこの記事の対象外です。 今日頭条の青雲計画と百家曼の百+計画の受賞者、2019年百度デジタル著者オブザイヤー、百家曼テクノロジー分野最人気著者、2019年捜狗テクノロジー文化著者、2021年百家曼季刊影響力のあるクリエイターとして、2013年捜狐最優秀業界メディア人、2015年中国ニューメディア起業家コンテスト北京3位、2015年光芒体験賞、2015年中国ニューメディア起業家コンテスト決勝3位、2018年百度ダイナミック年間有力セレブなど、多数の賞を受賞しています。 |
<<: 「全体的な状況を安定させる」インフィニティはローカリゼーションプロセスを加速し続けている
>>: ミシガン州政府はVWへの補償金を利用してZEV開発を推進
1. カリフォルニア州運輸局(DMV)は、2020年の自動運転に関する通年のデータを公開した。中国...
野菜、米、骨のスープといえば、北の友人には馴染みがないかもしれませんが、これは上海の家庭料理の主食で...
春が来て、友人の輪の中で毎年恒例の花の写真コンテストが静かに始まりました!どうすれば花の美しい写真を...
名前の通り、豆麺は大豆から作られた麺です。豆麺はきな粉とも呼ばれます。豆麺の作り方はとても簡単です。...
国際環境団体グリーンピースは本日、「再生可能エネルギーゼロ・ウェイストの未来:風力発電と太陽光発電の...
多くの人が夜に夕食を食べることを選択しますが、これは自分にとって良くありません。夜間は活動レベルが低...
ピザは外国から広まった珍味で、現代でも多くの中国人に愛されています。ピザは具材がたっぷり入っていて美...
「私のルーターは NETGEAR です」と言われたら、彼はあえてネットギアのルーターを使うので、偽...
特に、伝統的な中国医学では、脾臓と胃が弱って冷えているときは、温かくて甘くて辛い食べ物を食べて脾臓と...
終わり編集者: グル...
ネギ豆腐の作り方は比較的簡単ですが、ネギ豆腐本来の風味は失われません。豆腐は栄養価が非常に高く、人体...
豚の心臓とナツメのスープは、健康に良い美味しいスープです。作り方も簡単で、コストも高くないので、自宅...
目の網膜にはビタミンAと視覚タンパク質からなるロドプシンと呼ばれる光感受性物質があるため、長時間コン...
焼き豚は広東風味の有名な広東料理で、多くの高級ホテルで提供されています。どのホテルもチャーシューを看...
エシャロットはタマネギとも呼ばれ、5,000年以上も前から野菜として使われてきました。タマネギにはカ...