
フィジカル AI の最前線で 行われている研究
次世代インテリジェンスを拓く
未来をかたちづくる技術、自動運転およびロボティクスに関する研究
Dr. Wei Zhan のもとに集結したリサーチチームは、トップクラスの研究機関や企業で実績を積んだ専門家で構成されており、CVPR や ICRA をはじめとする主要な国際会議・学術誌で Best Paper Award を含む数々の受賞歴を誇り、学術と産業の両領域で高い評価を得ています。この知見をもとに、次世代のフィジカル AI を支える先進技術を開発しています。
ワールド アクション基盤モデルの事前学習
次世代のフィジカル AI に必要な基盤モデルは、バランスの取れたマルチ モーダル データによる事前学習を前提としており、エゴセントリックな行動、視覚、挙動、物理、言語といった多様な情報を、具体的なタスクに結びつけて扱います。主な取り組みは以下の通りです。
- エゴアクションに条件付けた 4D 世界の生成を可能にする、高スループットなフィードフォワード/生成型 4D 再構成とワールド基盤モデル
- 視覚・物理・言語などのモダリティを統合した、ワールドアクションモデルの事前学習
強化学習と基盤モデルのポストトレーニング
フィジカル AI における基盤モデルのポスト トレーニングは、性能向上や安全性の確保、挙動の整合において重要な役割を担い、ワールド アクション モデルや視覚・言語・アクションを統合したモデルを対象とします。主な取り組みは以下の通りです。
- 大規模な実世界データから構築・学習された、高精度で拡張性の高いシミュレーションを基盤としたクローズドループ強化学習によるポストトレーニング
- 高スループットなシミュレーションと人間の行動データを組み合わせた自己対戦型の強化学習により、少量データでも安定性と人間らしさを両立したフィジカル AI を実現
ロボット学習とデータ
汎用ロボットの実現には、データ面で特有の難しさがあり、物理を踏まえたモダリティが重要になる一方で、大規模なデータの収集は自動運転に比べてはるかに難しい領域です。主な取り組みは以下の通りです。
- ロボット、人間、合成データを組み合わせたロボット学習の枠組み
- 物理を踏まえたモダリティを活かすためのデータ設計手法
S2GO : ストリーミング型スパース ガウシアンによる占有予測
Jinhyung Park, Chensheng Peng, Yihan Hu, Wenzhao Zheng, Kris Kitani, Wei Zhan
SPACeR : 中央参照モデルに基づく自己対戦型アンカリング
Wei-Jer Chang, Akshay Rangesh, Kevin Joseph, Matthew Strong, Masayoshi Tomizuka, Yihan Hu, Wei Zhan
RAYNOVA : 統一された時空間表現による幾何非依存の自己回帰型 4D ワールド モデリング
Yichen Xie, Chensheng Peng, Mazen Abdelfattah, Yihan Hu, Jiezhi Yang, Eric Higgins, Ryan Brigden, Masayoshi Tomizuka, Wei Zhan
Outstanding Paper Award, RIWM Workshop @ ICCV 2025
運転はデータから学ぶ : 実世界の動画データによるラベルフリーの大規模自動運転事前学習
Matthew Strong, Wei-Jer Chang, Quentin Herau, Jiezhi Yang, Yihan Hu, Chensheng Peng, Wei Zhan
NoRD:推論プロセスを介さないデータ効率に優れた視覚言語行動統合モデル
Ishaan Singh Rawal, Shubh Gupta, Yihan Hu, Wei Zhan

研究基盤
我々は、世界トップクラスのフリート、データ、インフラ、ツールを基盤に、強化学習や 3D ビジョン生成、ロボット学習といった研究を推進し、人間データと合成データを大規模に活用したクローズドループ学習を実現しています。
大規模データを備えた多様な車両フリートで、自動運転を展開
都市部の複雑な環境を走る自動運転車から、トラック、鉱業、建設車両まで。オンロード、オフロードを問わず、多様なプロダクトで大規模なフリートを展開し、自動運転の検証と実運用を進めています。蓄積された膨大なデータはデータエンジンによって自動的に処理され、産業レベルの AI 研究を支えています。
ロボットフリートと人間データ
ヒューマノイド、モバイル マニピュレーター、卓上型デュアル アーム ロボットなど、多様なロボットフリートを展開し、触覚を備えた高精度ハンドによる巧緻な操作を実現。モーション キャプチャ、ヘッドセット、グローブなどを用いた人間データの収集環境も整備しています。
大規模MLインフラとツール
自動運転分野における世界トップクラスのツールプロバイダーとして、我々の研究は高効率なツール群と高精度なニューラルシミュレーションおよび合成データに支えられ、クローズドループで活用されることで、数千規模のGPUによる大規模学習を可能にしています。
