NoRD: 推論なしで走行する、データ効率に優れた視覚と言語に基づく行動生成モデル

NoRD は、強化学習の最適化における重要な欠陥を解消することで、自動運転における推論オーバーヘッドを排除し、より少ないデータで最高水準のベンチマーク性能を実現します

Shubh Gupta, Ishaan Rawal • June 3, 2026 • 6 min read

現在の自動運転向け VLA (Vision-Language-Action) モデルは、大規模なデータセットの収集と、高密度の推論アノテーションという 2 つの要素に大きく依存しています。こうしたモデルは高い性能を達成する一方で、データコストが高く、計算オーバーヘッドと推論レイテンシも大きいため、実環境への展開には適していません。

本研究では、NoRD: No Reasoning for Driving によって、こうした 2 つの依存要素に挑みます。データ効率に優れ、推論を必要としないモデルに見られる性能差は、推論の欠如やデータの不足ではなく、難易度バイアスに起因することを明らかにしました。このバイアスは、走行に対する報酬が疎な状況で、性能の低いポリシーを強化学習によって最適化する際に生じます。その結果、モデルは容易なサンプルからの学習を優先し、複雑で難易度の高い運転操作を見落としてしまいます。

NoRD は、Dr. GRPO を用いて難易度バイアスを軽減することで、推論に大きく依存するベースラインと比べ、トークン数を 3 分の 1 に抑え、データ量を 60% 削減しながら、Waymo および NAVSIM ベンチマークで競争力のある性能を達成します。NoRD は、VLA モデルの最適化ステップにわずかな変更を加えるだけで、必要な学習データを大幅に削減し、推論に伴うオーバーヘッドなしで高い性能を実現する、より効率的な自動運転システムへの道筋を示しています。

自動運転システムに「思考の言語化」は必要か?

VLA (Vision-Language-Action) モデルは、特に「ロングテール」シナリオへの対応において、自動運転の新たな可能性を拓く有望なアプローチです。こうしたモデルは通常、シーンを分析して推論を行い、行動を決定する前に内部テキストトレースを生成します。

しかし、この「思考の言語化」の仕組みには、2 つの大きなボトルネックがあります:

高い推論レイテンシ: 低レイテンシが不可欠な自動運転システムへの導入において、数百の推論トークンを自己回帰的に生成する時間が大きな障壁
高コストなアノテーション負荷: 大量の走行データに対応する推論アノテーションを結び付ける必要があり、高コストでスケールも困難

この課題に対応するため、我々は NoRD (No Reasoning for Driving) を提案します。NoRD は中間テキストの生成を完全に省き、入力から行動を直接導き出します。視覚言語モデル (Vision-Language Model, VLM) が内部的に持つ時空間に関する事前知識を活用し、推論トークンの自己回帰的な生成に伴う「自己回帰の負荷」を回避することで、高度な状況理解を維持しながら、レイテンシをわずか数分の 1 秒未満にまで低減します。

従来の VLA パイプライン vs. NoRD

最高水準の性能を実現するため、従来の VLA パイプラインは、複雑で大量のデータを必要とするアーキテクチャに依存しています。このアプローチには、多くのリソースを必要とする複数のステップがあります:

大規模なデータ収集: 基盤となる大規模な走行データセットを収集
教師主導の推論: このデータを GPT-4o などの高性能な大規模言語モデル (LLM) に入力し、対応する「推論データセット」を生成
教師ありファインチューニング (Supervised Fine-Tuning, SFT): モデルが行動前に「思考の言語化」を行う方法を学習できるよう、これらの推論アノテーションを用いて SFT を実施
強化学習 (Reinforcement Learning, RL): 最後に、ポリシーを走行指標に整合させるため、RL によるファインチューニングを適用

このパイプラインは有効ではあるものの、高コストな教師モデルと膨大な走行データを必要とすることが、構造的なボトルネックとなっています。

対照的に、NoRD は、よりシンプルで効率的な代替アプローチを採用し、データ要件を削減するとともに中間推論を不要にすることで、プロセスを大幅に簡素化します:

より少ないデータ要件: NoRD は、小規模な走行データセットのみで、適切な走行挙動を効果的に学習
軌跡データに対する SFT: 推論トレースを用いた学習ではなく、生の軌跡データに直接 SFT を実施
RL によるファインチューニング: 得られたモデルを RL でファインチューニングし、推論トークンを用いずに、より高速な推論で走行ポリシーを最適化する方法を学習

推論に伴うオーバーヘッドをなくすことで、NoRD は、学習コストを抑え、開発から導入までを高速化する、高性能な自動運転のための手法を実現します。

推論なし VLA ベースポリシーにおける標準 GRPO の限界

既存の推論ベース VLA の多くでは、RL ファインチューニングに GRPO (Group Relative Policy Optimization) が広く用いられています。しかし、データ効率に優れた推論なしの弱い SFT ベースポリシーに適用した場合、改善率はわずか 0.67% にとどまりました。これは、大規模なデータセットと明示的な推論トレースを用いる AutoVLA を含む先行研究で確認された 9% の性能向上とは対照的です。

我々は、この結果を弱いポリシーに内在する限界として捉えるのではなく、別の仮説を検討します。すなわち、標準的な RL 最適化は、推論を必要とせず、データ効率に優れたポリシーを学習するには根本的に不向きです。 この仮説を踏まえ、我々は性能向上の主なボトルネックとして 難易度バイアス に着目します。

難易度バイアス: 最適化が十分に機能しない要因

性能上のボトルネックがモデル固有の能力ではなく最適化プロセスにあるという仮説を検証するため、我々は NAVSIM データセット全体で弱いベースポリシーが出力する平均 PDM (Predictive Driver Model) スコアの密度分布を分析した結果、次の 2 つの異なる傾向が明らかになりました:

低分散の「容易な」シナリオ: 直進などの一般的なケースでは、最高スコア付近に高い密度。分散が小さいため、GRPO の目的関数における正規化の分母も小さく、こうした単純なタスクからの学習シグナルが過度に高い状態で維持
高分散の「困難な」シナリオ: 重要なロングテールシナリオでは、分散が大きく、スコアも低い。こうした複雑なケースでは、分散の大きさによって正規化の分母が増大し、学習シグナルが実質的に低下するため、モデルによるこれらのロングテールタスクの最適化を阻害

標準 GRPO では、勾配はグループ全体で平均化されます。その結果、モデルはすでに習得した容易なシナリオに学習リソースを費やす一方、困難なシナリオからの抑制されたシグナルは、ポリシーの改善を促すには至りません。我々は、この性能向上の停滞を、GRPO における難易度バイアスの表れと捉えています。

Dr. GRPO 難易度バイアスを軽減する GRPO の代替手法

標準的な RL の限界を克服するため、我々は弱いベースポリシーのファインチューニングにおいて、標準 GRPO のドロップイン代替手法として Dr. GRPO を採用。グループ分散への感度を抑えるよう最適化のバランスを再調整することで、Dr. GRPO は複雑な報酬ランドスケープにおけるモデルの最適化を可能にします。

特筆すべきことに、Dr. GRPO は、GRPO による従来の 0.67% の性能向上を 11.68% へと引き上げ、最適化曲線が高性能スコアへ向けてより明確に移行したことを示しました。この改善により、NoRD は標準 GRPO ではこれまで習得できなかった複雑な走行操作を学習できます。

ロングテールシナリオにおける定性的評価

NoRD は、多様なロングテールシナリオにおいて堅牢な時空間理解を発揮し、複雑な走行操作を実行します。

WaymoE2E

NAVSIM

効率性の評価

中間推論トークンを省くことで、NoRD は大幅な効率向上を実現し、推論ベース VLA と比べてトークン数と実行時間を大きく削減します。

失敗パターン

NoRD は多様な交通シナリオに効果的に対応する一方で、限界もあります。モデルの性能分析からは、強引な走行や後方交通の見落としといった具体的な失敗パターンが明らかになり、今後の改善に向けた方向性を示しています。

BIBTEX

@inproceedings{rawal2026nord,
  title={NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning},
  author={Rawal, Ishaan and Gupta, Shubh and Hu, Yihan and Zhan, Wei},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2026}
}

Shubh Gupta

リサーチサイエンティスト

Applied Intuition のリサーチサイエンティスト。生成 AI と自動運転を専門とする。スタンフォード大学にて電気工学の博士号を取得し、自動運転車輌向けの高信頼ローカライゼーションを研究。スタンフォード大学では、ニューラルマッピングとナビゲーションシステムに関する博士研究員としての研究にも従事。

Ishaan Rawal

リサーチインターン

Applied Intuition のリサーチインターンとして、自動運転向け vision-language-action (VLA) モデルのポストトレーニングに携わる。テキサス A&M 大学にてコンピューターサイエンスの修士号、ビルラ工科科学大学ピラニ校にてコンピューターサイエンスの工学士号を取得。

リサーチデータ管理

2026.05.29 • 4 min read

RAYNOVA: Ray 空間でスケールと時間変化を統合する自己回帰ワールドモデリング

リサーチ生成AI

2026.04.21 • Press Release

HII と Applied Intuition、AI を活用した軍艦の能力向上に向けた戦略的 MOU 締結

防衛AI

NoRD: 推論なしで走行する、データ効率に優れた視覚と言語に基づく行動生成モデル

自動運転システムに「思考の言語化」は必要か?

従来の VLA パイプライン vs. NoRD

推論なし VLA ベースポリシーにおける標準 GRPO の限界

難易度バイアス: 最適化が十分に機能しない要因

Dr. GRPO 難易度バイアスを軽減する GRPO の代替手法

ロングテール シナリオにおける定性的評価

WaymoE2E

NAVSIM

効率性の評価

失敗パターン

Shubh Gupta

Ishaan Rawal

RAYNOVA: Ray 空間でスケールと時間変化を統合する自己回帰ワールドモデリング

HII と Applied Intuition、AI を活用した軍艦の能力向上に向けた戦略的 MOU 締結

RAYNOVA: Ray 空間でスケールと時間変化を統合する自己回帰ワールドモデリング

HII と Applied Intuition、AI を活用した軍艦の能力向上に向けた戦略的 MOU 締結

ロングテールシナリオにおける定性的評価