🌏 世界を読むキーワード 🔑
── J-05 ──

フィジカルAIの進化——VLAは「意味理解の延長」、WAMは「世界理解の導入」

🌏 この記事のポイント
  • AIはもはや「画面の中」だけの存在ではない。工場・病院・倉庫・家庭へと進出する「フィジカルAI」の時代が始まっている
  • VLA(Vision-Language-Action)は視覚・言語・行動を1つのモデルで統合した「意味理解の延長」。自然言語命令でロボットを操作できる柔軟性が最大の強み
  • WAM(World Action Model)は行動前に「世界の未来」を内部でシミュレーションする「世界理解の導入」。VLAの弱点を補う次世代アーキテクチャ
  • 2025年以降、VLAとWAMを融合した統合モデルが主流へ。デュアルシステム(速い反射+遅い推論)が汎用ロボットの標準構造に
  • AIロボティクス市場は2030年に約1,248億ドル規模へ拡大予測

🌏 まず、こんな話から始めよう
2025年1月、BMW のスパルタンバーグ工場で Figure AI のロボットが恒久配備を開始した。
SF映画の1シーンのようだが、これはすでに現実だ。AIが「画面の外」に出て、身体を持ち、物理世界で働き始めている。
この変革を支えているのが、2つの技術アーキテクチャ——VLAWAM だ。

🌏 💬 対話:ユイとアキラの「ロボットAI」入門
登場人物
  • ユイ:新人エンジニア。AIには興味があるけど、専門用語にはまだ戸惑いがち。
  • アキラ:ベテランエンジニア。難しい技術も平易な言葉で説明するのが得意。

▶ 🟦 シーン①:VLAって何ですか?
ユイ

ユイ
アキラさん、最近「フィジカルAI」って言葉をよく聞くんですが、具体的にどういう意味ですか?
アキラ

アキラ
簡単に言うと、「画面の外に出たAI」のことだよ。ChatGPTみたいな言語AIは文字や情報を処理するけど、フィジカルAIはカメラで世界を見て、人間の指示を理解して、実際にロボットとして動く。その中核技術が VLA(Vision-Language-Action)モデル だね。
ユイ

ユイ
VLA……視覚、言語、行動の頭文字ですね。
アキラ

アキラ
その通り。たとえば「棚の2段目にある青いボトルを、リサイクルマークがあるときだけ緑のゴミ箱に入れて」と言ったとき——従来のロボットはすべての条件をプログラムしないと動けない。でもVLAを搭載したロボットは、見て・理解して・動ける。
ユイ

ユイ
すごい!それって、LLMにカメラとロボットの腕をつけたイメージですか?
アキラ

アキラ
まさにそのイメージ。実際、GoogleのRT-2や、スタンフォードのOpenVLAなんかは、大規模な言語モデルを骨格にして、カメラ映像とロボット動作を学習させた。OpenVLAは70億パラメータでありながら、550億パラメータのRT-2を操作タスクで上回ったりもしてる。

▶ 📋 VLAのポイント整理
  • 3つの統合:視覚(カメラ映像)・言語(自然言語命令)・行動(ロボットの動作)を1つのモデルに
  • 代表例:Google RT-2、OpenVLA(Stanford)、π₀(Physical Intelligence)、Helix(Figure AI)
  • 最新動向:2025年2月、Figure AIのHuman型ロボット用VLA「Helix」が発表。全身(頭・指・手首・胴体)を同時制御できる初のVLAとして話題に
  • 商用展開:BMWのスパルタンバーグ工場でFigure AIのロボットが2025年1月から恒久配備開始
  • 市場規模:AIロボティクス市場は2024年の161億ドルから2030年には約1,248億ドルへ成長予測

▶ 🟦 シーン②:VLAの「壁」とは?
ユイ

ユイ
でも、そんなにすごいなら、もうロボットは完璧なんじゃないですか?
アキラ

アキラ
(苦笑)まだまだ課題はある。VLAの根本的な問題は、「言語と行動の意味はわかるけど、物理世界がどう動くかはわからない」こと。
ユイ

ユイ
どういうことですか?
アキラ

アキラ
たとえば、ロボットがコップを掴もうとするとき、VLAは「コップを取れ」という命令は理解できる。でも「掴んだらどうなるか」「力加減を間違えたら何が起きるか」を事前に想像することは苦手なんだ。言ってみれば、意味はわかるが、物理法則はわからない。
ユイ

ユイ
それって、頭はいいけど手先の感覚がない、みたいな感じ?
アキラ

アキラ
いい例えだね。だからこそ、次の進化として登場したのが WAM(World Action Model) だよ。

▶ 🟦 シーン③:WAMとは「世界を想像できるAI」
ユイ

ユイ
WAMって、VLAと何が違うんですか?
アキラ

アキラ
VLAが「見て・聞いて・動く」なら、WAMは「未来を想像してから動く」。具体的には、世界モデルというものを内部に持っていて、「今この行動をとったら、次に何が起きるか」を事前にシミュレーションできる。
ユイ

ユイ
頭の中で試してから動く……チェスで先読みするみたいな感じ?
アキラ

アキラ
まさに!人間が「このコップ、ここで離したら落ちるな」と想像できるのと同じ能力。WAMはその物理的な想像力をAIに与える技術なんだ。NVIDIAは「Cosmos」という世界基盤モデルをリリースして、動画ベースのVAM/WAMがVLAの性能に追いつきつつあることを実証してる。
ユイ

ユイ
でも、未来を想像するって計算コストがすごそう……
アキラ

アキラ
するどい!実は最初は1回の行動推論に1秒もかかってた。でもNVIDIAはDreamZeroという最適化で38倍の高速化を達成して、7Hzでリアルタイム実行できるようにした。これはかなりのブレークスルーだよ。

▶ 📋 WAMのポイント整理
  • 核心思想:行動する前に「未来を内部でシミュレーション」できる
  • 仕組み:① 世界モデルが未来の状態を予測 → ② 行動モデルが最適な次の動作を選択
  • 代表例:WorldVLA(2025年6月)、RynnVLA-002、Percept-WAM(自動運転用)
  • NVIDIAの取り組み:Cosmos世界基盤モデル + DreamZero最適化(38倍高速化)
  • 富士通の事例:「空間World Model」で商業施設のロボット警備システムを開発中

▶ 🟦 シーン④:VLAとWAMの違いを整理すると?
ユイ

ユイ
まとめると、VLAとWAMってどう違うんでしょう?
アキラ

アキラ
こんなイメージで考えてみて。
VLA WAM
何ができる? 見て・聞いて・動く 想像してから動く
強み 言語命令の柔軟な理解 物理世界の予測・シミュレーション
弱み 物理挙動の「想像力」が弱い 計算コストが高い(改善中)
代表モデル RT-2, OpenVLA, π₀, Helix WorldVLA, DreamZero, Cosmos
哲学 意味理解の延長 世界理解の導入
ユイ

ユイ
なるほど!VLAは「言葉を知ってる人」、WAMは「先を読める人」ですね。
アキラ

アキラ
そう。実際には、2025年以降のモデルはVLAとWAMを融合した統合型アーキテクチャが主流になりつつある。世界を理解して、言語命令を解釈して、行動する——この3つが一体になったとき、真の意味での「汎用ロボット」が生まれる。

▶ 🟦 シーン⑤:デュアルシステムという設計思想
ユイ

ユイ
HeliXやGR00T N1が「システム1とシステム2」という構造を使ってると聞いたんですが、どういう意味ですか?
アキラ

アキラ
これは人間の認知理論から来てる。人間の思考には2種類ある。直感的で速い反応(システム1)と、じっくり考える論理的判断(システム2)。
ユイ

ユイ
あ!「ファスト&スロー」ですか?
アキラ

アキラ
正解!NVIDIAのGR00T N1なら、システム1は10ミリ秒の超高速で手先の細かい制御をする拡散モデル。システム2はLLMベースで、「次に何をすべきか」という高レベルな計画を立てる。この組み合わせで、素早さと賢さを両立してる。
ユイ

ユイ
つまり、反射神経と知性を分けて持ってるんですね。
アキラ

アキラ
うまい表現だね。これがVLAとWAMの技術が最終的に目指してる姿——物理世界で人間と肩を並べて働けるAIだよ。

▶ 📋 デュアルシステムのポイント整理
  • System 1(速い):拡散モデルベース、10ms以下の低レイテンシで低レベル制御
  • System 2(遅い):LLMベース、高レベルの計画・推論を担当
  • 代表例:NVIDIA GR00T N1、Figure AI Helix
  • 目的:反射的な精度制御と、文脈理解に基づく判断を同時に実現

🌏 📊 フィジカルAIの進化タイムライン
出来事
2022 Google RT-1発表。ロボット制御に言語モデルを導入
2023 Google RT-2発表。VLMとロボット制御の本格統合
2024年6月 Stanford OpenVLA(70億パラメータ)がRT-2を超える性能
2024年11月 Physical Intelligence が π₀ 発表(汎用VLA)
2025年1月 BMWでFigure AIのVLAロボット恒久配備
2025年2月 Figure AI Helixが全身制御型VLAとして発表
2025年3月 NVIDIA GR00T N1リリース(デュアルシステム型VLA)
2025年 WorldVLA、WAM統合型モデルが次々と登場
2026年 NVIDIAのDreamZeroが38倍高速化を達成

🌏 🔮 まとめ:VLAとWAMが示す「AIの身体化」
▶ VLAとは
  • 視覚・言語・行動を1つのモデルで統合した「意味理解の延長」
  • 自然言語命令でロボットを操作できる柔軟性が最大の強み
  • 工場・倉庫・病院での商用展開が始まっている
▶ WAMとは
  • 行動前に「世界の未来」を内部でシミュレーションする「世界理解の導入」
  • VLAの弱点(物理法則の想像力不足)を補う次世代アーキテクチャ
  • 計算コストの高さが課題だったが、NVIDIAのDreamZeroが38倍高速化を実現
▶ 両者の未来
  • 2025年以降、VLAとWAMは融合した統合モデルが主流へ
  • デュアルシステム(速い反射+遅い推論)が汎用ロボットの標準構造に
  • AIロボティクス市場は2030年に約1,248億ドル規模へ拡大予測

💬 「ロボットが人間と同じ空間で働く時代は、もうすぐそこまで来ている。VLAが言葉を与え、WAMが想像力を与えた。あとは身体が追いつくだけだ。」

参考:Wikipedia VLA Models、Articsledge VLA Guide、NVIDIA Cosmos、日経Robotics、NEC世界モデル解説 (2025-2026)
🌏 世界を読むキーワード – J-05 🔑
ニュースの裏側にある、本当の文脈を読む…