🌏 世界を読むキーワード 🔑

── J-05 ──

フィジカルAIの進化——VLAは「意味理解の延長」、WAMは「世界理解の導入」

🌏 この記事のポイント

AIはもはや「画面の中」だけの存在ではない。工場・病院・倉庫・家庭へと進出する「フィジカルAI」の時代が始まっている
VLA（Vision-Language-Action）は視覚・言語・行動を1つのモデルで統合した「意味理解の延長」。自然言語命令でロボットを操作できる柔軟性が最大の強み
WAM（World Action Model）は行動前に「世界の未来」を内部でシミュレーションする「世界理解の導入」。VLAの弱点を補う次世代アーキテクチャ
2025年以降、VLAとWAMを融合した統合モデルが主流へ。デュアルシステム（速い反射＋遅い推論）が汎用ロボットの標準構造に
AIロボティクス市場は2030年に約1,248億ドル規模へ拡大予測

🌏 まず、こんな話から始めよう

2025年1月、BMW のスパルタンバーグ工場で Figure AI のロボットが恒久配備を開始した。

SF映画の1シーンのようだが、これはすでに現実だ。AIが「画面の外」に出て、身体を持ち、物理世界で働き始めている。

この変革を支えているのが、2つの技術アーキテクチャ——VLA と WAM だ。

🌏 💬 対話：ユイとアキラの「ロボットAI」入門

登場人物

ユイ：新人エンジニア。AIには興味があるけど、専門用語にはまだ戸惑いがち。

アキラ：ベテランエンジニア。難しい技術も平易な言葉で説明するのが得意。

▶ 🟦 シーン①：VLAって何ですか？

ユイ

アキラさん、最近「フィジカルAI」って言葉をよく聞くんですが、具体的にどういう意味ですか？

アキラ

簡単に言うと、「画面の外に出たAI」のことだよ。ChatGPTみたいな言語AIは文字や情報を処理するけど、フィジカルAIはカメラで世界を見て、人間の指示を理解して、実際にロボットとして動く。その中核技術が VLA（Vision-Language-Action）モデルだね。

ユイ

VLA……視覚、言語、行動の頭文字ですね。

アキラ

その通り。たとえば「棚の2段目にある青いボトルを、リサイクルマークがあるときだけ緑のゴミ箱に入れて」と言ったとき——従来のロボットはすべての条件をプログラムしないと動けない。でもVLAを搭載したロボットは、見て・理解して・動ける。

ユイ

すごい！それって、LLMにカメラとロボットの腕をつけたイメージですか？

アキラ

まさにそのイメージ。実際、GoogleのRT-2や、スタンフォードのOpenVLAなんかは、大規模な言語モデルを骨格にして、カメラ映像とロボット動作を学習させた。OpenVLAは70億パラメータでありながら、550億パラメータのRT-2を操作タスクで上回ったりもしてる。

▶ 📋 VLAのポイント整理

3つの統合：視覚（カメラ映像）・言語（自然言語命令）・行動（ロボットの動作）を1つのモデルに
代表例：Google RT-2、OpenVLA（Stanford）、π₀（Physical Intelligence）、Helix（Figure AI）
最新動向：2025年2月、Figure AIのHuman型ロボット用VLA「Helix」が発表。全身（頭・指・手首・胴体）を同時制御できる初のVLAとして話題に
商用展開：BMWのスパルタンバーグ工場でFigure AIのロボットが2025年1月から恒久配備開始
市場規模：AIロボティクス市場は2024年の161億ドルから2030年には約1,248億ドルへ成長予測

▶ 🟦 シーン②：VLAの「壁」とは？

ユイ

でも、そんなにすごいなら、もうロボットは完璧なんじゃないですか？

アキラ

（苦笑）まだまだ課題はある。VLAの根本的な問題は、「言語と行動の意味はわかるけど、物理世界がどう動くかはわからない」こと。

ユイ

どういうことですか？

アキラ

たとえば、ロボットがコップを掴もうとするとき、VLAは「コップを取れ」という命令は理解できる。でも「掴んだらどうなるか」「力加減を間違えたら何が起きるか」を事前に想像することは苦手なんだ。言ってみれば、意味はわかるが、物理法則はわからない。

ユイ

それって、頭はいいけど手先の感覚がない、みたいな感じ？

アキラ

いい例えだね。だからこそ、次の進化として登場したのが WAM（World Action Model）だよ。

▶ 🟦 シーン③：WAMとは「世界を想像できるAI」

ユイ

WAMって、VLAと何が違うんですか？

アキラ

VLAが「見て・聞いて・動く」なら、WAMは「未来を想像してから動く」。具体的には、世界モデルというものを内部に持っていて、「今この行動をとったら、次に何が起きるか」を事前にシミュレーションできる。

ユイ

頭の中で試してから動く……チェスで先読みするみたいな感じ？

アキラ

まさに！人間が「このコップ、ここで離したら落ちるな」と想像できるのと同じ能力。WAMはその物理的な想像力をAIに与える技術なんだ。NVIDIAは「Cosmos」という世界基盤モデルをリリースして、動画ベースのVAM/WAMがVLAの性能に追いつきつつあることを実証してる。

ユイ

でも、未来を想像するって計算コストがすごそう……

アキラ

するどい！実は最初は1回の行動推論に1秒もかかってた。でもNVIDIAはDreamZeroという最適化で38倍の高速化を達成して、7Hzでリアルタイム実行できるようにした。これはかなりのブレークスルーだよ。

▶ 📋 WAMのポイント整理

核心思想：行動する前に「未来を内部でシミュレーション」できる
仕組み：① 世界モデルが未来の状態を予測 → ② 行動モデルが最適な次の動作を選択
代表例：WorldVLA（2025年6月）、RynnVLA-002、Percept-WAM（自動運転用）
NVIDIAの取り組み：Cosmos世界基盤モデル + DreamZero最適化（38倍高速化）
富士通の事例：「空間World Model」で商業施設のロボット警備システムを開発中

▶ 🟦 シーン④：VLAとWAMの違いを整理すると？

ユイ

まとめると、VLAとWAMってどう違うんでしょう？

アキラ

こんなイメージで考えてみて。

	VLA	WAM
何ができる？	見て・聞いて・動く	想像してから動く
強み	言語命令の柔軟な理解	物理世界の予測・シミュレーション
弱み	物理挙動の「想像力」が弱い	計算コストが高い（改善中）
代表モデル	RT-2, OpenVLA, π₀, Helix	WorldVLA, DreamZero, Cosmos
哲学	意味理解の延長	世界理解の導入

ユイ

なるほど！VLAは「言葉を知ってる人」、WAMは「先を読める人」ですね。

アキラ

そう。実際には、2025年以降のモデルはVLAとWAMを融合した統合型アーキテクチャが主流になりつつある。世界を理解して、言語命令を解釈して、行動する——この3つが一体になったとき、真の意味での「汎用ロボット」が生まれる。

▶ 🟦 シーン⑤：デュアルシステムという設計思想

ユイ

HeliXやGR00T N1が「システム1とシステム2」という構造を使ってると聞いたんですが、どういう意味ですか？

アキラ

これは人間の認知理論から来てる。人間の思考には2種類ある。直感的で速い反応（システム1）と、じっくり考える論理的判断（システム2）。

ユイ

あ！「ファスト＆スロー」ですか？

アキラ

正解！NVIDIAのGR00T N1なら、システム1は10ミリ秒の超高速で手先の細かい制御をする拡散モデル。システム2はLLMベースで、「次に何をすべきか」という高レベルな計画を立てる。この組み合わせで、素早さと賢さを両立してる。

ユイ

つまり、反射神経と知性を分けて持ってるんですね。

アキラ

うまい表現だね。これがVLAとWAMの技術が最終的に目指してる姿——物理世界で人間と肩を並べて働けるAIだよ。

▶ 📋 デュアルシステムのポイント整理

System 1（速い）：拡散モデルベース、10ms以下の低レイテンシで低レベル制御
System 2（遅い）：LLMベース、高レベルの計画・推論を担当
代表例：NVIDIA GR00T N1、Figure AI Helix
目的：反射的な精度制御と、文脈理解に基づく判断を同時に実現

🌏 📊 フィジカルAIの進化タイムライン

年	出来事
2022	Google RT-1発表。ロボット制御に言語モデルを導入
2023	Google RT-2発表。VLMとロボット制御の本格統合
2024年6月	Stanford OpenVLA（70億パラメータ）がRT-2を超える性能
2024年11月	Physical Intelligence が π₀ 発表（汎用VLA）
2025年1月	BMWでFigure AIのVLAロボット恒久配備
2025年2月	Figure AI Helixが全身制御型VLAとして発表
2025年3月	NVIDIA GR00T N1リリース（デュアルシステム型VLA）
2025年	WorldVLA、WAM統合型モデルが次々と登場
2026年	NVIDIAのDreamZeroが38倍高速化を達成

🌏 🔮 まとめ：VLAとWAMが示す「AIの身体化」

▶ VLAとは

視覚・言語・行動を1つのモデルで統合した「意味理解の延長」
自然言語命令でロボットを操作できる柔軟性が最大の強み
工場・倉庫・病院での商用展開が始まっている

▶ WAMとは

行動前に「世界の未来」を内部でシミュレーションする「世界理解の導入」
VLAの弱点（物理法則の想像力不足）を補う次世代アーキテクチャ
計算コストの高さが課題だったが、NVIDIAのDreamZeroが38倍高速化を実現

▶ 両者の未来

2025年以降、VLAとWAMは融合した統合モデルが主流へ
デュアルシステム（速い反射＋遅い推論）が汎用ロボットの標準構造に
AIロボティクス市場は2030年に約1,248億ドル規模へ拡大予測

💬 「ロボットが人間と同じ空間で働く時代は、もうすぐそこまで来ている。VLAが言葉を与え、WAMが想像力を与えた。あとは身体が追いつくだけだ。」

参考：Wikipedia VLA Models、Articsledge VLA Guide、NVIDIA Cosmos、日経Robotics、NEC世界モデル解説 (2025-2026)

🌏 世界を読むキーワード – J-05 🔑

ニュースの裏側にある、本当の文脈を読む…