【J-05】フィジカルAIの進化——VLAは「意味理解の延長」、WAMは「世界理解の導入」
kome
🌏 世界を読むキーワード 🔑
── J-05 ──
フィジカルAIの進化——VLAは「意味理解の延長」、WAMは「世界理解の導入」
🌏 この記事のポイント
- AIはもはや「画面の中」だけの存在ではない。工場・病院・倉庫・家庭へと進出する「フィジカルAI」の時代が始まっている
- VLA(Vision-Language-Action)は視覚・言語・行動を1つのモデルで統合した「意味理解の延長」。自然言語命令でロボットを操作できる柔軟性が最大の強み
- WAM(World Action Model)は行動前に「世界の未来」を内部でシミュレーションする「世界理解の導入」。VLAの弱点を補う次世代アーキテクチャ
- 2025年以降、VLAとWAMを融合した統合モデルが主流へ。デュアルシステム(速い反射+遅い推論)が汎用ロボットの標準構造に
- AIロボティクス市場は2030年に約1,248億ドル規模へ拡大予測
🌏 まず、こんな話から始めよう
2025年1月、BMW のスパルタンバーグ工場で Figure AI のロボットが恒久配備を開始した。
SF映画の1シーンのようだが、これはすでに現実だ。AIが「画面の外」に出て、身体を持ち、物理世界で働き始めている。
この変革を支えているのが、2つの技術アーキテクチャ——VLA と WAM だ。
🌏 💬 対話:ユイとアキラの「ロボットAI」入門
登場人物
- ユイ:新人エンジニア。AIには興味があるけど、専門用語にはまだ戸惑いがち。
- アキラ:ベテランエンジニア。難しい技術も平易な言葉で説明するのが得意。
▶ 🟦 シーン①:VLAって何ですか?
ユイ
アキラさん、最近「フィジカルAI」って言葉をよく聞くんですが、具体的にどういう意味ですか?
アキラ
簡単に言うと、「画面の外に出たAI」のことだよ。ChatGPTみたいな言語AIは文字や情報を処理するけど、フィジカルAIはカメラで世界を見て、人間の指示を理解して、実際にロボットとして動く。その中核技術が VLA(Vision-Language-Action)モデル だね。
ユイ
VLA……視覚、言語、行動の頭文字ですね。
アキラ
その通り。たとえば「棚の2段目にある青いボトルを、リサイクルマークがあるときだけ緑のゴミ箱に入れて」と言ったとき——従来のロボットはすべての条件をプログラムしないと動けない。でもVLAを搭載したロボットは、見て・理解して・動ける。
ユイ
すごい!それって、LLMにカメラとロボットの腕をつけたイメージですか?
アキラ
まさにそのイメージ。実際、GoogleのRT-2や、スタンフォードのOpenVLAなんかは、大規模な言語モデルを骨格にして、カメラ映像とロボット動作を学習させた。OpenVLAは70億パラメータでありながら、550億パラメータのRT-2を操作タスクで上回ったりもしてる。
▶ 📋 VLAのポイント整理
- 3つの統合:視覚(カメラ映像)・言語(自然言語命令)・行動(ロボットの動作)を1つのモデルに
- 代表例:Google RT-2、OpenVLA(Stanford)、π₀(Physical Intelligence)、Helix(Figure AI)
- 最新動向:2025年2月、Figure AIのHuman型ロボット用VLA「Helix」が発表。全身(頭・指・手首・胴体)を同時制御できる初のVLAとして話題に
- 商用展開:BMWのスパルタンバーグ工場でFigure AIのロボットが2025年1月から恒久配備開始
- 市場規模:AIロボティクス市場は2024年の161億ドルから2030年には約1,248億ドルへ成長予測
▶ 🟦 シーン②:VLAの「壁」とは?
ユイ
でも、そんなにすごいなら、もうロボットは完璧なんじゃないですか?
アキラ
(苦笑)まだまだ課題はある。VLAの根本的な問題は、「言語と行動の意味はわかるけど、物理世界がどう動くかはわからない」こと。
ユイ
どういうことですか?
アキラ
たとえば、ロボットがコップを掴もうとするとき、VLAは「コップを取れ」という命令は理解できる。でも「掴んだらどうなるか」「力加減を間違えたら何が起きるか」を事前に想像することは苦手なんだ。言ってみれば、意味はわかるが、物理法則はわからない。
ユイ
それって、頭はいいけど手先の感覚がない、みたいな感じ?
アキラ
いい例えだね。だからこそ、次の進化として登場したのが WAM(World Action Model) だよ。
▶ 🟦 シーン③:WAMとは「世界を想像できるAI」
ユイ
WAMって、VLAと何が違うんですか?
アキラ
VLAが「見て・聞いて・動く」なら、WAMは「未来を想像してから動く」。具体的には、世界モデルというものを内部に持っていて、「今この行動をとったら、次に何が起きるか」を事前にシミュレーションできる。
ユイ
頭の中で試してから動く……チェスで先読みするみたいな感じ?
アキラ
まさに!人間が「このコップ、ここで離したら落ちるな」と想像できるのと同じ能力。WAMはその物理的な想像力をAIに与える技術なんだ。NVIDIAは「Cosmos」という世界基盤モデルをリリースして、動画ベースのVAM/WAMがVLAの性能に追いつきつつあることを実証してる。
ユイ
でも、未来を想像するって計算コストがすごそう……
アキラ
するどい!実は最初は1回の行動推論に1秒もかかってた。でもNVIDIAはDreamZeroという最適化で38倍の高速化を達成して、7Hzでリアルタイム実行できるようにした。これはかなりのブレークスルーだよ。
▶ 📋 WAMのポイント整理
- 核心思想:行動する前に「未来を内部でシミュレーション」できる
- 仕組み:① 世界モデルが未来の状態を予測 → ② 行動モデルが最適な次の動作を選択
- 代表例:WorldVLA(2025年6月)、RynnVLA-002、Percept-WAM(自動運転用)
- NVIDIAの取り組み:Cosmos世界基盤モデル + DreamZero最適化(38倍高速化)
- 富士通の事例:「空間World Model」で商業施設のロボット警備システムを開発中
▶ 🟦 シーン④:VLAとWAMの違いを整理すると?
ユイ
まとめると、VLAとWAMってどう違うんでしょう?
アキラ
こんなイメージで考えてみて。
| VLA | WAM | |
|---|---|---|
| 何ができる? | 見て・聞いて・動く | 想像してから動く |
| 強み | 言語命令の柔軟な理解 | 物理世界の予測・シミュレーション |
| 弱み | 物理挙動の「想像力」が弱い | 計算コストが高い(改善中) |
| 代表モデル | RT-2, OpenVLA, π₀, Helix | WorldVLA, DreamZero, Cosmos |
| 哲学 | 意味理解の延長 | 世界理解の導入 |
ユイ
なるほど!VLAは「言葉を知ってる人」、WAMは「先を読める人」ですね。
アキラ
そう。実際には、2025年以降のモデルはVLAとWAMを融合した統合型アーキテクチャが主流になりつつある。世界を理解して、言語命令を解釈して、行動する——この3つが一体になったとき、真の意味での「汎用ロボット」が生まれる。
▶ 🟦 シーン⑤:デュアルシステムという設計思想
ユイ
HeliXやGR00T N1が「システム1とシステム2」という構造を使ってると聞いたんですが、どういう意味ですか?
アキラ
これは人間の認知理論から来てる。人間の思考には2種類ある。直感的で速い反応(システム1)と、じっくり考える論理的判断(システム2)。
ユイ
あ!「ファスト&スロー」ですか?
アキラ
正解!NVIDIAのGR00T N1なら、システム1は10ミリ秒の超高速で手先の細かい制御をする拡散モデル。システム2はLLMベースで、「次に何をすべきか」という高レベルな計画を立てる。この組み合わせで、素早さと賢さを両立してる。
ユイ
つまり、反射神経と知性を分けて持ってるんですね。
アキラ
うまい表現だね。これがVLAとWAMの技術が最終的に目指してる姿——物理世界で人間と肩を並べて働けるAIだよ。
▶ 📋 デュアルシステムのポイント整理
- System 1(速い):拡散モデルベース、10ms以下の低レイテンシで低レベル制御
- System 2(遅い):LLMベース、高レベルの計画・推論を担当
- 代表例:NVIDIA GR00T N1、Figure AI Helix
- 目的:反射的な精度制御と、文脈理解に基づく判断を同時に実現
🌏 📊 フィジカルAIの進化タイムライン
| 年 | 出来事 |
|---|---|
| 2022 | Google RT-1発表。ロボット制御に言語モデルを導入 |
| 2023 | Google RT-2発表。VLMとロボット制御の本格統合 |
| 2024年6月 | Stanford OpenVLA(70億パラメータ)がRT-2を超える性能 |
| 2024年11月 | Physical Intelligence が π₀ 発表(汎用VLA) |
| 2025年1月 | BMWでFigure AIのVLAロボット恒久配備 |
| 2025年2月 | Figure AI Helixが全身制御型VLAとして発表 |
| 2025年3月 | NVIDIA GR00T N1リリース(デュアルシステム型VLA) |
| 2025年 | WorldVLA、WAM統合型モデルが次々と登場 |
| 2026年 | NVIDIAのDreamZeroが38倍高速化を達成 |
🌏 🔮 まとめ:VLAとWAMが示す「AIの身体化」
▶ VLAとは
- 視覚・言語・行動を1つのモデルで統合した「意味理解の延長」
- 自然言語命令でロボットを操作できる柔軟性が最大の強み
- 工場・倉庫・病院での商用展開が始まっている
▶ WAMとは
- 行動前に「世界の未来」を内部でシミュレーションする「世界理解の導入」
- VLAの弱点(物理法則の想像力不足)を補う次世代アーキテクチャ
- 計算コストの高さが課題だったが、NVIDIAのDreamZeroが38倍高速化を実現
▶ 両者の未来
- 2025年以降、VLAとWAMは融合した統合モデルが主流へ
- デュアルシステム(速い反射+遅い推論)が汎用ロボットの標準構造に
- AIロボティクス市場は2030年に約1,248億ドル規模へ拡大予測
💬 「ロボットが人間と同じ空間で働く時代は、もうすぐそこまで来ている。VLAが言葉を与え、WAMが想像力を与えた。あとは身体が追いつくだけだ。」
参考:Wikipedia VLA Models、Articsledge VLA Guide、NVIDIA Cosmos、日経Robotics、NEC世界モデル解説 (2025-2026)
🌏 世界を読むキーワード – J-05 🔑
ニュースの裏側にある、本当の文脈を読む…