推論技術編 Lesson 3 — ダッシュボードの読み方：コストと性能のトレードオフ

1. パレートフロンティアとは

スループット vs インタラクティビティのトレードオフ

Lesson 8 で学んだ通り、tok/s（スループット）とtok/s/user（インタラクティビティ）はトレードオフの関係にある。パレートフロンティアは「あるGPU+最適化の組み合わせで、このトレードオフの限界がどこにあるか」を示す曲線。

パレートフロンティア概念図

← tok/s（スループット）高い tok/s/user（インタラクティビティ）高い →

理想領域
(右上)

劣位領域
(左下)

H100（Hopper）

B200（Blackwell）

GB200 NVL72

MI355X（AMD）

📐 パレートフロンティアの読み方

右上にあるほど良い — 高スループットかつ高インタラクティビティ
同じ曲線上のポイントは、設定（バッチサイズ、並列化戦略）の違い
曲線が右上にシフト = 世代間の技術的飛躍
InferenceXではX軸にtok/s/user、Y軸にtok/sを取ることが多い
ポイントにマウスを乗せると詳細が見える（ダッシュボード上）

なぜ対数スケール（Log Scale）が必要か

GB200 NVL72 は H100 の約100倍の性能。リニアスケールで表示するとH100のデータポイントが原点に張り付いて見えなくなる。InferenceXダッシュボードでは対数スケールを使うことで、全世代を同じグラフ上で比較できるようにしている。

2. GPU比較 — 実データで見る世代間の差

InferenceX v2 のベンチマーク（DeepSeek R1, 8k入力/1k出力）から、主要GPUの性能を比較する。

GPU	世代	構成	精度	vs H100	備考
H100	Hopper	8 GPU/node	FP8	1×	ベースライン
H200	Hopper	8 GPU/node	FP8	~1.3×	HBM容量増
B200	Blackwell	8 GPU/node	FP4	~35×	FP4 + 全最適化
GB200 NVL72	Blackwell	72 GPU/rack	FP8	~55×	NVLink帯域の威力
GB300 NVL72	Blackwell Ultra	72 GPU/rack	FP4	~100×	現行最強
MI355X	CDNA 4 (AMD)	8 GPU/node	FP8	~30×	FP8ではB200と互角
MI355X	CDNA 4 (AMD)	8 GPU/node	FP4	~15×	composability問題で劣後

GB200 NVL72 の特異性

GB200 NVL72 は単なる「GPU8枚を9倍にした」ものではない。72GPU間をNVLinkで高帯域接続することで、wideEP の効果が最大化される。

60 tok/s/user の設定: 各GPUが単体B200の3倍のトークンを出力
NVLink帯域: 8GPU間のNVLink vs 72GPU間のNVLink = 集団帯域幅で8倍の差
ただし130 tok/s/user以上では単一ノード（8GPU）で十分な場合もあり、NVL72の優位性が薄れる

3. $/Million tokens — コスト構造を分解する

TCO（総所有コスト）の構成要素

GPU の購入価格だけでなく、3〜5年の運用期間全体のコストを見る必要がある。

TCOの構成（典型的なAI推論サーバー）

GPU本体

45%

電力+冷却

25%

ネットワーク

12%

施設+運用

10%

その他

実データ: Crusoe の DeepSeek R1 推論コスト

公開価格 vs 推定原価 → 粗利率

入力
トークン

推定原価

$0.226/M

→

公開価格

$1.35/M

粗利率

83%

出力
トークン

推定原価

$2.955/M

→

公開価格

$5.40/M

粗利率

45%

📐 なぜ入力と出力でマージンが違うか

入力トークン（Prefill）は並列処理できるため、GPUの演算コアを効率的に使える → 原価が安い → マージンが大きい
出力トークン（Decode）は逐次処理でメモリ帯域がボトルネック → GPUの利用効率が低い → 原価が高い → マージンが小さい
最適化テクニック（Lesson 9）は主にDecodeの効率を改善する → 出力マージンの改善余地が大きい

インタラクティビティ vs コストの関係

速くするほど高くなる（DeepSeek R1 FP4 on B200s）

30 tok/s/user

$0.30/M

50 tok/s/user

$0.56/M

75 tok/s/user

$1.20/M

100 tok/s/user

$2.20/M

125 tok/s/user

$4.00/M

2.5倍速くすると → 約7倍高くなる。非線形な関係。

4. picoJoules/token — エネルギー効率

なぜエネルギー効率が重要か

AIデータセンターの最大の制約は「電力」。新しいGPU世代は性能が100倍でも消費電力は2〜3倍程度 → 1トークンあたりのエネルギーは桁違いに改善。これがデータセンター拡張のペースを左右する。

📐 エネルギー効率の改善

GPU自体の消費電力: H100 700W → B200 1000W → GB200 (per GPU) ~1000W
しかし perf/W（性能÷消費電力）は世代ごとに大幅改善
pJ/tok = 全システムの消費電力（GPU+冷却+ネットワーク）÷ トークン生成量
GB300 NVL72 は H100 比で pJ/tok が 約30〜50倍改善

投資家視点: エネルギー効率と電力制約

AIの電力需要は急増しているが、新世代GPUのエネルギー効率改善により「同じ電力で生成できるトークン量」は桁違いに増える。これは:

電力インフラ企業の需要は「まだまだ足りない」を意味する
推論コストの急落 → AI利用の爆発的拡大 → さらなる設備投資
古いGPU（H100世代）の陳腐化が加速する

5. AMD vs NVIDIA — ソフトウェアが決める勝者

ハードウェアスペックだけでは語れない

AMD MI355X は HBM 288GB（B200の192GBより多い）、メモリ帯域幅も競争力がある。しかしInferenceXのベンチマークでは、特に FP4 + 複数最適化の組み合わせでNVIDIAが大幅にリードする。

比較軸	NVIDIA（B200 / GB200）	AMD（MI355X）
FP8 単体性能	◎	◎（ほぼ互角）
FP4 性能	◎	△（大幅劣後）
Disagg + wideEP	◎（Dynamo / NIXL）	○（MoRI / Mooncake）
全最適化の組み合わせ	◎（掛け算で効く）	×（composability問題）
推論エンジン	TRT-LLM / SGLang / vLLM	ATOM（新、本番実績なし）
インタラクティビティ範囲	30〜150+ tok/s/user	13〜35 tok/s/user（狭い）

AMDの「ソフトウェアの壁」

AMDのvLLMフォークは v0.10.1 ベース（NVIDIAは0.15.1+）。新しい推論エンジン ATOM は単体性能は良いが、NVMe/CPU KVキャッシュオフロード、ツールパース、wideEP、disaggregated servingなどの機能が未実装。本番環境で使っている顧客はまだゼロ。

6. 投資家の視点 — InferenceXから何が読み取れるか

NVIDIAの堀は深化中

CUDAの堀

ハードウェアの差ではなくソフトウェアエコシステム（CUDA / TRT-LLM / Dynamo / NIXL）が最適化のcomposabilityを生んでいる。AMDが追いつくには年単位の開発が必要。

メモリ需要は構造的に拡大

HBM ↑↑

KV Cacheの巨大化 → HBM容量が「同時ユーザー数」の上限を決める。GB200 NVL72は72GPU分のHBM → SK Hynix / Samsung / Micronのメモリ需要を牽引。

推論コスト急落 → 利用爆発

100×改善

H100→GB300で推論コストが100分の1。AI APIの価格破壊 → 今まで採算の合わなかったユースケースが解放される → さらなるGPU需要。

因果チェーン: 推論コスト低下 → 需要爆発 → 設備投資加速

InferenceXのデータが示す「100倍の性能改善」は、単にハードウェアが良くなったという話ではない。

推論コストが100分の1に → AI APIの価格が劇的に下がる
価格弾力性が働き、AI利用量が爆発的に増加する（ジェヴォンズのパラドックス）
利用量の増加がデータセンターの新規建設を加速する
データセンター建設 → GPU / HBM / 電力 / 冷却 / 建設の需要増
これがkabuの構造分析（thinking/03, 04, 05）で分析したバリューチェーン全体に波及する

🧠 セルフチェック

Q1: パレートフロンティア上で「右上にあるGPU」は何が優れているか？

回答を見る

高いスループット（tok/s）と高いインタラクティビティ（tok/s/user）を同時に実現している。つまり、多くのユーザーに対して速いレスポンスを返せる。パレートフロンティアの「右上」は技術的に最も優れた領域。H100→B200→GB200 NVL72と世代が進むにつれ、フロンティアが右上にシフトしている。

Q2: Crusoeの入力トークン粗利率が83%なのに、出力トークンが45%なのはなぜか？

回答を見る

入力処理（Prefill）は並列処理でGPU効率が高いため原価が安い（$0.226/M）。出力生成（Decode）はメモリ帯域がボトルネックでGPU利用効率が低いため原価が高い（$2.955/M）。同じGPUでも、フェーズによって「コンピュート活用率」が全く異なるため、粗利率に大きな差が出る。

Q3: 「tok/s/user を50から125に上げると、コストは約7倍になる」のはなぜか？

回答を見る

インタラクティビティを上げる = 同時ユーザー数を減らす（バッチサイズを下げる）こと。バッチサイズが小さいと、1回のメモリ読み出しで生成できるトークンが少なくなり、GPU利用効率が下がる。つまり速度を上げるほど1トークンあたりの「GPU時間」が増える。この関係は非線形で、速度が上がるほどコスト増加が急激になる。

Q4: GB200 NVL72 が 130 tok/s/user 以上では B200 単体ノードに対する優位性が薄れるのはなぜか？

回答を見る

超高インタラクティビティではバッチサイズが小さくなり、8GPU単体ノードのNVLink帯域で十分に処理できるため。NVL72の真の価値はwideEPと大バッチでの集団帯域幅。バッチが小さいとエキスパート並列の恩恵が薄れ、72GPUの多くが遊んでしまう。少ユーザーに超高速で応答する場合は、少数GPUをTP（テンソル並列）で使う方が効率的。

Q5: InferenceXのデータから「ジェヴォンズのパラドックス」が起きると主張する根拠を述べよ。

回答を見る

推論コストの100倍改善は、AI利用の「価格弾力性」を解放する。ジェヴォンズのパラドックスは「資源の利用効率が上がると、消費量は減るのではなく増える」という法則。推論コストが100分の1になれば、これまで採算の合わなかったユースケース（低価値タスクの自動化、24時間AIエージェント、リアルタイム翻訳等）が実用化され、AI利用量は100倍以上に増える可能性がある。結果としてGPU/HBM/電力の総需要は減るどころか加速する。

📖 用語集

用語	説明
パレートフロンティア	スループットとインタラクティビティのトレードオフの最適限界線
perf/TCO	性能÷総所有コスト。コスト効率の最重要指標
$/M tokens	百万トークンあたりのコスト。API価格の基本単位
pJ/tok	ピコジュール/トークン。エネルギー効率の指標
TCO	Total Cost of Ownership — ハード+電力+運用の3〜5年総コスト
NVL72	72GPUをNVLinkで接続したラック構成。wideEPの効果を最大化
Composability	複数最適化を組み合わせたときの掛け算効果。NVIDIAの強み
対数スケール	100倍の差を可視化するために使うグラフの目盛り（10, 100, 1000…）
ジェヴォンズのパラドックス	効率改善が需要増加を招き、総消費量が増える経済法則
インタラクティビティ	tok/s/userの別名。ユーザー体感速度