Lesson 3 — ダッシュボードの読み方:コストと性能のトレードオフ

推論 2026-02-27 軸: 金流 / データ / 市場心理

InferenceXダッシュボードの核心 —「パレートフロンティア」の読み方を、実データで学ぶ。GPU世代間の性能差、コスト構造、エネルギー効率を理解し、投資家として「何が読み取れるか」を考える。

1. パレートフロンティアとは

スループット vs インタラクティビティのトレードオフ

Lesson 8 で学んだ通り、tok/s(スループット)tok/s/user(インタラクティビティ)はトレードオフの関係にある。パレートフロンティアは「あるGPU+最適化の組み合わせで、このトレードオフの限界がどこにあるか」を示す曲線。

パレートフロンティア概念図
← tok/s(スループット)高い tok/s/user(インタラクティビティ)高い →
H100: 低スループット, 低速
H100: スループット重視設定
H100: 速度重視設定
B200 FP4: バランス設定
B200 FP4: 速度重視
B200 FP4: スループット重視
GB200 NVL72: スループット重視
GB200 NVL72: バランス
GB200 NVL72: 速度重視
MI355X FP8: NVIDIAに近い
MI355X FP4: composability問題
理想領域
(右上)
劣位領域
(左下)
H100(Hopper)
B200(Blackwell)
GB200 NVL72
MI355X(AMD)

📐 パレートフロンティアの読み方

  • 右上にあるほど良い — 高スループットかつ高インタラクティビティ
  • 同じ曲線上のポイントは、設定(バッチサイズ、並列化戦略)の違い
  • 曲線が右上にシフト = 世代間の技術的飛躍
  • InferenceXではX軸にtok/s/user、Y軸にtok/sを取ることが多い
  • ポイントにマウスを乗せると詳細が見える(ダッシュボード上)

なぜ対数スケール(Log Scale)が必要か

GB200 NVL72 は H100 の約100倍の性能。リニアスケールで表示するとH100のデータポイントが原点に張り付いて見えなくなる。InferenceXダッシュボードでは対数スケールを使うことで、全世代を同じグラフ上で比較できるようにしている。

2. GPU比較 — 実データで見る世代間の差

InferenceX v2 のベンチマーク(DeepSeek R1, 8k入力/1k出力)から、主要GPUの性能を比較する。

GPU 世代 構成 精度 vs H100 備考
H100 Hopper 8 GPU/node FP8 ベースライン
H200 Hopper 8 GPU/node FP8 ~1.3× HBM容量増
B200 Blackwell 8 GPU/node FP4 ~35× FP4 + 全最適化
GB200 NVL72 Blackwell 72 GPU/rack FP8 ~55× NVLink帯域の威力
GB300 NVL72 Blackwell Ultra 72 GPU/rack FP4 ~100× 現行最強
MI355X CDNA 4 (AMD) 8 GPU/node FP8 ~30× FP8ではB200と互角
MI355X CDNA 4 (AMD) 8 GPU/node FP4 ~15× composability問題で劣後

GB200 NVL72 の特異性

GB200 NVL72 は単なる「GPU8枚を9倍にした」ものではない。72GPU間をNVLinkで高帯域接続することで、wideEP の効果が最大化される。

  • 60 tok/s/user の設定: 各GPUが単体B200の3倍のトークンを出力
  • NVLink帯域: 8GPU間のNVLink vs 72GPU間のNVLink = 集団帯域幅で8倍の差
  • ただし130 tok/s/user以上では単一ノード(8GPU)で十分な場合もあり、NVL72の優位性が薄れる

3. $/Million tokens — コスト構造を分解する

TCO(総所有コスト)の構成要素

GPU の購入価格だけでなく、3〜5年の運用期間全体のコストを見る必要がある。

TCOの構成(典型的なAI推論サーバー)
GPU本体
45%
電力+冷却
25%
ネットワーク
12%
施設+運用
10%
その他
8%

実データ: Crusoe の DeepSeek R1 推論コスト

公開価格 vs 推定原価 → 粗利率
入力
トークン
推定原価
$0.226/M
公開価格
$1.35/M
粗利率
83%
出力
トークン
推定原価
$2.955/M
公開価格
$5.40/M
粗利率
45%

📐 なぜ入力と出力でマージンが違うか

  • 入力トークン(Prefill)は並列処理できるため、GPUの演算コアを効率的に使える → 原価が安い → マージンが大きい
  • 出力トークン(Decode)は逐次処理でメモリ帯域がボトルネック → GPUの利用効率が低い → 原価が高い → マージンが小さい
  • 最適化テクニック(Lesson 9)は主にDecodeの効率を改善する → 出力マージンの改善余地が大きい

インタラクティビティ vs コストの関係

速くするほど高くなる(DeepSeek R1 FP4 on B200s)
30 tok/s/user
$0.30/M
50 tok/s/user
$0.56/M
75 tok/s/user
$1.20/M
100 tok/s/user
$2.20/M
125 tok/s/user
$4.00/M
2.5倍速くすると → 約7倍高くなる。非線形な関係。

4. picoJoules/token — エネルギー効率

なぜエネルギー効率が重要か

AIデータセンターの最大の制約は「電力」。新しいGPU世代は性能が100倍でも消費電力は2〜3倍程度 → 1トークンあたりのエネルギーは桁違いに改善。これがデータセンター拡張のペースを左右する。

📐 エネルギー効率の改善

  • GPU自体の消費電力: H100 700W → B200 1000W → GB200 (per GPU) ~1000W
  • しかし perf/W(性能÷消費電力)は世代ごとに大幅改善
  • pJ/tok = 全システムの消費電力(GPU+冷却+ネットワーク)÷ トークン生成量
  • GB300 NVL72 は H100 比で pJ/tok が 約30〜50倍改善

投資家視点: エネルギー効率と電力制約

AIの電力需要は急増しているが、新世代GPUのエネルギー効率改善により「同じ電力で生成できるトークン量」は桁違いに増える。これは:

  • 電力インフラ企業の需要は「まだまだ足りない」を意味する
  • 推論コストの急落 → AI利用の爆発的拡大 → さらなる設備投資
  • 古いGPU(H100世代)の陳腐化が加速する

5. AMD vs NVIDIA — ソフトウェアが決める勝者

ハードウェアスペックだけでは語れない

AMD MI355X は HBM 288GB(B200の192GBより多い)、メモリ帯域幅も競争力がある。しかしInferenceXのベンチマークでは、特に FP4 + 複数最適化の組み合わせでNVIDIAが大幅にリードする。

比較軸 NVIDIA(B200 / GB200) AMD(MI355X)
FP8 単体性能 ◎(ほぼ互角)
FP4 性能 △(大幅劣後)
Disagg + wideEP ◎(Dynamo / NIXL) ○(MoRI / Mooncake)
全最適化の組み合わせ ◎(掛け算で効く) ×(composability問題)
推論エンジン TRT-LLM / SGLang / vLLM ATOM(新、本番実績なし)
インタラクティビティ範囲 30〜150+ tok/s/user 13〜35 tok/s/user(狭い)

AMDの「ソフトウェアの壁」

AMDのvLLMフォークは v0.10.1 ベース(NVIDIAは0.15.1+)。新しい推論エンジン ATOM は単体性能は良いが、NVMe/CPU KVキャッシュオフロード、ツールパース、wideEP、disaggregated servingなどの機能が未実装。本番環境で使っている顧客はまだゼロ。

6. 投資家の視点 — InferenceXから何が読み取れるか

NVIDIAの堀は深化中

CUDAの堀

ハードウェアの差ではなくソフトウェアエコシステム(CUDA / TRT-LLM / Dynamo / NIXL)が最適化のcomposabilityを生んでいる。AMDが追いつくには年単位の開発が必要。

メモリ需要は構造的に拡大

HBM ↑↑

KV Cacheの巨大化 → HBM容量が「同時ユーザー数」の上限を決める。GB200 NVL72は72GPU分のHBM → SK Hynix / Samsung / Micronのメモリ需要を牽引。

推論コスト急落 → 利用爆発

100×改善

H100→GB300で推論コストが100分の1。AI APIの価格破壊 → 今まで採算の合わなかったユースケースが解放される → さらなるGPU需要。

因果チェーン: 推論コスト低下 → 需要爆発 → 設備投資加速

InferenceXのデータが示す「100倍の性能改善」は、単にハードウェアが良くなったという話ではない。

  1. 推論コストが100分の1に → AI APIの価格が劇的に下がる
  2. 価格弾力性が働き、AI利用量が爆発的に増加する(ジェヴォンズのパラドックス)
  3. 利用量の増加がデータセンターの新規建設を加速する
  4. データセンター建設 → GPU / HBM / 電力 / 冷却 / 建設 の需要増
  5. これがkabuの構造分析(thinking/03, 04, 05)で分析したバリューチェーン全体に波及する

🧠 セルフチェック

Q1: パレートフロンティア上で「右上にあるGPU」は何が優れているか?

回答を見る

高いスループット(tok/s)と高いインタラクティビティ(tok/s/user)を同時に実現している。つまり、多くのユーザーに対して速いレスポンスを返せる。パレートフロンティアの「右上」は技術的に最も優れた領域。H100→B200→GB200 NVL72と世代が進むにつれ、フロンティアが右上にシフトしている。

Q2: Crusoeの入力トークン粗利率が83%なのに、出力トークンが45%なのはなぜか?

回答を見る

入力処理(Prefill)は並列処理でGPU効率が高いため原価が安い($0.226/M)。出力生成(Decode)はメモリ帯域がボトルネックでGPU利用効率が低いため原価が高い($2.955/M)。同じGPUでも、フェーズによって「コンピュート活用率」が全く異なるため、粗利率に大きな差が出る。

Q3: 「tok/s/user を50から125に上げると、コストは約7倍になる」のはなぜか?

回答を見る

インタラクティビティを上げる = 同時ユーザー数を減らす(バッチサイズを下げる)こと。バッチサイズが小さいと、1回のメモリ読み出しで生成できるトークンが少なくなり、GPU利用効率が下がる。つまり速度を上げるほど1トークンあたりの「GPU時間」が増える。この関係は非線形で、速度が上がるほどコスト増加が急激になる。

Q4: GB200 NVL72 が 130 tok/s/user 以上では B200 単体ノードに対する優位性が薄れるのはなぜか?

回答を見る

超高インタラクティビティではバッチサイズが小さくなり、8GPU単体ノードのNVLink帯域で十分に処理できるため。NVL72の真の価値はwideEPと大バッチでの集団帯域幅。バッチが小さいとエキスパート並列の恩恵が薄れ、72GPUの多くが遊んでしまう。少ユーザーに超高速で応答する場合は、少数GPUをTP(テンソル並列)で使う方が効率的。

Q5: InferenceXのデータから「ジェヴォンズのパラドックス」が起きると主張する根拠を述べよ。

回答を見る

推論コストの100倍改善は、AI利用の「価格弾力性」を解放する。ジェヴォンズのパラドックスは「資源の利用効率が上がると、消費量は減るのではなく増える」という法則。推論コストが100分の1になれば、これまで採算の合わなかったユースケース(低価値タスクの自動化、24時間AIエージェント、リアルタイム翻訳等)が実用化され、AI利用量は100倍以上に増える可能性がある。結果としてGPU/HBM/電力の総需要は減るどころか加速する。

📖 用語集

用語説明
パレートフロンティアスループットとインタラクティビティのトレードオフの最適限界線
perf/TCO性能÷総所有コスト。コスト効率の最重要指標
$/M tokens百万トークンあたりのコスト。API価格の基本単位
pJ/tokピコジュール/トークン。エネルギー効率の指標
TCOTotal Cost of Ownership — ハード+電力+運用の3〜5年総コスト
NVL7272GPUをNVLinkで接続したラック構成。wideEPの効果を最大化
Composability複数最適化を組み合わせたときの掛け算効果。NVIDIAの強み
対数スケール100倍の差を可視化するために使うグラフの目盛り(10, 100, 1000…)
ジェヴォンズのパラドックス効率改善が需要増加を招き、総消費量が増える経済法則
インタラクティビティtok/s/userの別名。ユーザー体感速度