ローカルLLMの生成速度は「メモリ帯域」で決まる【TOPS神話】

「TOPSが大きいAIチップほどローカルLLMが速い」——これは誤解です。ローカルLLMの文章生成（デコード）速度は、演算性能ではなくメモリ帯域（GB/s）でほぼ決まります。理由は単純で、1トークン生成するたびにモデルの重み全体をメモリから読み出すから。計算より「読み出し」が律速するのです。本記事は、当サイトの機種横断の実測と他社データで、この「帯域律速」を一気通貫で示します。数値の出どころは検証DB、手元構成での可否は動くか診断で確認できます。

結論：速度 ≒ メモリ帯域 ÷ モデルサイズ

デコードは帯域律速なので、生成速度の上限はざっくり次式で見積もれます（roofline）。

理論上限 tok/s ≒ メモリ帯域(GB/s) ÷ モデルサイズ(GB)（実効はこの3〜7割。アーキで差）

ここから3つの実務的な結論が出ます。

演算性能(TOPS)は生成速度をほぼ予測しない。効くのはメモリ帯域。
量子化が効くのは「モデルサイズ＝読み出し量」を縮めるから。Q4が速いのは式の分母が小さくなるため（量子化の実測）。
「メモリに載る」と「実用速度で動く」は別問題。容量は前者、帯域は後者を決めます。

自前実測で確かめる（同一モデル・4機種）

同じ Qwen3.5 4B を当サイトが同条件で実測した結果です。帯域が上がるほど tok/s が上がるのが一目で分かります。

機材	メモリ帯域（公称）	生成速度（自前実測）
Raspberry Pi 5 8GB	17 GB/s	約2.2 tok/s
Jetson Orin Nano Super 8GB	102 GB/s	約12.6 tok/s
Mac mini M4 16GB	120 GB/s	約29 tok/s
RTX A6000 48GB	768 GB/s	約124 tok/s

両端の A6000(768GB/s) と Pi5(17GB/s) は帯域差約45倍に対し、速度差約56倍——ほぼ比例します（PoC成功ガイドでも同じ結論）。中間のMac/Jetsonは実効率（理論の3〜6割）にアーキ差が出ますが、並び順は帯域順です。

速度は当サイト実測（ollama API・複数回平均）。小サンプルゆえ方向性の指標（要検証）。機種ごとの詳細は検証DBへ。

TOPSは効かない：1000 TOPSの「DGX Spark」が70Bで遅い理由

最も鮮烈な例が、NVIDIA DGX Spark と AMD Ryzen AI Max+ 395 の対比です。両者とも128GBの大容量メモリ機ですが、演算性能は20倍違うのに、メモリ帯域はほぼ同じです。

機材	演算（TOPS）	メモリ帯域	70B 生成速度（他社実測）
NVIDIA DGX Spark 128GB	1000	273 GB/s	約2.7 tok/s（FP8）
AMD Ryzen AI Max+ 395 128GB	50	256 GB/s	約12〜15 tok/s（Q4）

DGX Spark は Ryzen の20倍のTOPSを積みますが、70Bの生成では逆に遅い。帯域がほぼ同じで、しかも DGX 側がFP8（重みが大きい＝読み出し量が多い）だからです。演算をいくら盛っても、帯域とモデルサイズが律速する——これが帯域律速の核心です。同じ構図はエッジNPUでも起きており、「高TOPSのNPU＝LLMが速い」が神話であることはエッジSLMランキングでも実測しています（NPUのTOPSはCNN画像には効くがLLMテキスト生成には効かない）。

TOPS・帯域は両機の公称値（当サイトでは理論値（spec_only）機材＝自前未計測）。70Bの tok/s は他社実測の引用で、量子化（FP8 vs Q4）が異なるため厳密な同条件比較ではありません。要点は「20倍のTOPS差が速度に現れない」こと。根拠: Tom's Hardware DGX Spark review / pinggy: hardware for local LLM

「載る・動く・使える」の3層で考える

機材選びは、容量と帯域を分けて3層で考えると失敗しません。

載る（容量）：メモリ ≥ 量子化後のモデルサイズ。例：70BのQ4は約40GBで、48GBのA6000なら載るが32GBのRTX 5090では溢れます（巨大モデルの現実）。
動く（帯域）：上の式で実効 tok/s が出るか。載っても帯域が低ければ実用速度に届きません。
使える（体感閾値）：その速度が用途を満たすか。目安は黙読に追いつく ≒ 7〜10 tok/s、対話でストレスなし ≒ 15〜20 tok/s 以上（経験則・要検証）。

つまり容量は「載る」だけを保証し、速度は帯域が決める。手元の機材で各モデルが「載る／実用速度で動く」かは動くか診断で、理論値機材も含めて比較できます。

2027も変わらない：NPU/AI-PC時代も帯域が支配

NPU搭載のAI PCが普及しても、この物理法則は揺らぎません。各社はNPUのTOPSを競いますが、NPU比較の結論もやはり「ローカルLLMの速度はTOPSよりメモリ帯域で決まる」です。根拠: NPU比較 2026 / AI PC・NPUの実力 2026

加えて主要ランタイム（ollama/llama.cpp）はNPUを直接は使わず、GGUFモデルはiGPU/CPUに回るのが現状です。だから「高TOPSのAI PC＝ローカルLLMが速い」とは限らず、2027に向けてもスペック表でまず見るべきは**帯域(GB/s)**という結論は当面変わりません。

NPU各機の具体値は、各社公称帯域と他社ベンチで条件（量子化・モデルサイズ）が混在するため、本節では個別の tok/s には依らず方向性のみ示します。

じゃあ何を選ぶか（帯域で選ぶ）

「速度が欲しい」なら、スペック表でまずメモリ帯域(GB/s)を見るのが正解です。用途別の早見は機材の選び方、GPU特化は自宅GPUの選び方に詳しくまとめています。

帯域で速度を取る：RTX 5090（公称1792 GB/s・32GB）は帯域最上位。容量は32GBなので大型は量子化前提。
- 購入: Amazonで見る広告・Amazon ／楽天で見る広告・楽天
容量と帯域のバランス（大型も載せる）：RTX A6000（768 GB/s・48GB）は27〜35B級まで“載って動く”上限帯の基準。
- 購入: Amazonで見る広告・Amazon ／楽天で見る広告・楽天
大容量で“載せる”を優先（帯域はGPU未満）：Mac Studio M3 Ultra（公称約800 GB/s・512GB）は巨大モデルを載せられる稀有な選択。ユニファイドメモリで帯域も高め。
- 購入: Amazonで見る広告・Amazon ／楽天で見る広告・楽天

なお「7万円台のゲーミングノート（RTX 4060・8GB）が、より高価なMac mini M4よりループ処理で速い」という逆転も、載りさえすれば帯域が効くためです（ループエンジニアリングの実測）。高い箱が速いとは限りません。

まとめ

ローカルLLMの生成速度はメモリ帯域律速。スペック表でまず見るべきは TOPS ではなく GB/s。
容量（載る）と帯域（動く）は別物。さらに用途の**体感閾値（使える）**で判断する。
1000 TOPS の DGX Spark でも、帯域が同程度の Ryzen AI Max より70Bで速いわけではない——演算ではなく帯域とモデルサイズ（量子化）が効く。
この法則は NPU/AI-PC 世代でも当面変わらない。

自前実測（Raspberry Pi 5／Jetson／Mac mini M4／A6000 の速度表）はA6000等での小サンプル（方向性の指標・要検証）。一方、DGX Spark／Ryzen AI Max＋ 395／Mac Studio M3 Ultra／RTX 5090／NPU各機は当サイトでは理論値（spec_only）機材＝自前未計測で、帯域は公称値、tok/s は他社実測の引用（量子化条件が混在）です。手元の機材での実速度は動くか診断と検証DBでご確認ください。