「TOPSが大きいAIチップほどローカルLLMが速い」——これは誤解です。ローカルLLMの文章生成(デコード)速度は、演算性能ではなくメモリ帯域(GB/s)でほぼ決まります。理由は単純で、1トークン生成するたびにモデルの重み全体をメモリから読み出すから。計算より「読み出し」が律速するのです。本記事は、当サイトの機種横断の実測と他社データで、この「帯域律速」を一気通貫で示します。数値の出どころは検証DB、手元構成での可否は動くか診断で確認できます。
結論:速度 ≒ メモリ帯域 ÷ モデルサイズ
デコードは帯域律速なので、生成速度の上限はざっくり次式で見積もれます(roofline)。
理論上限 tok/s ≒ メモリ帯域(GB/s) ÷ モデルサイズ(GB)(実効はこの3〜7割。アーキで差)
ここから3つの実務的な結論が出ます。
- 演算性能(TOPS)は生成速度をほぼ予測しない。効くのはメモリ帯域。
- 量子化が効くのは「モデルサイズ=読み出し量」を縮めるから。Q4が速いのは式の分母が小さくなるため(量子化の実測)。
- 「メモリに載る」と「実用速度で動く」は別問題。容量は前者、帯域は後者を決めます。
自前実測で確かめる(同一モデル・4機種)
同じ Qwen3.5 4B を当サイトが同条件で実測した結果です。帯域が上がるほど tok/s が上がるのが一目で分かります。
| 機材 | メモリ帯域(公称) | 生成速度(自前実測) |
|---|---|---|
| Raspberry Pi 5 8GB | 17 GB/s | 約2.2 tok/s |
| Jetson Orin Nano Super 8GB | 102 GB/s | 約12.6 tok/s |
| Mac mini M4 16GB | 120 GB/s | 約29 tok/s |
| RTX A6000 48GB | 768 GB/s | 約124 tok/s |
両端の A6000(768GB/s) と Pi5(17GB/s) は帯域差 約45倍に対し、速度差 約56倍——ほぼ比例します(PoC成功ガイドでも同じ結論)。中間のMac/Jetsonは実効率(理論の3〜6割)にアーキ差が出ますが、並び順は帯域順です。
速度は当サイト実測(ollama API・複数回平均)。小サンプルゆえ方向性の指標(要検証)。機種ごとの詳細は検証DBへ。
TOPSは効かない:1000 TOPSの「DGX Spark」が70Bで遅い理由
最も鮮烈な例が、NVIDIA DGX Spark と AMD Ryzen AI Max+ 395 の対比です。両者とも128GBの大容量メモリ機ですが、演算性能は20倍違うのに、メモリ帯域はほぼ同じです。
| 機材 | 演算(TOPS) | メモリ帯域 | 70B 生成速度(他社実測) |
|---|---|---|---|
| NVIDIA DGX Spark 128GB | 1000 | 273 GB/s | 約2.7 tok/s(FP8) |
| AMD Ryzen AI Max+ 395 128GB | 50 | 256 GB/s | 約12〜15 tok/s(Q4) |
DGX Spark は Ryzen の20倍のTOPSを積みますが、70Bの生成では逆に遅い。帯域がほぼ同じで、しかも DGX 側がFP8(重みが大きい=読み出し量が多い)だからです。演算をいくら盛っても、帯域とモデルサイズが律速する——これが帯域律速の核心です。同じ構図はエッジNPUでも起きており、「高TOPSのNPU=LLMが速い」が神話であることはエッジSLMランキングでも実測しています(NPUのTOPSはCNN画像には効くがLLMテキスト生成には効かない)。
TOPS・帯域は両機の公称値(当サイトでは理論値(spec_only)機材=自前未計測)。70Bの tok/s は他社実測の引用で、量子化(FP8 vs Q4)が異なるため厳密な同条件比較ではありません。要点は「20倍のTOPS差が速度に現れない」こと。
根拠:Tom's Hardware DGX Spark review / pinggy: hardware for local LLM
「載る・動く・使える」の3層で考える
機材選びは、容量と帯域を分けて3層で考えると失敗しません。
- 載る(容量):メモリ ≥ 量子化後のモデルサイズ。例:70BのQ4は約40GBで、48GBのA6000なら載るが32GBのRTX 5090では溢れます(巨大モデルの現実)。
- 動く(帯域):上の式で実効 tok/s が出るか。載っても帯域が低ければ実用速度に届きません。
- 使える(体感閾値):その速度が用途を満たすか。目安は黙読に追いつく ≒ 7〜10 tok/s、対話でストレスなし ≒ 15〜20 tok/s 以上(経験則・要検証)。
つまり容量は「載る」だけを保証し、速度は帯域が決める。手元の機材で各モデルが「載る/実用速度で動く」かは動くか診断で、理論値機材も含めて比較できます。
2027も変わらない:NPU/AI-PC時代も帯域が支配
NPU搭載のAI PCが普及しても、この物理法則は揺らぎません。各社はNPUのTOPSを競いますが、NPU比較の結論もやはり「ローカルLLMの速度はTOPSよりメモリ帯域で決まる」です。根拠: NPU比較 2026 / AI PC・NPUの実力 2026
加えて主要ランタイム(ollama/llama.cpp)はNPUを直接は使わず、GGUFモデルはiGPU/CPUに回るのが現状です。だから「高TOPSのAI PC=ローカルLLMが速い」とは限らず、2027に向けてもスペック表でまず見るべきは**帯域(GB/s)**という結論は当面変わりません。
NPU各機の具体値は、各社公称帯域と他社ベンチで条件(量子化・モデルサイズ)が混在するため、本節では個別の tok/s には依らず方向性のみ示します。
じゃあ何を選ぶか(帯域で選ぶ)
「速度が欲しい」なら、スペック表でまずメモリ帯域(GB/s)を見るのが正解です。用途別の早見は機材の選び方、GPU特化は自宅GPUの選び方に詳しくまとめています。
- 帯域で速度を取る:RTX 5090(公称1792 GB/s・32GB)は帯域最上位。容量は32GBなので大型は量子化前提。
- 購入: Amazonで見る広告・Amazon / 楽天で見る広告・楽天
- 容量と帯域のバランス(大型も載せる):RTX A6000(768 GB/s・48GB)は27〜35B級まで“載って動く”上限帯の基準。
- 購入: Amazonで見る広告・Amazon / 楽天で見る広告・楽天
- 大容量で“載せる”を優先(帯域はGPU未満):Mac Studio M3 Ultra(公称約800 GB/s・512GB)は巨大モデルを載せられる稀有な選択。ユニファイドメモリで帯域も高め。
- 購入: Amazonで見る広告・Amazon / 楽天で見る広告・楽天
なお「7万円台のゲーミングノート(RTX 4060・8GB)が、より高価なMac mini M4よりループ処理で速い」という逆転も、載りさえすれば帯域が効くためです(ループエンジニアリングの実測)。高い箱が速いとは限りません。
まとめ
- ローカルLLMの生成速度はメモリ帯域律速。スペック表でまず見るべきは TOPS ではなく GB/s。
- 容量(載る)と帯域(動く)は別物。さらに用途の**体感閾値(使える)**で判断する。
- 1000 TOPS の DGX Spark でも、帯域が同程度の Ryzen AI Max より70Bで速いわけではない——演算ではなく帯域とモデルサイズ(量子化)が効く。
- この法則は NPU/AI-PC 世代でも当面変わらない。
自前実測(Raspberry Pi 5/Jetson/Mac mini M4/A6000 の速度表)はA6000等での小サンプル(方向性の指標・要検証)。一方、DGX Spark/Ryzen AI Max+ 395/Mac Studio M3 Ultra/RTX 5090/NPU各機は当サイトでは理論値(spec_only)機材=自前未計測で、帯域は公称値、tok/s は他社実測の引用(量子化条件が混在)です。手元の機材での実速度は動くか診断と検証DBでご確認ください。