ローカルAIの電力効率（tok/s/W）実測【MoEが省エネ王】

「ローカルAIは省電力か？」——この問いには2つの軸があります。絶対消費電力（W）と、1トークンあたりのエネルギー効率（tok/s/W）。この2つは一致しません。実際に消費電力まで実測して確かめました。

tok/s/W という指標

tok/s ÷ 消費電力(W) ＝ 1ワットあたり何トークン生成できるか。値が大きいほど、同じ電力でたくさん生成できる＝エネルギー効率が高い、という指標です。電気代やバッテリ駆動、24時間稼働を考えるなら、速度（tok/s）だけでなくこの効率が効いてきます。

モデル別の電力効率（RTX A6000・実測）

同じGPU（RTX A6000）で、消費電力を実測して比較しました。

モデル	種別	速度	消費電力	tok/s/W	1000トークンの電力
LFM2.5 8B（A1B）	MoE	283.9 tok/s	191.6W	1.48	約0.19 Wh
Qwen3.6 35B（A3B）	MoE	122.1 tok/s	195.2W	0.63	約0.44 Wh
Qwen3.5 4B	密	123.5 tok/s	217.6W	0.57	約0.49 Wh
Gemma4 26B（A4B）	MoE	99.6 tok/s	203.6W	0.49	約0.57 Wh

根拠: 当サイトのA6000検証データ（nvidia-smiで消費電力を実測）。

電力効率 tok/s/W（RTX A6000・消費電力を実測）

LFM2.5 8B（A1B・MoE）1.48
Qwen3.6 35B（A3B・MoE）0.63
Qwen3.5 4B（密）0.57
Gemma4 26B（A4B・MoE）0.49

消費電力は約190〜220Wと大差ないのに効率は約3倍開く。省電力の最大の鍵はMoEを選ぶこと。

消費電力はどれも約190〜220Wと大差ないのに、効率は3倍も開きます。突出して効率的なのがLFM2.5 8B（アクティブ1.5BのMoE）。同じ1000トークンを生成するのに、Gemma4の約1/3のエネルギー（0.19 Wh対0.57 Wh）で済みます。

理由はMoE（混合エキスパート）。生成時に動くのはアクティブパラメータだけなので、少ないアクティブ数のMoEほど「電力あたりの賢さ」が高い。同じGPUで比べる限り、省電力を狙うならMoEモデルを選ぶのが効果の大きい打ち手です（実測で約3倍差）。

機材フリート比較：絶対消費電力と効率は「逆相関」

同じモデル（Qwen3.5 4B・Q4_K_M）を4機種で、速度と消費電力を同一条件で実測しました。

機材	速度	消費電力	tok/s/W	1000トークンの電力
Mac mini M4（Metal）	29.27 tok/s	12.3W	2.38	約0.12 Wh
Jetson Orin Nano Super（GPU）	12.56 tok/s	18.7W	0.67	約0.41 Wh
RTX A6000（GPU）	123.5 tok/s	217.6W	0.57	約0.49 Wh
Raspberry Pi 5（CPU）	2.24 tok/s	7.5W	0.30	約0.93 Wh

根拠: A6000=nvidia-smi、Jetson=tegrastats（VDD_IN）、Pi5=vcgencmd（PMIC各レール総和）、Mac=powermetrics（Combined Power=CPU+GPU+ANE）で実測。測定境界が機種で異なる（Mac=SoC全体／A6000=GPUのみ／Jetson=モジュール／Pi5=基板）ため、横断の tok/s/W 比較は目安です。

① 絶対消費電力 W（Qwen3.5 4B・同一条件で実測）

Raspberry Pi 5（CPU）7.5
Mac mini M4（Metal）12.3
Jetson Orin Nano（GPU）18.7
RTX A6000（GPU）218

② 電力効率 tok/s/W（同上・大きいほど高効率）

Raspberry Pi 5（CPU）0.30
Mac mini M4（Metal）2.38
Jetson Orin Nano（GPU）0.67
RTX A6000（GPU）0.57

効率トップは Mac mini M4（Apple SiliconのSoC）、次いで専用GPUのJetson。CPU推論のPi5は絶対電力が最小でも効率は最下位。※電力の測定境界は機種で異なる（Mac=SoC全体 / A6000=GPUのみ / Jetson=モジュール / Pi5=基板）ため横断比較は目安・要検証。

ここが直感に反するところ。絶対消費電力が最も小さいPi5（7.5W）が、効率では最下位（0.30）。一方、Apple SiliconのMac mini M4が効率トップ（2.38 tok/s/W）、次いで専用GPUのJetson（0.67）で、いずれも巨大なA6000を上回ります。つまり——

絶対消費電力が小さい ≠ 効率が良い。Pi5はCPU推論のため、トークンあたりのエネルギーはMacの約8倍かかります。
省電力アーキ × 専用アクセラレータ（GPU/NPU）の組合せが効率を大きく左右する。Apple Siliconの統合メモリSoCを持つMac mini M4は「低いSoC電力 × 高性能GPU」で1ワットあたりが最も高く、Jetsonがそれに次ぎます（ただし上記のとおり測定境界が異なる点は留意）。

「省電力だからエッジ（ラズパイ）」という単純な話ではありません。常時稼働や発熱抑制なら絶対電力の小さいPi5、エネルギー効率を重視するならApple SiliconのMacや専用GPUのJetson、A6000＋MoE——何を最小化したいかで選ぶのが正解です。

補足（実機の落とし穴）: Jetsonは同居プロセスのメモリ確保の影響でGPUが使われずCPU推論にフォールバックすることがあり、その状態では約10W・3.8 tok/s（効率0.37）まで落ちます。上表は ollama ps で「100% GPU」を確認した上での実測です。エッジ機では「アクセラレータが実際に使われているか」の確認が重要です。

データセンターの電力問題と、ローカルAIの立ち位置

電力効率は機材選びの話にとどまりません。AIデータセンターの電力消費は、いまや社会課題です。IEA系の推計では、世界のデータセンター消費電力は2024年で約415 TWh（世界の電力の約1.5%）、生成AIの拡大で2026年には約1,050 TWhに迫り「日本とロシアの間」＝世界5位の電力消費国に相当するとされます。効率改善だけでは需要増を吸収しきれない、とも指摘されます（根拠: AIデータセンター電力動向まとめ（IEA等を引用））。

この文脈で、ローカルAIには明確な役割があります。

用途に最小十分なモデルを手元で回す: 要約・分類・文字起こしのような反復・定型タスクを、巨大クラウドモデルではなく小型・MoEのローカルモデルで処理すれば、1タスクあたりのエネルギーと往復通信を抑えられる場面があります。本記事の実測でも、MoEのLFM2.5は同じ生成量をGemma4の約1/3の電力でこなしました。
アイドルを増やさない: 常時稼働の用途は、ラズパイ/Jetson/Mac miniのような数W〜十数Wの機材で足りることが多く、24時間動かしても電力は小さく収まります。

ただし「ローカル＝必ず省エネ」ではありません。クラウドのデータセンターは規模の効率（高稼働率・先端冷却・電力調達の最適化）を持ち、巨大モデルが要る高難度タスクではクラウドが効率的なこともあります。正しい姿勢は、タスクの難度に対して過剰なモデルを避け、最小十分なところで回すこと——それが結果としてコストも電力も最適化するでしょう。当サイトが tok/s/W を実測公開しているのは、この「最小十分」を数字で選べるようにするためです。

まとめ

省電力の鍵の一つはMoEモデルを選ぶこと（同一GPUでLFM2.5はGemma4の約3倍効率的・実測）。機材選びも同程度以上に効く（次項）
絶対消費電力とtok/s/W効率は逆相関しうる。絶対電力最小のPi5が効率最下位、Apple SiliconのMac mini M4が効率トップでJetsonが続く（測定境界の違いに留意）
用途で選ぶ: 常時稼働・電池駆動は絶対電力の小さいエッジ、エネルギー効率はApple SiliconのMacや専用アクセラレータのJetson、高速GPU＋MoE
社会的観点: AIデータセンターの電力が世界5位規模に迫る中、用途に最小十分なローカルモデルを選ぶ姿勢は省エネにも資する（クラウドの規模効率もあり一概ではない）

機材×モデルの速度・電力の実測は検証DBに、手元で動くかは動くか診断で確認できます。