「ローカルAIは省電力か?」——この問いには2つの軸があります。**絶対消費電力(W)**と、1トークンあたりのエネルギー効率(tok/s/W)。この2つは一致しません。実際に消費電力まで実測して確かめました。

tok/s/W という指標

tok/s ÷ 消費電力(W)1ワットあたり何トークン生成できるか。値が大きいほど、同じ電力でたくさん生成できる=エネルギー効率が高い、という指標です。電気代やバッテリ駆動、24時間稼働を考えるなら、速度(tok/s)だけでなくこの効率が効いてきます。

モデル別の電力効率(RTX A6000・実測)

同じGPU(RTX A6000)で、消費電力を実測して比較しました。

モデル種別速度消費電力tok/s/W1000トークンの電力
LFM2.5 8B(A1B)MoE283.9 tok/s191.6W1.48約0.19 Wh
Qwen3.6 35B(A3B)MoE122.1 tok/s195.2W0.63約0.44 Wh
Qwen3.5 4B123.5 tok/s217.6W0.57約0.49 Wh
Gemma4 26B(A4B)MoE99.6 tok/s203.6W0.49約0.57 Wh

根拠: 当サイトのA6000検証データ(nvidia-smiで消費電力を実測)。

消費電力はどれも約190〜220Wと大差ないのに、効率は3倍も開きます。突出して効率的なのがLFM2.5 8B(アクティブ1.5BのMoE)。同じ1000トークンを生成するのに、Gemma4の約1/3のエネルギー(0.19 Wh対0.57 Wh)で済みます。

理由はMoE(混合エキスパート)。生成時に動くのはアクティブパラメータだけなので、少ないアクティブ数のMoEほど「電力あたりの賢さ」が高い。省電力を狙うなら、まずMoEモデルを選ぶのが最大の効き目です。

機材フリート比較:絶対消費電力と効率は「逆相関」

同じモデル(Qwen3.5 4B・Q4_K_M)を3機種で、速度と消費電力を同一条件で実測しました。

機材速度消費電力tok/s/W1000トークンの電力
Jetson Orin Nano Super(GPU)12.56 tok/s18.7W0.67約0.41 Wh
RTX A6000(GPU)123.5 tok/s217.6W0.57約0.49 Wh
Raspberry Pi 5(CPU)2.24 tok/s7.5W0.30約0.93 Wh

根拠: A6000=nvidia-smi、Jetson=tegrastats(VDD_IN)、Pi5=vcgencmd(PMIC各レールの総和)で消費電力を実測。

ここが直感に反するところ。絶対消費電力が最も小さいPi5(7.5W)が、効率では最下位(0.30)。一方、**専用アクセラレータを持つJetson(18.7W)が効率トップ(0.67)**で、巨大なA6000すら上回ります。つまり——

  • 絶対消費電力が小さい ≠ 効率が良い。Pi5はCPU推論のため、トークンあたりのエネルギーはJetsonの2倍以上かかります。
  • 専用アクセラレータ(GPU/NPU)の有無が効率を大きく左右する。Jetsonは「低電力 × 専用GPU」で、1ワットあたりの賢さが最も高い。

「省電力だからエッジ(ラズパイ)」という単純な話ではありません。常時稼働や発熱抑制なら絶対電力の小さいPi5、エネルギー効率を重視するなら専用GPUを持つJetsonや、A6000+MoE——何を最小化したいかで選ぶのが正解です。

補足(実機の落とし穴): Jetsonは同居プロセスのメモリ確保の影響でGPUが使われずCPU推論にフォールバックすることがあり、その状態では約10W・3.8 tok/s(効率0.37)まで落ちます。上表は ollama ps で「100% GPU」を確認した上での実測です。エッジ機では「アクセラレータが実際に使われているか」の確認が重要です。

まとめ

  • 省電力の最大の鍵はMoEモデルを選ぶこと(LFM2.5はGemma4の約3倍効率的・実測)
  • 絶対消費電力tok/s/W効率は逆相関しうる。絶対電力最小のPi5が効率最下位、専用GPUのJetsonが効率トップ
  • 用途で選ぶ: 常時稼働・電池駆動は絶対電力の小さいエッジ、エネルギー効率は専用アクセラレータ(Jetson)や高速GPU+MoE

機材×モデルの速度・電力の実測は検証DBに、手元で動くかは動くか診断で確認できます。