エッジで動かす小型AI(SLM)実測ランキング【tok/s/W】

小型AI（SLM＝Small Language Model）は、低スペックなPCやSBC（Jetson・ラズパイ）でも動き、オフラインで・低電力で・常時動かせるのが持ち味です。クラウドの大型モデルほど賢くなくても、要約・分類・定型応答・現場メモの整形なら十分。この記事は、その「エッジで常時稼働」という観点で、当サイトが自前で測った速度(tok/s)と電力効率(tok/s/W)から、機材×モデルの最適解をランキングします。

なぜ「エッジ × 小型AI」なのか

オフライン: 電波の届かない現場・船上・山間部でも動く。私自身、南極観測隊の同行や測量の現場で「通信が乏しい/電力が限られる」環境を経験していますが、クラウド前提のAIはそこでは使えません。手元で動くSLMが必然になります。
機密: 個人情報・契約書・現場データを外に出さずに処理できる。
電気代・常時稼働: 24時間回すなら、速いことより1ワットあたり何トークン出せるか（tok/s/W）が効いてきます。だからこの記事は速度だけでなく電力効率を主指標に置きます。

候補モデル（商用可否つき）

エッジで現実的に動く小型モデルのうち、当サイトで実測したものを中心に整理します。

モデル	規模	速度傾向	ライセンス	商用
Qwen3.5 2B	2B（密）	最小・最速	Apache-2.0	✓ 可
Qwen3.5 4B	4B（密）	バランス・長文脈	Apache-2.0	✓ 可
LFM2.5 8B	8B（A1B・MoE）	最速級だが長い連鎖は苦手	LFM Open License	△ 条件付（年商$10M未満で可・要確認）

同じ小型でも、実際に測ると速度も効率もかなり違います。ライセンスは要確認——Llama系はコミュニティライセンス、Qwen2.5 3Bは研究用で商用不可、Phi-4-miniはMIT。

実測ランキング：小型モデル8種（A6000）

候補をA6000で実測すると、「小さいほど速く、効率も良い」がはっきり出ます。

小型モデル(SLM)の実測ランキング（RTX A6000・電力効率 tok/s/W 降順）

モデル	規模	tok/s	tok/s/W	量子化	商用
Llama3.2 1B	1.2B	316	2.18	Q8	可
SmolLM2 1.7B	1.7B	242	1.11	Q8	可
Llama3.2 3B	3.2B	202	1.06	Q4	可
Qwen2.5 3B	3.1B	191	1.01	Q4	研究のみ
Gemma4 E2B	実5.1B	166	0.99	Q4	可
Phi-4-mini	3.8B	167	0.74	Q4	可
Qwen3.5 4B	4B	124	0.57	Q4	可
Gemma4 E4B	実8.0B	110	0.50	Q4	可

同一A6000で実測（Q4_K_M中心／1B・1.7BはQ8・2回平均・温度0・消費電力はnvidia-smi）。小さいほど速く効率も高い傾向で、Llama3.2 1Bが最速・最効率。一方Gemma4 E4Bは“有効4B”でも実体8B級で最遅（名前の有効パラメータと実体の差に注意）。A6000は大電力GPUゆえ絶対のtok/s/Wは低め＝モデル間の相対比較として見てください（エッジ機材の絶対値は検証DBで tok/s/W ソート）。Qwen2.5 3Bは研究ライセンスで商用不可。要検証。

最速・最効率は Llama3.2 1B（316 tok/s・2.18 tok/s/W）。逆に Gemma4 E4B は“有効4B”でも実体8B級で最遅（110 tok/s）——名前の「有効パラメータ」と、メモリに載る実体サイズは別物なので要注意です。用途に対して過剰に大きいモデルを選ばないことが、エッジでは効率に直結します。各モデル×機材の数値は検証DB（tok/s/Wでソート可）に格納しています。

A6000 と Mac mini M4、どちらが効率的か

同じ7モデルを Mac mini M4 でも実測しました。結果は「速度はA6000、電力効率はMac」という対照的な棲み分けです。

A6000 vs Mac mini M4：速度はA6000、電力効率はMac（同一SLM・A6000とMacで実測）

モデル	速度 tok/s		電力効率 tok/s/W
モデル	A6000	Mac M4	A6000	Mac M4
Llama3.2 1B	316	71	2.18	6.88
SmolLM2 1.7B	242	51	1.11	4.85
Gemma4 E2B	166	55	0.99	4.75
Qwen2.5 3B	191	47	1.01	4.14
Llama3.2 3B	202	45	1.06	3.66
Phi-4-mini	167	37	0.74	3.16
Gemma4 E4B	110	30	0.50	2.35

速度はA6000が4〜7倍速い（GPUの絶対性能）。一方電力効率はMac mini M4が3〜5倍高い（Apple SiliconのSoCは消費電力が約10〜13Wと小さい）。24時間常時稼働・省電力ならMac、瞬発力・大量処理ならA6000——用途で選ぶのが正解。いずれも当サイトの自前実測（各2回平均・温度0・電力はnvidia-smi／powermetrics）。要検証。

A6000は速度で4〜7倍勝りますが、Macは電力効率で3〜5倍勝ります（Apple SiliconのSoCは約10〜13Wと省電力）。常時稼働・省電力で回すならMac mini M4が効率王、瞬発力・大量バッチならA6000。エッジSLMでは「速いか」より「ワットあたり何トークンか」が効くので、この観点は外せません。

速度（tok/s）— 機材ティア別の実測

まず素の生成速度。同じ Qwen3.5 4B（Q4_K_M）を機材を変えて自前計測しました。

生成速度 tok/s（Qwen3.5 4B・Q4_K_M・自前実測）

RTX A6000 48GB124
Mac mini M4 16GB29.3
Jetson Orin Nano 8GB12.6
Raspberry Pi 5 8GB2.2

実用ライン 10 tok/s（黙読に追いつく目安）

「動く」と「快適」は別物。Pi5は4Bだと実用ラインを下回り、2Bモデルなら改善する。

ポイントは「動く」と「快適」は別だということ。黙読に追いつく目安は約10 tok/s で、Raspberry Pi 5 は 4B だとこのラインを下回ります（2.2 tok/s）。Pi5で実用したいなら2B級に落とすのが現実解です。一方 Mac mini M4 は約29 tok/s、Jetson Orin Nano は約13 tok/s で、エッジでも実用域に入ります。

電力効率（tok/s/W）— エッジの本命指標

常時稼働なら、本当に見るべきは1ワットあたりの生成量です。消費電力も同条件で実測しました。

① 絶対消費電力 W（Qwen3.5 4B・同一条件で実測）

Raspberry Pi 5（CPU）7.5
Mac mini M4（Metal）12.3
Jetson Orin Nano（GPU）18.7
RTX A6000（GPU）218

② 電力効率 tok/s/W（同上・大きいほど高効率）

Raspberry Pi 5（CPU）0.30
Mac mini M4（Metal）2.38
Jetson Orin Nano（GPU）0.67
RTX A6000（GPU）0.57

効率トップは Mac mini M4（Apple SiliconのSoC）、次いで専用GPUのJetson。CPU推論のPi5は絶対電力が最小でも効率は最下位。※電力の測定境界は機種で異なる（Mac=SoC全体 / A6000=GPUのみ / Jetson=モジュール / Pi5=基板）ため横断比較は目安・要検証。

ここで逆転が起きます。絶対消費電力が最小の Raspberry Pi 5（7.5W）が、効率（tok/s/W）では最下位。逆に Mac mini M4（Apple SiliconのSoC）が効率トップで、次いで専用GPUを積む Jetson。CPU推論のPi5は「電力は小さいが、その電力で出せる量も小さい」わけです。

つまりエッジSLMの選び方は——

とにかく省スペース・最安で常時稼働したい → Raspberry Pi 5 ＋ 2B級モデル（4Bは重い）。
効率と使い勝手のバランス（16GBで多くのモデルが載る）→ Mac mini M4（効率王）。
GPUで安定して回したい・ビジョンも視野→ Jetson Orin Nano Super。

電力効率の深掘りは電力効率の実測、機材×モデルの全数値は検証DB（tok/s/W で並べ替え可能）へ。

エッジ実機で小型を測る（Jetson・Pi5）— AI HATは効くのか

A6000だけでなく、実際のエッジ機材でも同じ小型モデルを測りました。代表として Qwen2.5 1.5B を3機材で。

同じ Qwen2.5 1.5B を3機材で実測（クロス機材・Q4_K_M）

機材	tok/s	電力W	tok/s/W	体感
RTX A6000 48GB	282	134	2.10	一瞬で出力
Jetson Orin Nano 8GB	35.6	16.3	2.18	ストレスなく実用
Raspberry Pi 5 8GB	10.6	7.9	1.34	実用ライン到達

絶対速度は機材で28倍違う（A6000 282 vs Pi5 10.6 tok/s）のに、電力効率(tok/s/W)はA6000とJetsonがほぼ拮抗（2.10 vs 2.18）。そしてPi5でも1.5B級なら10.6 tok/s＝実用ライン到達（4Bだと2.2で不足だった）。Jetsonの電力はデモ常駐プロセス同時稼働分を含む（参考値）。各2回平均・温度0・要検証。

⚠ AI HAT2+（Hailo-10H）を挿しても、このLLMのtok/sは速くなりません（実測で確認）。同じPi5のHailo-10Hで画像モデルを実測すると ResNet50 約308 FPS・YOLOv8m 約76 FPSと高速—— つまりHailoの40 TOPSは画像（CNN）には確かに効く。一方、ollama／llama.cpp はLLMのテキスト生成をHailoで動かさず、LLMはCPU実行のまま（qwen2.5 1.5Bで10.6 tok/s）。「TOPSが大きいNPU＝LLMが速い」は神話で、LLM速度を決めるのはメモリ帯域とCPU/GPUです。 Hailo-10HはGenAI APIでLLM自体は対応しますが、Hailo独自コンパイルが必要でollama標準ワークフローでは加速しません（自前実測・要検証）。

注目点は2つ。(1) 1.5B級ならRaspberry Pi 5でも10.6 tok/s＝実用ラインに届く（4Bでは2.2で不足でした）。だから「Pi5でローカルAI」は、モデルを2B級以下に絞れば現実的です。(2) 絶対速度は機材で大きく違うのに、電力効率(tok/s/W)はJetsonとA6000がほぼ拮抗——エッジは「遅いが省電力でそこそこ効率的」なわけです。

そして、よくある質問——「Pi 5にAI HAT2+（Hailo）を挿せば速くなる？」。画像なら激変、LLMなら変わらない、が答えです。Hailo純正のGenAI SDKで直接LLMを動かした実測（Hailo GenAI SDK 4.75 tok/s・2.5W vs CPU 10.6 tok/s・7.9W vs Jetson 35.6 tok/s）と、40 TOPSがなぜLLM速度を予測しないかの解説はTOPS神話の検証にまとめました。

あなたの機材だと、どれが動く？

手元の機材で「動くか・どのくらいの速さか・1回いくらか」は、動くか診断で機材とモデルを選ぶだけで即わかります（用途を「AIエージェント」にすると総実時間とコストも）。

推奨構成と機材

実測から、用途別の推奨はこうなります。

① 最安で常時稼働（2B級チャット・分類）— Raspberry Pi 5 8GB

省電力（7.5W）でファンレス運用も視野。2B級モデルなら実用。microSDよりNVMe（USB/PCIe）起動が安定します。

Amazonで見る広告・Amazon 楽天で見る広告・楽天 ② GPUでバランス良く（4B級・ビジョンも）— Jetson Orin Nano Super 8GB

CUDAコアで実TOPSが効き、4B級が実用速度。エッジでVLM（画像）まで狙えます。

Amazonで見る広告・Amazon 楽天で見る広告・楽天 ③ 効率王・16GBで余裕（多モデル常駐）— Mac mini M4

tok/s/W トップ。16GBユニファイドメモリで7〜8B級まで快適。開発機を兼ねるなら最有力。

Amazonで見る広告・Amazon 楽天で見る広告・楽天

周辺機器も効きます: 安定電源/UPS（突然の停電で常時稼働が落ちないように）、NVMe/microSD（モデルの読み込み速度）、冷却（Jetson/Pi5は連続推論で発熱）。いずれも単価は小さくても常時稼働では効いてきます。

再現手順（最短）

# 1. ollama を導入（各OS共通）
curl -fsSL https://ollama.com/install.sh | sh

# 2. 小型モデルを取得（まずは軽い2Bから）
ollama pull qwen3.5:2b        # 最小・最速
ollama pull qwen3.5:4b        # バランス（8GB級で実用）

# 3. 動かす
ollama run qwen3.5:2b "現場メモを200字で要約して: ..."

Raspberry Pi 5 のように非力な機材では、より強い量子化（Q4_K_M）と小さいモデル（2B）から始め、num_ctx を控えめにするのがコツです。詳しいエッジ構築はJetsonヘッドレス構築も参照してください。

まとめ

エッジSLMはオフライン・機密・低電力・常時稼働が価値。だから指標は速度よりtok/s/W。
実測ではMac mini M4が効率王、Pi5は省電力でも効率は最下位（2B級にすると実用）、Jetsonがバランス。
「動くか」は動くか診断、全数値は検証DB（tok/s/Wでソート）で確認を。

※ 本記事は機材の購入リンク（アフィリエイト）を含みます。掲載の速度・電力・tok/s/W は当サイトの自前実測（ollama・2回平均・num_predict=256・temp0.7）。電力の測定境界は機種で異なり（GPUのみ/SoC全体/基板）、tok/s/W の機種横断比較は目安です。モデルのライセンス・商用可否は一次情報での確認を推奨します。