小型AI(SLM=Small Language Model)は、低スペックなPCやSBC(Jetson・ラズパイ)でも動き、オフラインで・低電力で・常時動かせるのが持ち味です。クラウドの大型モデルほど賢くなくても、要約・分類・定型応答・現場メモの整形なら十分。この記事は、その**「エッジで常時稼働」という観点で、当サイトが自前で測った速度(tok/s)と電力効率(tok/s/W)**から、機材×モデルの最適解をランキングします。
なぜ「エッジ × 小型AI」なのか
- オフライン: 電波の届かない現場・船上・山間部でも動く。私自身、南極観測隊の同行や測量の現場で「通信が乏しい/電力が限られる」環境を経験していますが、クラウド前提のAIはそこでは使えません。手元で動くSLMが必然になります。
- 機密: 個人情報・契約書・現場データを外に出さずに処理できる。
- 電気代・常時稼働: 24時間回すなら、速いことより1ワットあたり何トークン出せるか(tok/s/W)が効いてきます。だからこの記事は速度だけでなく電力効率を主指標に置きます。
候補モデル(商用可否つき)
エッジで現実的に動く小型モデルのうち、当サイトで実測したものを中心に整理します。
| モデル | 規模 | 速度傾向 | ライセンス | 商用 |
|---|---|---|---|---|
| Qwen3.5 2B | 2B(密) | 最小・最速 | Apache-2.0 | ✓ 可 |
| Qwen3.5 4B | 4B(密) | バランス・長文脈 | Apache-2.0 | ✓ 可 |
| LFM2.5 8B | 8B(A1B・MoE) | 最速級だが長い連鎖は苦手 | LFM Open License | △ 条件付(年商$10M未満で可・要確認) |
同じ小型でも、実際に測ると速度も効率もかなり違います。ライセンスは要確認——Llama系はコミュニティライセンス、Qwen2.5 3Bは研究用で商用不可、Phi-4-miniはMIT。
実測ランキング:小型モデル8種(A6000)
候補をА6000で実測すると、「小さいほど速く、効率も良い」がはっきり出ます。
| モデル | 規模 | tok/s | tok/s/W | 量子化 | 商用 |
|---|---|---|---|---|---|
| Llama3.2 1B | 1.2B | 316 | 2.18 | Q8 | 可 |
| SmolLM2 1.7B | 1.7B | 242 | 1.11 | Q8 | 可 |
| Llama3.2 3B | 3.2B | 202 | 1.06 | Q4 | 可 |
| Qwen2.5 3B | 3.1B | 191 | 1.01 | Q4 | 研究のみ |
| Gemma4 E2B | 実5.1B | 166 | 0.99 | Q4 | 可 |
| Phi-4-mini | 3.8B | 167 | 0.74 | Q4 | 可 |
| Qwen3.5 4B | 4B | 124 | 0.57 | Q4 | 可 |
| Gemma4 E4B | 実8.0B | 110 | 0.50 | Q4 | 可 |
同一A6000で実測(Q4_K_M中心/1B・1.7BはQ8・2回平均・温度0・消費電力はnvidia-smi)。小さいほど速く効率も高い傾向で、Llama3.2 1Bが最速・最効率。一方Gemma4 E4Bは“有効4B”でも実体8B級で最遅(名前の有効パラメータと実体の差に注意)。A6000は大電力GPUゆえ絶対のtok/s/Wは低め=モデル間の相対比較として見てください(エッジ機材の絶対値は検証DBで tok/s/W ソート)。Qwen2.5 3Bは研究ライセンスで商用不可。要検証。
最速・最効率は Llama3.2 1B(316 tok/s・2.18 tok/s/W)。逆に Gemma4 E4B は“有効4B”でも実体8B級で最遅(110 tok/s)——名前の「有効パラメータ」と、メモリに載る実体サイズは別物なので要注意です。用途に対して過剰に大きいモデルを選ばないことが、エッジでは効率に直結します。各モデル×機材の数値は検証DB(tok/s/Wでソート可)に格納しています。
A6000 と Mac mini M4、どちらが効率的か
同じ7モデルを Mac mini M4 でも実測しました。結果は「速度はA6000、電力効率はMac」という対照的な棲み分けです。
| モデル | 速度 tok/s | 電力効率 tok/s/W | ||
|---|---|---|---|---|
| A6000 | Mac M4 | A6000 | Mac M4 | |
| Llama3.2 1B | 316 | 71 | 2.18 | 6.88 |
| SmolLM2 1.7B | 242 | 51 | 1.11 | 4.85 |
| Gemma4 E2B | 166 | 55 | 0.99 | 4.75 |
| Qwen2.5 3B | 191 | 47 | 1.01 | 4.14 |
| Llama3.2 3B | 202 | 45 | 1.06 | 3.66 |
| Phi-4-mini | 167 | 37 | 0.74 | 3.16 |
| Gemma4 E4B | 110 | 30 | 0.50 | 2.35 |
速度はA6000が4〜7倍速い(GPUの絶対性能)。一方電力効率はMac mini M4が3〜5倍高い(Apple SiliconのSoCは消費電力が約10〜13Wと小さい)。24時間常時稼働・省電力ならMac、瞬発力・大量処理ならA6000——用途で選ぶのが正解。いずれも当サイトの自前実測(各2回平均・温度0・電力はnvidia-smi/powermetrics)。要検証。
A6000は速度で4〜7倍勝りますが、Macは電力効率で3〜5倍勝ります(Apple SiliconのSoCは約10〜13Wと省電力)。常時稼働・省電力で回すならMac mini M4が効率王、瞬発力・大量バッチならA6000。エッジSLMでは「速いか」より「ワットあたり何トークンか」が効くので、この観点は外せません。
速度(tok/s)— 機材ティア別の実測
まず素の生成速度。同じ Qwen3.5 4B(Q4_K_M)を機材を変えて自前計測しました。
- RTX A6000 48GB124
- Mac mini M4 16GB29.3
- Jetson Orin Nano 8GB12.6
- Raspberry Pi 5 8GB2.2
実用ライン 10 tok/s(黙読に追いつく目安)
「動く」と「快適」は別物。Pi5は4Bだと実用ラインを下回り、2Bモデルなら改善する。
ポイントは**「動く」と「快適」は別だということ。黙読に追いつく目安は約10 tok/s で、Raspberry Pi 5 は 4B だとこのラインを下回ります(2.2 tok/s)。Pi5で実用したいなら2B級に落とす**のが現実解です。一方 Mac mini M4 は約29 tok/s、Jetson Orin Nano は約13 tok/s で、エッジでも実用域に入ります。
電力効率(tok/s/W)— エッジの本命指標
常時稼働なら、本当に見るべきは1ワットあたりの生成量です。消費電力も同条件で実測しました。
- Raspberry Pi 5(CPU)7.5
- Mac mini M4(Metal)12.3
- Jetson Orin Nano(GPU)18.7
- RTX A6000(GPU)218
- Raspberry Pi 5(CPU)0.30
- Mac mini M4(Metal)2.38
- Jetson Orin Nano(GPU)0.67
- RTX A6000(GPU)0.57
効率トップは Mac mini M4(Apple SiliconのSoC)、次いで専用GPUのJetson。CPU推論のPi5は絶対電力が最小でも効率は最下位。※電力の測定境界は機種で異なる(Mac=SoC全体 / A6000=GPUのみ / Jetson=モジュール / Pi5=基板)ため横断比較は目安・要検証。
ここで逆転が起きます。絶対消費電力が最小の Raspberry Pi 5(7.5W)が、効率(tok/s/W)では最下位。逆に Mac mini M4(Apple SiliconのSoC)が効率トップで、次いで専用GPUを積む Jetson。CPU推論のPi5は「電力は小さいが、その電力で出せる量も小さい」わけです。
つまりエッジSLMの選び方は——
- とにかく省スペース・最安で常時稼働したい → Raspberry Pi 5 + 2B級モデル(4Bは重い)。
- 効率と使い勝手のバランス(16GBで多くのモデルが載る)→ Mac mini M4(効率王)。
- GPUで安定して回したい・ビジョンも視野→ Jetson Orin Nano Super。
電力効率の深掘りは電力効率の実測、機材×モデルの全数値は検証DB(tok/s/W で並べ替え可能)へ。
エッジ実機で小型を測る(Jetson・Pi5)— AI HATは効くのか
A6000だけでなく、実際のエッジ機材でも同じ小型モデルを測りました。代表として Qwen2.5 1.5B を3機材で。
| 機材 | tok/s | 電力W | tok/s/W | 体感 |
|---|---|---|---|---|
| RTX A6000 48GB | 282 | 134 | 2.10 | 一瞬で出力 |
| Jetson Orin Nano 8GB | 35.6 | 16.3 | 2.18 | ストレスなく実用 |
| Raspberry Pi 5 8GB | 10.6 | 7.9 | 1.34 | 実用ライン到達 |
絶対速度は機材で28倍違う(A6000 282 vs Pi5 10.6 tok/s)のに、電力効率(tok/s/W)はA6000とJetsonがほぼ拮抗(2.10 vs 2.18)。そしてPi5でも1.5B級なら10.6 tok/s=実用ライン到達(4Bだと2.2で不足だった)。Jetsonの電力はデモ常駐プロセス同時稼働分を含む(参考値)。各2回平均・温度0・要検証。
注目点は2つ。(1) 1.5B級ならRaspberry Pi 5でも10.6 tok/s=実用ラインに届く(4Bでは2.2で不足でした)。だから「Pi5でローカルAI」は、モデルを2B級以下に絞れば現実的です。(2) 絶対速度は機材で大きく違うのに、電力効率(tok/s/W)はJetsonとA6000がほぼ拮抗——エッジは「遅いが省電力でそこそこ効率的」なわけです。
そして、よくある質問——「Pi 5にAI HAT2+(Hailo)を挿せば速くなる?」。画像なら激変、LLMなら変わらない、が答えです。当サイトでHailo-10Hの画像モデルを実測し、CPU・LLMと並べました。
| タスク | なし(CPU) | あり(Hailo) | 効果 |
|---|---|---|---|
| 物体検出 YOLOv8m | 約3〜5 FPS | 76.25 FPS | 約15〜25倍速い |
| 画像分類 ResNet50 | 数十FPS級(経験則) | 307.64 FPS | 大幅に速い |
| LLM|ollama標準(Qwen2.5 1.5B) | 10.6 tok/s | 10.6 tok/s | Hailo不使用=不変 |
| LLM|Hailo GenAI SDK(同上) | — | 4.75 tok/s / 2.5W | CPUより遅いが超低電力 |
画像(CNN)はAI HAT2+で激変、LLMの速度には効かない——これがTOPS神話の核心。最下行が決定的で、Hailo専用のGenAI SDKでLLMを実際に動かしても 4.75 tok/s=CPUの10.6 tok/sより遅い(ただし2.5WとCPU 7.9Wより省電力でCPUを解放)。つまり40 TOPSは画像には効く(308 FPS)が、LLMの速度には効かない。ollama/llama.cppはそもそもHailoを使わずCPU実行(=AI HATの有無で不変)。Hailo・LLMとも当サイトの自前実測(Hailo LLMはHailoRT 5.1.1+v5.2.0 HEF・end-to-end計測で公称~9.5 tok/sは下回るが「CPU比で速くない」結論は不変)、CPUのYOLOは外部ベンチ(根拠: Seeed Studio Wiki 等)。要検証。
つまり AI HAT2+ の40 TOPSは画像(CNN)には10〜40倍効く一方、LLMのテキスト生成には無効——ollama/llama.cppはHailoを使わずCPUで回すからです。「TOPSが大きいNPU=LLMが速い」は神話で、LLM速度を決めるのはメモリ帯域とCPU/GPU。
そして決定版の検証——「Hailo自身のSDKでLLMを動かせば速いのでは?」を確かめるため、Hailo-10HのGenAI SDK(HailoRT)で Qwen2.5 1.5B を実際に動かして実測しました。
- Hailo GenAI SDK: 4.75 tok/s・2.5W(Pi5総電力)
- CPU(ollama): 10.6 tok/s・7.9W
驚くべきことに、Hailoの専用SDKで動かしても、LLMはCPUより遅い(4.75 < 10.6 tok/s)。Hailoの公称(約9.5 tok/s)でもCPUの10.6を下回ります。Hailoの利点は電力(2.5W=CPUの1/3)でCPUを解放できることで、速度ではない。画像が308 FPSも出るのにLLMは数tok/s——同じ40 TOPSでもワークロードで天と地。これがTOPS神話の決定的な実測です(HailoRT 5.1.1+v5.2.0 HEF・end-to-end計測・要検証)。
Jetsonが速いのはCUDAコア(汎用GPU)でLLMを回せるからで、画像向けNPUのTOPSとは別物です。
あなたの機材だと、どれが動く?
手元の機材で「動くか・どのくらいの速さか・1回いくらか」は、動くか診断で機材とモデルを選ぶだけで即わかります(用途を「AIエージェント」にすると総実時間とコストも)。
推奨構成と機材
実測から、用途別の推奨はこうなります。
① 最安で常時稼働(2B級チャット・分類)— Raspberry Pi 5 8GB
省電力(7.5W)でファンレス運用も視野。2B級モデルなら実用。microSDよりNVMe(USB/PCIe)起動が安定します。
Amazonで見る広告・Amazon 楽天で見る広告・楽天② GPUでバランス良く(4B級・ビジョンも)— Jetson Orin Nano Super 8GB
CUDAコアで実TOPSが効き、4B級が実用速度。エッジでVLM(画像)まで狙えます。
Amazonで見る広告・Amazon 楽天で見る広告・楽天③ 効率王・16GBで余裕(多モデル常駐)— Mac mini M4
tok/s/W トップ。16GBユニファイドメモリで7〜8B級まで快適。開発機を兼ねるなら最有力。
Amazonで見る広告・Amazon 楽天で見る広告・楽天周辺機器も効きます: 安定電源/UPS(突然の停電で常時稼働が落ちないように)、NVMe/microSD(モデルの読み込み速度)、冷却(Jetson/Pi5は連続推論で発熱)。いずれも単価は小さくても常時稼働では効いてきます。
再現手順(最短)
# 1. ollama を導入(各OS共通)
curl -fsSL https://ollama.com/install.sh | sh
# 2. 小型モデルを取得(まずは軽い2Bから)
ollama pull qwen3.5:2b # 最小・最速
ollama pull qwen3.5:4b # バランス(8GB級で実用)
# 3. 動かす
ollama run qwen3.5:2b "現場メモを200字で要約して: ..."
Raspberry Pi 5 のように非力な機材では、**より強い量子化(Q4_K_M)と小さいモデル(2B)**から始め、num_ctx を控えめにするのがコツです。詳しいエッジ構築はJetsonヘッドレス構築も参照してください。
まとめ
- エッジSLMはオフライン・機密・低電力・常時稼働が価値。だから指標は速度よりtok/s/W。
- 実測ではMac mini M4が効率王、Pi5は省電力でも効率は最下位(2B級にすると実用)、Jetsonがバランス。
- **「動くか」は動くか診断、全数値は検証DB(tok/s/Wでソート)**で確認を。
※ 本記事は機材の購入リンク(アフィリエイト)を含みます。掲載の速度・電力・tok/s/W は当サイトの自前実測(ollama・2回平均・num_predict=256・temp0.7)。電力の測定境界は機種で異なり(GPUのみ/SoC全体/基板)、tok/s/W の機種横断比較は目安です(要検証)。モデルのライセンス・商用可否は一次情報での確認を推奨します。