小型AI(SLM=Small Language Model)は、低スペックなPCやSBC(Jetson・ラズパイ)でも動き、オフラインで・低電力で・常時動かせるのが持ち味です。クラウドの大型モデルほど賢くなくても、要約・分類・定型応答・現場メモの整形なら十分。この記事は、その**「エッジで常時稼働」という観点で、当サイトが自前で測った速度(tok/s)と電力効率(tok/s/W)**から、機材×モデルの最適解をランキングします。

なぜ「エッジ × 小型AI」なのか

  • オフライン: 電波の届かない現場・船上・山間部でも動く。私自身、南極観測隊の同行や測量の現場で「通信が乏しい/電力が限られる」環境を経験していますが、クラウド前提のAIはそこでは使えません。手元で動くSLMが必然になります。
  • 機密: 個人情報・契約書・現場データを外に出さずに処理できる。
  • 電気代・常時稼働: 24時間回すなら、速いことより1ワットあたり何トークン出せるか(tok/s/W)が効いてきます。だからこの記事は速度だけでなく電力効率を主指標に置きます。

候補モデル(商用可否つき)

エッジで現実的に動く小型モデルのうち、当サイトで実測したものを中心に整理します。

モデル規模速度傾向ライセンス商用
Qwen3.5 2B2B(密)最小・最速Apache-2.0✓ 可
Qwen3.5 4B4B(密)バランス・長文脈Apache-2.0✓ 可
LFM2.5 8B8B(A1B・MoE)最速級だが長い連鎖は苦手LFM Open License△ 条件付(年商$10M未満で可・要確認)

同じ小型でも、実際に測ると速度も効率もかなり違いますライセンスは要確認——Llama系はコミュニティライセンス、Qwen2.5 3Bは研究用で商用不可、Phi-4-miniはMIT。

実測ランキング:小型モデル8種(A6000)

候補をА6000で実測すると、「小さいほど速く、効率も良い」がはっきり出ます。

小型モデル(SLM)の実測ランキング(RTX A6000・電力効率 tok/s/W 降順)
モデル規模tok/stok/s/W量子化商用
Llama3.2 1B1.2B3162.18Q8
SmolLM2 1.7B1.7B2421.11Q8
Llama3.2 3B3.2B2021.06Q4
Qwen2.5 3B3.1B1911.01Q4研究のみ
Gemma4 E2B実5.1B1660.99Q4
Phi-4-mini3.8B1670.74Q4
Qwen3.5 4B4B1240.57Q4
Gemma4 E4B実8.0B1100.50Q4

同一A6000で実測(Q4_K_M中心/1B・1.7BはQ8・2回平均・温度0・消費電力はnvidia-smi)。小さいほど速く効率も高い傾向で、Llama3.2 1Bが最速・最効率。一方Gemma4 E4Bは“有効4B”でも実体8B級で最遅(名前の有効パラメータと実体の差に注意)。A6000は大電力GPUゆえ絶対のtok/s/Wは低め=モデル間の相対比較として見てください(エッジ機材の絶対値は検証DBで tok/s/W ソート)。Qwen2.5 3Bは研究ライセンスで商用不可。要検証。

最速・最効率は Llama3.2 1B(316 tok/s・2.18 tok/s/W)。逆に Gemma4 E4B は“有効4B”でも実体8B級で最遅(110 tok/s)——名前の「有効パラメータ」と、メモリに載る実体サイズは別物なので要注意です。用途に対して過剰に大きいモデルを選ばないことが、エッジでは効率に直結します。各モデル×機材の数値は検証DB(tok/s/Wでソート可)に格納しています。

A6000 と Mac mini M4、どちらが効率的か

同じ7モデルを Mac mini M4 でも実測しました。結果は「速度はA6000、電力効率はMac」という対照的な棲み分けです。

A6000 vs Mac mini M4:速度はA6000、電力効率はMac(同一SLM・A6000とMacで実測)
モデル速度 tok/s電力効率 tok/s/W
A6000Mac M4A6000Mac M4
Llama3.2 1B316712.186.88
SmolLM2 1.7B242511.114.85
Gemma4 E2B166550.994.75
Qwen2.5 3B191471.014.14
Llama3.2 3B202451.063.66
Phi-4-mini167370.743.16
Gemma4 E4B110300.502.35

速度はA6000が4〜7倍速い(GPUの絶対性能)。一方電力効率はMac mini M4が3〜5倍高い(Apple SiliconのSoCは消費電力が約10〜13Wと小さい)。24時間常時稼働・省電力ならMac、瞬発力・大量処理ならA6000——用途で選ぶのが正解。いずれも当サイトの自前実測(各2回平均・温度0・電力はnvidia-smi/powermetrics)。要検証。

A6000は速度で4〜7倍勝りますが、Macは電力効率で3〜5倍勝ります(Apple SiliconのSoCは約10〜13Wと省電力)。常時稼働・省電力で回すならMac mini M4が効率王瞬発力・大量バッチならA6000。エッジSLMでは「速いか」より「ワットあたり何トークンか」が効くので、この観点は外せません。

速度(tok/s)— 機材ティア別の実測

まず素の生成速度。同じ Qwen3.5 4B(Q4_K_M)を機材を変えて自前計測しました。

生成速度 tok/s(Qwen3.5 4B・Q4_K_M・自前実測)
  • RTX A6000 48GB124
  • Mac mini M4 16GB29.3
  • Jetson Orin Nano 8GB12.6
  • Raspberry Pi 5 8GB2.2

実用ライン 10 tok/s(黙読に追いつく目安)

「動く」と「快適」は別物。Pi5は4Bだと実用ラインを下回り、2Bモデルなら改善する。

ポイントは**「動く」と「快適」は別だということ。黙読に追いつく目安は約10 tok/s で、Raspberry Pi 5 は 4B だとこのラインを下回ります(2.2 tok/s)。Pi5で実用したいなら2B級に落とす**のが現実解です。一方 Mac mini M4 は約29 tok/s、Jetson Orin Nano は約13 tok/s で、エッジでも実用域に入ります。

電力効率(tok/s/W)— エッジの本命指標

常時稼働なら、本当に見るべきは1ワットあたりの生成量です。消費電力も同条件で実測しました。

① 絶対消費電力 W(Qwen3.5 4B・同一条件で実測)
  • Raspberry Pi 5(CPU)7.5
  • Mac mini M4(Metal)12.3
  • Jetson Orin Nano(GPU)18.7
  • RTX A6000(GPU)218
② 電力効率 tok/s/W(同上・大きいほど高効率)
  • Raspberry Pi 5(CPU)0.30
  • Mac mini M4(Metal)2.38
  • Jetson Orin Nano(GPU)0.67
  • RTX A6000(GPU)0.57

効率トップは Mac mini M4(Apple SiliconのSoC)、次いで専用GPUのJetson。CPU推論のPi5は絶対電力が最小でも効率は最下位。※電力の測定境界は機種で異なる(Mac=SoC全体 / A6000=GPUのみ / Jetson=モジュール / Pi5=基板)ため横断比較は目安・要検証。

ここで逆転が起きます。絶対消費電力が最小の Raspberry Pi 5(7.5W)が、効率(tok/s/W)では最下位。逆に Mac mini M4(Apple SiliconのSoC)が効率トップで、次いで専用GPUを積む Jetson。CPU推論のPi5は「電力は小さいが、その電力で出せる量も小さい」わけです。

つまりエッジSLMの選び方は——

  • とにかく省スペース・最安で常時稼働したい → Raspberry Pi 5 + 2B級モデル(4Bは重い)。
  • 効率と使い勝手のバランス(16GBで多くのモデルが載る)→ Mac mini M4(効率王)。
  • GPUで安定して回したい・ビジョンも視野Jetson Orin Nano Super

電力効率の深掘りは電力効率の実測、機材×モデルの全数値は検証DBtok/s/W で並べ替え可能)へ。

エッジ実機で小型を測る(Jetson・Pi5)— AI HATは効くのか

A6000だけでなく、実際のエッジ機材でも同じ小型モデルを測りました。代表として Qwen2.5 1.5B を3機材で。

同じ Qwen2.5 1.5B を3機材で実測(クロス機材・Q4_K_M)
機材tok/s電力Wtok/s/W体感
RTX A6000 48GB2821342.10一瞬で出力
Jetson Orin Nano 8GB35.616.32.18ストレスなく実用
Raspberry Pi 5 8GB10.67.91.34実用ライン到達

絶対速度は機材で28倍違う(A6000 282 vs Pi5 10.6 tok/s)のに、電力効率(tok/s/W)はA6000とJetsonがほぼ拮抗(2.10 vs 2.18)。そしてPi5でも1.5B級なら10.6 tok/s=実用ライン到達(4Bだと2.2で不足だった)。Jetsonの電力はデモ常駐プロセス同時稼働分を含む(参考値)。各2回平均・温度0・要検証。

⚠ AI HAT2+(Hailo-10H)を挿しても、このLLMのtok/sは速くなりません(実測で確認)。同じPi5のHailo-10Hで画像モデルを実測すると ResNet50 約308 FPS・YOLOv8m 約76 FPSと高速—— つまりHailoの40 TOPSは画像(CNN)には確かに効く。 一方、ollama/llama.cpp はLLMのテキスト生成をHailoで動かさず、LLMはCPU実行のまま(qwen2.5 1.5Bで10.6 tok/s)。 「TOPSが大きいNPU=LLMが速い」は神話で、LLM速度を決めるのはメモリ帯域とCPU/GPUです。 Hailo-10HはGenAI APIでLLM自体は対応しますが、Hailo独自コンパイルが必要でollama標準ワークフローでは加速しません(自前実測・要検証)。

注目点は2つ。(1) 1.5B級ならRaspberry Pi 5でも10.6 tok/s=実用ラインに届く(4Bでは2.2で不足でした)。だから「Pi5でローカルAI」は、モデルを2B級以下に絞れば現実的です。(2) 絶対速度は機材で大きく違うのに、電力効率(tok/s/W)はJetsonとA6000がほぼ拮抗——エッジは「遅いが省電力でそこそこ効率的」なわけです。

そして、よくある質問——「Pi 5にAI HAT2+(Hailo)を挿せば速くなる?」画像なら激変、LLMなら変わらない、が答えです。当サイトでHailo-10Hの画像モデルを実測し、CPU・LLMと並べました。

Raspberry Pi 5:AI HAT2+(Hailo-10H)あり / なし
タスクなし(CPU)あり(Hailo)効果
物体検出 YOLOv8m約3〜5 FPS76.25 FPS約15〜25倍速い
画像分類 ResNet50数十FPS級(経験則)307.64 FPS大幅に速い
LLM|ollama標準(Qwen2.5 1.5B)10.6 tok/s10.6 tok/sHailo不使用=不変
LLM|Hailo GenAI SDK(同上)4.75 tok/s / 2.5WCPUより遅いが超低電力

画像(CNN)はAI HAT2+で激変、LLMの速度には効かない——これがTOPS神話の核心。最下行が決定的で、Hailo専用のGenAI SDKでLLMを実際に動かしても 4.75 tok/s=CPUの10.6 tok/sより遅い(ただし2.5WとCPU 7.9Wより省電力でCPUを解放)。つまり40 TOPSは画像には効く(308 FPS)が、LLMの速度には効かない。ollama/llama.cppはそもそもHailoを使わずCPU実行(=AI HATの有無で不変)。Hailo・LLMとも当サイトの自前実測(Hailo LLMはHailoRT 5.1.1+v5.2.0 HEF・end-to-end計測で公称~9.5 tok/sは下回るが「CPU比で速くない」結論は不変)、CPUのYOLOは外部ベンチ(根拠: Seeed Studio Wiki 等)。要検証。

つまり AI HAT2+ の40 TOPSは画像(CNN)には10〜40倍効く一方、LLMのテキスト生成には無効——ollama/llama.cppはHailoを使わずCPUで回すからです。「TOPSが大きいNPU=LLMが速い」は神話で、LLM速度を決めるのはメモリ帯域とCPU/GPU

そして決定版の検証——「Hailo自身のSDKでLLMを動かせば速いのでは?」を確かめるため、Hailo-10HのGenAI SDK(HailoRT)で Qwen2.5 1.5B を実際に動かして実測しました。

  • Hailo GenAI SDK: 4.75 tok/s・2.5W(Pi5総電力)
  • CPU(ollama): 10.6 tok/s・7.9W

驚くべきことに、Hailoの専用SDKで動かしても、LLMはCPUより遅い(4.75 < 10.6 tok/s)。Hailoの公称(約9.5 tok/s)でもCPUの10.6を下回ります。Hailoの利点は電力(2.5W=CPUの1/3)でCPUを解放できることで、速度ではない。画像が308 FPSも出るのにLLMは数tok/s——同じ40 TOPSでもワークロードで天と地。これがTOPS神話の決定的な実測です(HailoRT 5.1.1+v5.2.0 HEF・end-to-end計測・要検証)。

Jetsonが速いのはCUDAコア(汎用GPU)でLLMを回せるからで、画像向けNPUのTOPSとは別物です。

あなたの機材だと、どれが動く?

手元の機材で「動くか・どのくらいの速さか・1回いくらか」は、動くか診断で機材とモデルを選ぶだけで即わかります(用途を「AIエージェント」にすると総実時間とコストも)。

推奨構成と機材

実測から、用途別の推奨はこうなります。

① 最安で常時稼働(2B級チャット・分類)— Raspberry Pi 5 8GB

省電力(7.5W)でファンレス運用も視野。2B級モデルなら実用。microSDよりNVMe(USB/PCIe)起動が安定します。

Amazonで見る広告・Amazon 楽天で見る広告・楽天

② GPUでバランス良く(4B級・ビジョンも)— Jetson Orin Nano Super 8GB

CUDAコアで実TOPSが効き、4B級が実用速度。エッジでVLM(画像)まで狙えます。

Amazonで見る広告・Amazon 楽天で見る広告・楽天

③ 効率王・16GBで余裕(多モデル常駐)— Mac mini M4

tok/s/W トップ。16GBユニファイドメモリで7〜8B級まで快適。開発機を兼ねるなら最有力。

Amazonで見る広告・Amazon 楽天で見る広告・楽天

周辺機器も効きます: 安定電源/UPS(突然の停電で常時稼働が落ちないように)、NVMe/microSD(モデルの読み込み速度)、冷却(Jetson/Pi5は連続推論で発熱)。いずれも単価は小さくても常時稼働では効いてきます。

再現手順(最短)

# 1. ollama を導入(各OS共通)
curl -fsSL https://ollama.com/install.sh | sh

# 2. 小型モデルを取得(まずは軽い2Bから)
ollama pull qwen3.5:2b        # 最小・最速
ollama pull qwen3.5:4b        # バランス(8GB級で実用)

# 3. 動かす
ollama run qwen3.5:2b "現場メモを200字で要約して: ..."

Raspberry Pi 5 のように非力な機材では、**より強い量子化(Q4_K_M)と小さいモデル(2B)**から始め、num_ctx を控えめにするのがコツです。詳しいエッジ構築はJetsonヘッドレス構築も参照してください。

まとめ

  • エッジSLMはオフライン・機密・低電力・常時稼働が価値。だから指標は速度よりtok/s/W
  • 実測ではMac mini M4が効率王、Pi5は省電力でも効率は最下位(2B級にすると実用)、Jetsonがバランス。
  • **「動くか」は動くか診断、全数値は検証DB(tok/s/Wでソート)**で確認を。

※ 本記事は機材の購入リンク(アフィリエイト)を含みます。掲載の速度・電力・tok/s/W は当サイトの自前実測(ollama・2回平均・num_predict=256・temp0.7)。電力の測定境界は機種で異なり(GPUのみ/SoC全体/基板)、tok/s/W の機種横断比較は目安です(要検証)。モデルのライセンス・商用可否は一次情報での確認を推奨します。