Japanese Local-AI Agent Index
日本語ローカルAIエージェント実用度インデックス
「プライバシーやコストのために、日本語のAIエージェントをローカルで動かしたい。 でも、どのモデルが本当に使えるのか?」——その問いに自前の実測だけで答えるインデックスです。 チャットの賢さではなく、ツールを正しく呼び、結果を使って多段で作業し、最後までやり切れるかを測っています。 測り方は測定プロトコル(能力×実行性)へ。
実用度ランキング(A6000実測)
判定は日本語の多ターン連鎖を主軸に置いています(エージェントの本質=結果を使って続けられるか)。
| モデル | 日本語実用度 | 単発 | 連鎖 | 深連鎖 | 英語 | 速度 tok/s | 商用 |
|---|---|---|---|---|---|---|---|
| 1. Gemma4 26BGemma・26B — 単発・連鎖・深連鎖すべて最上位。日本語エージェントの第一候補。やや重い(要VRAM)。 | 実用目立った失敗なし | 100% | 100% | 83% | — | 100 | 可 |
| 2. Qwen3.6 35BQwen・35B — 高い連鎖力。35Bで重いが、余力があれば日本語エージェントに堅実。 | 実用目立った失敗なし | 94% | 89% | — | — | 122 | 可 |
| 3. Qwen3.5 4BQwen・4B — 軽量・長文脈で健闘。深い連鎖でも4Bとして優秀(10都市タスク完遂)。中規模の自動化向き。 | 条件付き中程度の連鎖で取りこぼし | 100% | 67% | 67% | — | 124 | 可 |
| 4. LFM2.5 8BLFM・8B — 最速・単発満点だが、手数が伸びると崩壊(深連鎖17%)。短い定型タスク限定なら高速。 | 条件付き長い連鎖で早期離脱(崩壊) | 100% | 67% | 17% | — | 284 | 可 |
| 5. Qwen2.5 7BQwen・7B — 短〜中連鎖は堅実だが、10段超で平均206回の暴走ループ。上限ガード必須。 | 条件付き深い連鎖で暴走ループ(要・上限ガード) | 94% | 78% | 33% | 100% | 119 | 可 |
| 6. Qwen3.5 2BQwen・2B — 最小・高速。単純な単発〜浅い連鎖向き。深連鎖は健闘するがブレ大きい。 | 単純タスク向き単発で過剰呼び出し/連鎖は不安定 | 89% | 56% | 67% | — | 186 | 可 |
| 7. Llama3.1 8BLlama・8B — 英語では94〜100%と優秀なのに、日本語の引数生成で崩れる。英語エージェント向き・日本語は非推奨。 | 日本語の引数が文字化け(bad_args) | 38% | 0% | — | 94% | — | 可 |
単発=1回のツール呼び出し正答率、連鎖=2〜3段の多ターン成功率(9試行)、深連鎖=10段超の成功率(6試行)、英語=同タスクの英語版正答率。 すべてA6000・ollama・temp0.7の自前実測。小サンプルゆえ方向性の指標(要検証)。「—」は未計測。
日本語では「モデル族」が決定的
最大の発見は、同じモデルでも日本語と英語で別物になること。Llama3.1・Mistralは英語なら90〜100%なのに、日本語では50〜60%へ急落します。しかも崩れ方が族で違います。
| モデル族 | 日本語 | 英語 | 日本語の失敗モード |
|---|---|---|---|
| Qwen2.5 7B | 100% | 100% | なし(日英とも良好) |
| Mistral 7B | 60% | 96% | no_call(日本語だと呼ばない) |
| Llama3.1 8B | 50% | 100% | bad_args(日本語引数が文字化け) |
結論: 日本語でエージェントを組むなら、量子化やサイズより先に「モデル族」を選ぶ——日本語タスクでは Qwen系が明確に優勢。英語中心なら Llama/Mistral も十分戦力。各48試行・temp0.7・要検証。
つまり「ツール呼び出しの地力」はあるのに、日本語の処理で崩れる。 日本語エージェントでは、量子化やサイズより先に族(Qwen系が優勢)を選ぶのが正解です。 詳しい実測はfunction calling&連鎖の実測へ。
「単発が得意」は「エージェントが得意」ではない
単発のツール呼び出しはほぼ横並びでも、手数が増えるほど差が開きます。 単発満点のモデルが連鎖で急落し、10段超ではさらに崩壊や暴走が出ます。
- Gemma4 26B100%
- Qwen3.6 35B94%
- Qwen2.5 7B94%
- Qwen3.5 4B100%
- LFM2.5 8B100%
- Qwen3.5 2B89%
- Gemma4 26B100%
- Qwen3.6 35B89%
- Qwen2.5 7B78%
- Qwen3.5 4B67%
- LFM2.5 8B67%
- Qwen3.5 2B56%
単発はほぼ横並び(89〜100%)なのに、連鎖は56〜100%へ大きく開く。単発100%のQwen3.5 4B・LFM2.5 8Bが連鎖では67%に急落=単発の成績は連鎖を予測しない。3連鎖タスク×3回=9試行・要検証。
- Gemma4 26B100%
- Qwen3.5 4B83%
- Qwen3.5 2B67%
- Qwen2.5 7B50%
- LFM2.5 8B17%
5〜6段でも成功する組み合わせは限られ、100%(Gemma4)〜17%(LFM2.5)に開く。サイズは無関係=2BのQwen3.5(67%)が8BのLFM2.5(17%)を圧倒。最難は『検索→気温2件→合算→メール』の合成タスク。
単発満点・最速のMoEが、手数が伸びるほど早期離脱(平均ツール呼出2.7回で停止)。「単発が速くて得意」は長いエージェントを予測しない典型例。
※ 純粋な算術5段タスクは指標から除外。強いモデル(Gemma4)はツールを使わず暗算で正答(ツール0回で「答えは210」)し、ツール連鎖の測定にならないため。エージェント評価はツールを使わざるを得ないタスクで測るべき、という方法論的教訓(測定プロトコル参照)。各9試行・要検証。
- Gemma4 26B83%
- Qwen3.5 4B67%
- Qwen3.5 2B67%
- Qwen2.5 7B33%
- LFM2.5 8B17%
10都市の気温を集めて合算する深い連鎖。Gemma4が最安定。10都市の収集と合算はGemma4・Qwen3.5 4B/2Bが3/3で完遂——ここでも2B/4Bが7B/8Bを上回り、サイズは無関係。
10都市タスクで平均206回のツール呼び出し(上限20ターンの間、気温の再取得を延々と繰り返し終了できず)。同じQwenでも4B/2Bは8〜13回で正しく完遂したのに、7Bだけが暴走しました。
「ローカルは課金ゼロ」でも、暴走は時間と電力を浪費します。本番では無限ループ=コスト/レイテンシ爆発のリスク。最大ステップ数の上限ガードと終了条件の設計が必須——長いほど起きやすく、モデル選びと同じくらい足場(コード側の制御)が効きます。
手数を5〜6段からさらに10段超へ伸ばすと、成功する組み合わせはより限られ、終了不能(暴走/途中離脱)が増える。各6トライアル・要検証。
なぜチャットの強さがエージェントを予測しないのかはエージェント能力とチャット能力の違いで構造的に論証しています。
結局どれを選ぶか(用途別)
- ・日本語で本格的なエージェント:VRAMに余裕があれば Gemma4 26B か Qwen3.6 35B(連鎖も安定)。
- ・軽量機で日本語エージェント:Qwen3.5 4B。 4Bでも深い連鎖を完遂し、長文脈で省メモリ。
- ・短い定型タスクを高速に:LFM2.5 8B(最速)。ただし長い連鎖には向かない。
- ・英語中心:Llama3.1・Mistral も十分戦力(日本語タスクには非推奨)。
- ・共通の注意:長い連鎖では暴走ループが起きうるため、最大ステップ数の上限ガードを必ず実装する。安全面はモデルのマルウェア対策も参照。