ai-local-lab

Japanese Local-AI Agent Index

日本語ローカルAIエージェント実用度インデックス

「プライバシーやコストのために、日本語のAIエージェントをローカルで動かしたい。 でも、どのモデルが本当に使えるのか?」——その問いに自前の実測だけで答えるインデックスです。 チャットの賢さではなく、ツールを正しく呼び、結果を使って多段で作業し、最後までやり切れるかを測っています。 測り方は測定プロトコル(能力×実行性)へ。

実用度ランキング(A6000実測)

判定は日本語の多ターン連鎖を主軸に置いています(エージェントの本質=結果を使って続けられるか)。

日本語ローカルAIエージェント実用度ランキング
モデル日本語実用度単発連鎖深連鎖英語速度
tok/s
商用
1. Gemma4 26BGemma26B — 単発・連鎖・深連鎖すべて最上位。日本語エージェントの第一候補。やや重い(要VRAM)。実用目立った失敗なし100%100%83%100
2. Qwen3.6 35BQwen35B — 高い連鎖力。35Bで重いが、余力があれば日本語エージェントに堅実。実用目立った失敗なし94%89%122
3. Qwen3.5 4BQwen4B — 軽量・長文脈で健闘。深い連鎖でも4Bとして優秀(10都市タスク完遂)。中規模の自動化向き。条件付き中程度の連鎖で取りこぼし100%67%67%124
4. LFM2.5 8BLFM8B — 最速・単発満点だが、手数が伸びると崩壊(深連鎖17%)。短い定型タスク限定なら高速。条件付き長い連鎖で早期離脱(崩壊)100%67%17%284
5. Qwen2.5 7BQwen7B — 短〜中連鎖は堅実だが、10段超で平均206回の暴走ループ。上限ガード必須。条件付き深い連鎖で暴走ループ(要・上限ガード)94%78%33%100%119
6. Qwen3.5 2BQwen2B — 最小・高速。単純な単発〜浅い連鎖向き。深連鎖は健闘するがブレ大きい。単純タスク向き単発で過剰呼び出し/連鎖は不安定89%56%67%186
7. Llama3.1 8BLlama8B — 英語では94〜100%と優秀なのに、日本語の引数生成で崩れる。英語エージェント向き・日本語は非推奨。日本語は不向き日本語の引数が文字化け(bad_args)38%0%94%

単発=1回のツール呼び出し正答率、連鎖=2〜3段の多ターン成功率(9試行)、深連鎖=10段超の成功率(6試行)、英語=同タスクの英語版正答率。 すべてA6000・ollama・temp0.7の自前実測。小サンプルゆえ方向性の指標(要検証)。「—」は未計測。

日本語では「モデル族」が決定的

最大の発見は、同じモデルでも日本語と英語で別物になること。Llama3.1・Mistralは英語なら90〜100%なのに、日本語では50〜60%へ急落します。しかも崩れ方が族で違います。

日本語 vs 英語のツール正答率(fp16・各48試行・A6000実測)――地力は英語、崩れるのは日本語
モデル族日本語英語日本語の失敗モード
Qwen2.5 7B100%100%なし(日英とも良好)
Mistral 7B60%96%no_call(日本語だと呼ばない)
Llama3.1 8B50%100%bad_args(日本語引数が文字化け)
要点: Llama3.1・Mistralは英語なら90〜100%なのに日本語で50〜60%へ急落。つまりツール呼び出しの地力はあるのに、日本語の処理で崩れる(壊れたJSONは3族×2言語×全量子化で0件=形は常に正しい)。日本語での崩れ方は族で違い、Llamaは引数を文字化け(bad_args)、Mistralはそもそも呼ばない(no_call)

結論: 日本語でエージェントを組むなら、量子化やサイズより先に「モデル族」を選ぶ——日本語タスクでは Qwen系が明確に優勢。英語中心なら Llama/Mistral も十分戦力。各48試行・temp0.7・要検証。

つまり「ツール呼び出しの地力」はあるのに、日本語の処理で崩れる。 日本語エージェントでは、量子化やサイズより先に族(Qwen系が優勢)を選ぶのが正解です。 詳しい実測はfunction calling&連鎖の実測へ。

「単発が得意」は「エージェントが得意」ではない

単発のツール呼び出しはほぼ横並びでも、手数が増えるほど差が開きます。 単発満点のモデルが連鎖で急落し、10段超ではさらに崩壊や暴走が出ます。

① 単発(1回のツール呼び出し)の正答率
  • Gemma4 26B100%
  • Qwen3.6 35B94%
  • Qwen2.5 7B94%
  • Qwen3.5 4B100%
  • LFM2.5 8B100%
  • Qwen3.5 2B89%
② マルチターン連鎖(前の結果を使う本物のエージェント)の成功率
  • Gemma4 26B100%
  • Qwen3.6 35B89%
  • Qwen2.5 7B78%
  • Qwen3.5 4B67%
  • LFM2.5 8B67%
  • Qwen3.5 2B56%

単発はほぼ横並び(89〜100%)なのに、連鎖は56〜100%へ大きく開く。単発100%のQwen3.5 4B・LFM2.5 8Bが連鎖では67%に急落=単発の成績は連鎖を予測しない。3連鎖タスク×3回=9試行・要検証。

長連鎖(5〜6段・ツール必須タスク)の成功率(A6000実測・2タスク×3回=6トライアル)
  • Gemma4 26B100%
  • Qwen3.5 4B83%
  • Qwen3.5 2B67%
  • Qwen2.5 7B50%
  • LFM2.5 8B17%

5〜6段でも成功する組み合わせは限られ、100%(Gemma4)〜17%(LFM2.5)に開く。サイズは無関係=2BのQwen3.5(67%)が8BのLFM2.5(17%)を圧倒。最難は『検索→気温2件→合算→メール』の合成タスク。

手数が増えるほど崩れる典型 ― LFM2.5 8B
単発 100%短連鎖(2-3段) 67%長連鎖(5-6段) 17%

単発満点・最速のMoEが、手数が伸びるほど早期離脱(平均ツール呼出2.7回で停止)。「単発が速くて得意」は長いエージェントを予測しない典型例。

※ 純粋な算術5段タスクは指標から除外。強いモデル(Gemma4)はツールを使わず暗算で正答(ツール0回で「答えは210」)し、ツール連鎖の測定にならないため。エージェント評価はツールを使わざるを得ないタスクで測るべき、という方法論的教訓(測定プロトコル参照)。各9試行・要検証。

深い連鎖(10段超・10都市の気温を集めて合算など・ツール必須)の成功率(A6000実測・2タスク×3回=6トライアル)
  • Gemma4 26B83%
  • Qwen3.5 4B67%
  • Qwen3.5 2B67%
  • Qwen2.5 7B33%
  • LFM2.5 8B17%

10都市の気温を集めて合算する深い連鎖。Gemma4が最安定。10都市の収集と合算はGemma4・Qwen3.5 4B/2Bが3/3で完遂——ここでも2B/4Bが7B/8Bを上回り、サイズは無関係。

⚠ 暴走ループの実例 ― Qwen2.5 7B

10都市タスクで平均206回のツール呼び出し(上限20ターンの間、気温の再取得を延々と繰り返し終了できず)。同じQwenでも4B/2Bは8〜13回で正しく完遂したのに、7Bだけが暴走しました。

「ローカルは課金ゼロ」でも、暴走は時間と電力を浪費します。本番では無限ループ=コスト/レイテンシ爆発のリスク。最大ステップ数の上限ガードと終了条件の設計が必須——長いほど起きやすく、モデル選びと同じくらい足場(コード側の制御)が効きます。

手数を5〜6段からさらに10段超へ伸ばすと、成功する組み合わせはより限られ、終了不能(暴走/途中離脱)が増える。各6トライアル・要検証。

なぜチャットの強さがエージェントを予測しないのかはエージェント能力とチャット能力の違いで構造的に論証しています。

結局どれを選ぶか(用途別)

手元の機材で実用速度が出るか診断する →

このインデックスの限界(正直に)