日本語でローカルAIエージェント（ツール呼び出し）が組めるモデルは？

本格用途はGemma4 26B（日本語の単発・連鎖・深連鎖すべて最上位）とQwen3.6 35B（連鎖成功率89%）が第一候補です。軽量機ならQwen3.5 4B（4Bでも深い連鎖を完遂）。族はQwen系が優勢で、日本語では量子化やサイズより先に『族』を選ぶのが効きます（A6000での自前実測・小サンプルゆえ方向性・要検証）。

国産の日本語特化モデル（Swallow・LLM-jp-4など）はエージェントに使えますか？

現状は不向きです。日本語の文章は得意でも、ツール呼び出しは『呼ばずに文章で返す（no_call）』が主体で、当サイト実測では単発正答率17%・連鎖0%でした（A6000自前実測・要検証）。要約やRAGなど文書系には向きますが、ツールを回すエージェントの軸足には現状使えません。詳しくは『国産ローカルLLMの実測』記事を参照してください。

英語で動くモデルは日本語でも動きますか？

いいえ。同じモデルでも日本語と英語で別物になります。実測ではMistral Nemoは英語の単発100%が日本語で50%、Llama3.1 8Bは英語94%が日本語38%へ急落しました（A6000自前実測・要検証）。『ツール呼び出しの地力はあるのに日本語で崩れる』ためで、崩れ方（引数の文字化け・no_call）は族ごとに異なります。

単発のツール呼び出しが得意なら、エージェントも得意ですか？

いいえ。単発が満点でも、手数（多ターンの連鎖）が増えるほど差が開きます。たとえばLFM2.5 8Bは単発100%ですが、10段超の深い連鎖では17%まで崩れました（A6000自前実測・要検証）。エージェントの実用度は『結果を使って最後までやり切れるか』で測る必要があります。

軽量なGPUでも日本語エージェントは動きますか？

動きます。Qwen3.5 4Bは4Bながら深い連鎖を67%完遂し、長文脈でも省メモリです。超軽量ではLFM2.5 230Mが単発83%と健闘しますが、深い連鎖は不可でした（A6000自前実測・要検証）。手元の機材で実用速度が出るかは『動くか診断』で確認できます。

このランキングはどれくらい信頼できますか？

すべてA6000・ollama・temp0.7での自前実測です。ただし連鎖は9試行、深連鎖は6試行の小サンプルのため、順位は方向性の指標で、温度・プロンプト・モデル更新で変動します（要検証）。断定ではなく『族の傾向』を読む使い方を推奨します。

Japanese Local-AI Agent Index

日本語ローカルAIエージェント実用度インデックス

「プライバシーやコストのために、日本語のAIエージェントをローカルで動かしたい。でも、どのモデルが本当に使えるのか？」——その問いに自前の実測だけで答えるインデックスです。チャットの賢さではなく、ツールを正しく呼び、結果を使って多段で作業し、最後までやり切れるかを測っています。測り方は測定プロトコル（能力×実行性）へ。

機材で動くか診断する →作り方を読む

30秒でわかる結論

日本語エージェントの実用度は「モデル族」でほぼ決まる（実測16モデル）

日本語でローカルAIエージェント（ツール呼び出し）が実用になるかは、パラメータ数や量子化よりモデル族で決まります。Qwen系が優勢で、国産の日本語特化モデル（Swallow・LLM-jp-4）は日本語の文章は得意でもツール呼び出しはno_call主体（単発17%・連鎖0%）。 Llama3.1 8B・Mistral Nemoのように英語では94〜100%でも日本語で38〜50%に急落するモデルもあります。さらに「単発が得意」は「エージェントが得意」ではなく、多ターン連鎖・10段超で差が開きます。

・本格用途：Gemma4 26B（単発・連鎖・深連鎖すべて最上位）／Qwen3.6 35B
・軽量機で日本語：Qwen3.5 4B（4Bで深連鎖67%）
・短い定型を高速に：LFM2.5 8B（284 tok/s・長い連鎖には不向き）
・非中国系の現実解：gpt-oss 20B（単発89%・連鎖は中位。調達要件で中国系を避けたい場合）

すべてA6000・ollama・temp0.7の自前実測。連鎖9試行・深連鎖6試行の小サンプルゆえ方向性の指標です（要検証）。用途別の詳細は下の「結局どれを選ぶか」へ。

実用度ランキング（A6000実測）

判定は日本語の多ターン連鎖を主軸に置いています（エージェントの本質＝結果を使って続けられるか）。

日本語ローカルAIエージェント実用度ランキング
モデル	日本語実用度	単発	連鎖	深連鎖	英語	速度 tok/s	商用
1. Gemma4 26BGemma・26B — 単発・連鎖・深連鎖すべて最上位。日本語エージェントの第一候補。やや重い（要VRAM）。	実用目立った失敗なし	100%	100%	83%	—	100	可
2. Qwen3.6 35BQwen・35B — 高い連鎖力。35Bで重いが、余力があれば日本語エージェントに堅実。	実用目立った失敗なし	94%	89%	—	—	122	可
3. Qwen2.5 7BQwen・7B — 短〜中連鎖は堅実だが、10段超で平均206回の暴走ループ。上限ガード必須。	条件付き深い連鎖で暴走ループ（要・上限ガード）	94%	78%	33%	100%	119	可
4. Qwen3.5 4BQwen・4B — 軽量・長文脈で健闘。深い連鎖でも4Bとして優秀（10都市タスク完遂）。中規模の自動化向き。	条件付き中程度の連鎖で取りこぼし	100%	67%	67%	—	124	可
5. LFM2.5 8BLFM・8B — 最速・単発満点だが、手数が伸びると崩壊（深連鎖17%）。短い定型タスク限定なら高速。	条件付き長い連鎖で早期離脱（崩壊）	100%	67%	17%	—	284	可
6. LFM2.5 230MLFM・0.23B — 230MでMinistral 14Bの日本語単発を上回る83%・短連鎖67%。超軽量エージェントの新基準。ただし呼びすぎ傾向があり、深い連鎖は不可。	条件付き過剰呼び出し(false_positive)が主・10段超の深連鎖は0%	83%	67%	0%	72%	736	可
7. Qwen3.5 2BQwen・2B — 最小・高速。単純な単発〜浅い連鎖向き。深連鎖は健闘するがブレ大きい。	単純タスク向き単発で過剰呼び出し／連鎖は不安定	89%	56%	67%	—	186	可
8. gpt-oss 20B (MoE)OpenAI・20.9B — 米OpenAIのオープンウェイト。単発89%は上位だが連鎖44%で中位。非中国系でエージェントを組む場合の現実解（thinking型ゆえ応答に思考が挟まる）。	単純タスク向き単発は堅実（no_call×2のみ）・連鎖で息切れ	89%	44%	—	—	133	可
9. LFM2.5 1.2B JPLFM・1.17B — 日本語特化チューンだがツール呼び出しは単発67%止まり（同族8B A1Bは100%）。対話・文章生成向きで、エージェントの軸足には不向き。	単純タスク向き連鎖の途中離脱が主・深連鎖0%	67%	22%	0%	72%	449	可
10. Ministral 3 3BMistral・3.8B — 新世代でもMistral族の日本語no_call傾向がそのまま残る。英語でも72%と呼び出しが保守的。	日本語は不向き日本語で半数がツール未呼び出し(no_call)・連鎖も不安定	50%	22%	17%	72%	177	可
11. Mistral Nemo 12BMistral・12B — 英語は単発100%と優秀なのに、日本語では半数でツールを呼ばず（単発50%）、連鎖・深連鎖は0%。多言語志向でも日本語エージェントは不向きで、英語向き。	日本語は不向き日本語はツール未呼び出し(no_call)多発・連鎖0%	50%	0%	0%	100%	81	可
12. Ministral 3 8BMistral・8.9B — Nemoと同型の日本語弱者プロファイル。指示された定型の反復ループは半分こなすが、対話的な依存連鎖は全滅。	日本語は不向き日本語単発の半数がno_call・短い依存連鎖は0%（定型の深ループのみ50%）	50%	0%	50%	67%	95	可
13. Ministral 3 14BMistral・13.9B — 深い定型ループ83%はGemma4 26B級で異彩。ただし単発no_call半数・短連鎖0%のため、日本語の対話型エージェントには使えない。	日本語は不向き日本語単発の半数がno_call・短い依存連鎖は0%（定型の深ループは83%と例外的に強い）	50%	0%	83%	67%	62	可
14. Llama3.1 8BLlama・8B — 英語では94〜100%と優秀なのに、日本語の引数生成で崩れる。英語エージェント向き・日本語は非推奨。	日本語は不向き日本語の引数が文字化け（bad_args）	38%	0%	—	94%	111	可
15. Llama 3.1 Swallow 8B v0.5Llama・8B — 日本語MT-Bench最上位級の国産継続学習モデルだが、ツール呼び出しはno_call主体。文書・対話向きで、エージェントの軸足には不向き。	日本語は不向きツールを呼ばず文章で返す（no_call×15/18）・連鎖0%	17%	0%	—	—	112	可
16. LLM-jp-4 8B (thinking)LLM-jp・8.6B — NIIのフルスクラッチ純国産（Apache-2.0）。thinking版でもツール判断はno_call主体。文書・RAG用途向きで、エージェント用途は現状不向き。	日本語は不向きツールを呼ばず文章で返す（no_call×15/18）・連鎖0%	17%	0%	—	—	106	可

単発＝1回のツール呼び出し正答率、連鎖＝2〜3段の多ターン成功率（9試行）、深連鎖＝10段超の成功率（6試行）、英語＝同タスクの英語版正答率。すべてA6000・ollama・temp0.7の自前実測。小サンプルゆえ方向性の指標（要検証）。「—」は未計測。

日本語では「モデル族」が決定的

最大の発見は、同じモデルでも日本語と英語で別物になること。Llama3.1 8B・Mistral 7Bは英語なら96〜100%なのに、日本語では50〜60%へ急落します。しかも崩れ方が族で違います。

日本語 vs 英語のツール正答率（fp16・各48試行・A6000実測）――地力は英語、崩れるのは日本語

モデル族	日本語	英語	日本語の失敗モード
Qwen2.5 7B	100%	100%	なし（日英とも良好）
Mistral 7B	60%	96%	no_call（日本語だと呼ばない）
Llama3.1 8B	50%	100%	bad_args（日本語引数が文字化け）

要点: Llama3.1・Mistralは英語なら90〜100%なのに日本語で50〜60%へ急落。つまりツール呼び出しの地力はあるのに、日本語の処理で崩れる（壊れたJSONは3族×2言語×全量子化で0件＝形は常に正しい）。日本語での崩れ方は族で違い、Llamaは引数を文字化け（bad_args）、Mistralはそもそも呼ばない（no_call）。

結論: 日本語でエージェントを組むなら、量子化やサイズより先に「モデル族」を選ぶ——日本語タスクでは Qwen系が明確に優勢。英語中心なら Llama/Mistral も十分戦力。各48試行・temp0.7・要検証。

つまり「ツール呼び出しの地力」はあるのに、日本語の処理で崩れる。新世代の Ministral 3（3B/8B/14B）でも日本語の no_call 傾向は変わらず、英語でも67〜72%と控えめでした（上の総合表）。日本語エージェントでは、量子化やサイズより先に族（Qwen系が優勢）を選ぶのが正解です。詳しい実測はfunction calling＆連鎖の実測へ。

「単発が得意」は「エージェントが得意」ではない

単発のツール呼び出しはほぼ横並びでも、手数が増えるほど差が開きます。単発満点のモデルが連鎖で急落し、10段超ではさらに崩壊や暴走が出ます。

① 単発（1回のツール呼び出し）の正答率

Gemma4 26B100%
Qwen3.6 35B94%
Qwen2.5 7B94%
Qwen3.5 4B100%
LFM2.5 8B100%
Qwen3.5 2B89%

② マルチターン連鎖（前の結果を使う本物のエージェント）の成功率

Gemma4 26B100%
Qwen3.6 35B89%
Qwen2.5 7B78%
Qwen3.5 4B67%
LFM2.5 8B67%
Qwen3.5 2B56%

単発はほぼ横並び（89〜100%）なのに、連鎖は56〜100%へ大きく開く。単発100%のQwen3.5 4B・LFM2.5 8Bが連鎖では67%に急落＝単発の成績は連鎖を予測しない。3連鎖タスク×3回＝9試行・要検証。

長連鎖（5〜6段・ツール必須タスク）の成功率（A6000実測・2タスク×3回＝6トライアル）

Gemma4 26B100%
Qwen3.5 4B83%
Qwen3.5 2B67%
Qwen2.5 7B50%
LFM2.5 8B17%

5〜6段でも成功する組み合わせは限られ、100%(Gemma4)〜17%(LFM2.5)に開く。サイズは無関係＝2BのQwen3.5(67%)が8BのLFM2.5(17%)を圧倒。最難は『検索→気温2件→合算→メール』の合成タスク。

手数が増えるほど崩れる典型 ― LFM2.5 8B

単発 100%短連鎖(2-3段) 67%長連鎖(5-6段) 17%

単発満点・最速のMoEが、手数が伸びるほど早期離脱（平均ツール呼出2.7回で停止）。「単発が速くて得意」は長いエージェントを予測しない典型例。

※ 純粋な算術5段タスクは指標から除外。強いモデル(Gemma4)はツールを使わず暗算で正答（ツール0回で「答えは210」）し、ツール連鎖の測定にならないため。エージェント評価はツールを使わざるを得ないタスクで測るべき、という方法論的教訓（測定プロトコル参照）。各9試行・要検証。

深い連鎖（10段超・10都市の気温を集めて合算など・ツール必須）の成功率（A6000実測・2タスク×3回＝6トライアル）

Gemma4 26B83%
Qwen3.5 4B67%
Qwen3.5 2B67%
Qwen2.5 7B33%
LFM2.5 8B17%

10都市の気温を集めて合算する深い連鎖。Gemma4が最安定。10都市の収集と合算はGemma4・Qwen3.5 4B/2Bが3/3で完遂——ここでも2B/4Bが7B/8Bを上回り、サイズは無関係。

⚠ 暴走ループの実例 ― Qwen2.5 7B

10都市タスクで平均206回のツール呼び出し（上限20ターンの間、気温の再取得を延々と繰り返し終了できず）。同じQwenでも4B/2Bは8〜13回で正しく完遂したのに、7Bだけが暴走しました。

「ローカルは課金ゼロ」でも、暴走は時間と電力を浪費します。本番では無限ループ＝コスト/レイテンシ爆発のリスク。最大ステップ数の上限ガードと終了条件の設計が必須——長いほど起きやすく、モデル選びと同じくらい足場（コード側の制御）が効きます。

手数を5〜6段からさらに10段超へ伸ばすと、成功する組み合わせはより限られ、終了不能（暴走/途中離脱）が増える。各6トライアル・要検証。

なぜチャットの強さがエージェントを予測しないのかはエージェント能力とチャット能力の違いで構造的に論証しています。

結局どれを選ぶか（用途別）

・日本語で本格的なエージェント：VRAMに余裕があれば Gemma4 26B か Qwen3.6 35B（連鎖も安定）。
・軽量機で日本語エージェント：Qwen3.5 4B。 4Bでも深い連鎖を完遂し、長文脈で省メモリ。
・短い定型タスクを高速に：LFM2.5 8B（8B級で最速）。ただし長い連鎖には向かない。
・英語中心：Llama3.1・Mistral Nemo は十分戦力（英語単発94〜100%・日本語タスクには非推奨）。ただし Ministral 3 は英語でも67〜72%と控えめでした。
・過剰拒否にも注意：正当な質問を誤って断る挙動はモデルで差が出ます。実測は過剰拒否ベンチへ。
・共通の注意：長い連鎖では暴走ループが起きうるため、最大ステップ数の上限ガードを必ず実装する。安全面はモデルのマルウェア対策も参照。

手元の機材で実用速度が出るか診断する →

よくある質問

日本語でローカルAIエージェント（ツール呼び出し）が組めるモデルは？: 本格用途はGemma4 26B（日本語の単発・連鎖・深連鎖すべて最上位）とQwen3.6 35B（連鎖成功率89%）が第一候補です。軽量機ならQwen3.5 4B（4Bでも深い連鎖を完遂）。族はQwen系が優勢で、日本語では量子化やサイズより先に『族』を選ぶのが効きます（A6000での自前実測・小サンプルゆえ方向性・要検証）。
国産の日本語特化モデル（Swallow・LLM-jp-4など）はエージェントに使えますか？: 現状は不向きです。日本語の文章は得意でも、ツール呼び出しは『呼ばずに文章で返す（no_call）』が主体で、当サイト実測では単発正答率17%・連鎖0%でした（A6000自前実測・要検証）。要約やRAGなど文書系には向きますが、ツールを回すエージェントの軸足には現状使えません。詳しくは『国産ローカルLLMの実測』記事を参照してください。
英語で動くモデルは日本語でも動きますか？: いいえ。同じモデルでも日本語と英語で別物になります。実測ではMistral Nemoは英語の単発100%が日本語で50%、Llama3.1 8Bは英語94%が日本語38%へ急落しました（A6000自前実測・要検証）。『ツール呼び出しの地力はあるのに日本語で崩れる』ためで、崩れ方（引数の文字化け・no_call）は族ごとに異なります。
単発のツール呼び出しが得意なら、エージェントも得意ですか？: いいえ。単発が満点でも、手数（多ターンの連鎖）が増えるほど差が開きます。たとえばLFM2.5 8Bは単発100%ですが、10段超の深い連鎖では17%まで崩れました（A6000自前実測・要検証）。エージェントの実用度は『結果を使って最後までやり切れるか』で測る必要があります。
軽量なGPUでも日本語エージェントは動きますか？: 動きます。Qwen3.5 4Bは4Bながら深い連鎖を67%完遂し、長文脈でも省メモリです。超軽量ではLFM2.5 230Mが単発83%と健闘しますが、深い連鎖は不可でした（A6000自前実測・要検証）。手元の機材で実用速度が出るかは『動くか診断』で確認できます。
このランキングはどれくらい信頼できますか？: すべてA6000・ollama・temp0.7での自前実測です。ただし連鎖は9試行、深連鎖は6試行の小サンプルのため、順位は方向性の指標で、温度・プロンプト・モデル更新で変動します（要検証）。断定ではなく『族の傾向』を読む使い方を推奨します。

このインデックスの限界（正直に）

・試行数が小さい（連鎖9・深連鎖6）。順位は方向性の指標で、温度・プロンプト・モデル更新で変動します。
・Llama3.1・Mistral Nemoの低スコアは日本語タスク特有（英語は94〜100%）。「これらの族が弱い」と一般化はできません（ただし Ministral 3 は英語でも67〜72%でした）。
・速度はA6000実測。手元の機材では動くか診断と検証DBで確認してください。