ローカルLLMを出身国×得意分野で選ぶ【A6000実測・日本語評価】

「ローカルLLM＝中国勢（Qwen・DeepSeek）」がほぼ定着しつつあります。確かに性能上位は中国製が占めますが、出身国・得意分野・手元のハードで動くか・日本語能力まで見ると、選択肢はもっと豊かで、得手不得手もくっきり分かれます。

本記事は 欧州（Mistral＝仏 / Teuken＝EU）・UAE（Falcon）・米（Gemma）・中国（Qwen・DeepSeek）の代表8モデルを、当サイトの RTX A6000（48GB）で自前実測し、速度・電力・日本語ファンクションコール能力まで横断比較します。結論から言うと——「速い／省電力」と「日本語エージェントが使える」は完全に別の軸でした。

1. 出身国マップ — 中国一強ではない

出身	代表モデル	特徴
🇨🇳 中国	Qwen(Alibaba) / DeepSeek	性能上位・多言語・コーディング
🇫🇷 仏 Mistral	Mistral Small 3 / Nemo / Mixtral / Codestral	効率・欧州多言語・データ主権。Apache中心
🇪🇺 EU連合	Teuken(独) / EuroLLM / Salamandra(西)	EU24言語の多言語特化
🇦🇪 UAE(TII)	Falcon3	科学・数学・コード・省サイズ
🇺🇸 米	Gemma(Google) / Phi(MS) / Llama(Meta) / Granite(IBM)	汎用・推論・enterprise
🇨🇦 加 Cohere	Command-R / Aya	RAG・ツール・多言語(Aya=101言語)

根拠: Mistral 2026ガイド / Teuken-7B / Falcon3

2. A6000実測スピード（全Q4相当・GPU常駐）

すべて48GBのVRAMに収まり、GPU常駐で計測しました（当サイト実測・2回平均・num_predict=256）。

モデル	出身	params	tok/s	電力W	tok/s/W
Falcon3 7B	🇦🇪	7.5B	117.4	250.3	0.47
Mistral Nemo	🇫🇷	12.2B	81.4	265.3	0.31
Mixtral 8x7B(MoE)	🇫🇷	46.7B	78.9	269.5	0.29
Mistral Small 3	🇫🇷	23.6B	42.9	275.8	0.16
Teuken 7B(F16)	🇪🇺	7.5B	42.3	280.2	0.15
Qwen3.6 27B	🇨🇳	27.8B	33.5	285.6	0.12
Gemma 3 27B	🇺🇸	27.4B	33.0	283.6	0.12
DeepSeek-R1 32B	🇨🇳	32.8B	30.4	291.8	0.10

Falcon3 7B が最速・最効率（117 tok/s・0.47 tok/s/W）。小型の強みがそのまま出ます。
Mixtral は46.7BのMoEですが、実行時のアクティブが一部なので78.9 tok/sと軽量級並み。MoEの効きです。
27〜32Bの密モデル（Qwen3.6 / Gemma3 / DeepSeek-R1）は 約30〜33 tok/s で横並び。サイズなりに重い。
機材×モデルの全実測は検証DB、手元の構成で動くかは動くか診断で確認できます。

3. 日本語エージェント能力（ファンクションコール）— ここで明暗が割れる

「日本語で正しくツールを呼べるか」を bench_tools.py（日本語6タスク×3回・温度0.7・ollama tools API）で実測しました。これは当サイトの日本語ファンクションコール検証と同じ手法です。

モデル	日本語FC正答率	失敗の型
Qwen3.6 27B 🇨🇳	1.00（18/18）	完璧
Mistral Small 3 🇫🇷	0.78	no_call×4
Mistral Nemo 🇫🇷	0.56	no_call×8
DeepSeek-R1 32B 🇨🇳	0.17	no_call×15
Gemma3 27B 🇺🇸 / Mixtral 🇫🇷 / Falcon3 🇦🇪 / Teuken 🇪🇺	0.00	ツール非対応(error×18)

4つの発見:

日本語エージェントは Qwen系が圧勝（qwen3.6＝1.00 完璧）。当サイトの従来結論「日本語ツール運用はQwen系一択」を、最新Qwenでも再確認しました。
Mistral系（Small/Nemo）は部分的。失敗はすべて no_call（日本語だとツールを呼ばず素で返す）で、引数の破損ではありません。
推論特化の DeepSeek-R1 は no_call が15/18。「推論が強い」と「エージェントが使える」は別物で、R1は呼ぶべき場面でも考え込んで呼びません（単発の難問QA向き）。
Gemma3 / Mixtral / Falcon3 / Teuken は ollama でツール呼び出し非対応（does not support tools）。日本語以前に、エージェント／ツール運用がそもそもできません。

速度・効率と日本語エージェント能力は完全に別軸です。Falcon3は最速最効率なのに日本語ツールは非対応、Qwen3.6は速度中庸でも日本語FCは満点。「日本語でエージェントを動かす」が目的なら、速度ランキングではなくこの表で選ぶべきです。

4. 得意分野マップ（評判×実測）

研究・ベンチの評判（根拠: Kairntech 2026 / Codersera）と、上の自前実測を重ねると——

用途	強い出身/モデル	補足
日本語エージェント・ツール運用	Qwen系（中）	実測FC=1.00。一択
コーディング	Qwen-Coder / DeepSeek / Codestral(仏)	—
推論・難問	DeepSeek-R1 / Phi-4	※R1はツールを呼ばない＝単発QA向き
欧州多言語・データ主権	Mistral(仏) / Teuken・EuroLLM(EU)	EU24言語
速度・電力効率（A6000実測）	Falcon3(UAE) > Mistral Nemo > Mixtral(MoE)	小型・MoEが有利

5. A6000で「動くか」— VRAM / RAM / 量子化（128GB RAMの効き）

どれが動くかは、3つの壁で決まります。

VRAM(48GB)＝速度の壁: 収まればGPU常駐で高速。今回の8モデルは全てQ4で≤26GB→全部GPU常駐＝上の速度。
量子化＝VRAMに収める手段: 例えば密の70BはQ4(42GB)でも48GBに対しKVキャッシュ＋オーバーヘッドで溢れ、CPUオフロードで約2.17 tok/s＝実用外になります（巨大モデル記事で詳述）。F16ともなれば27Bでも54GBで載りません。大型は量子化が必須。
RAM＝“そもそも動くか”の壁（あなたの128GB RAMの効き）: VRAMを超えた分はシステムRAMへオフロードされ、PCIe帯域の崖で5〜30倍に減速しますが「動く」ことは動きます（根拠: offload deep-dive）。載る上限は VRAM48＋RAM128＝約176GB相当まで広がり、32GB機なら起動不能な大型も、128GBなら遅いが動く。とくにMoEはオフロード耐性が高い（毎回アクティブな一部だけ計算するため）ので、128GB＋A6000なら大型MoEを実用域で動かせる事例があります（根拠: Qwen3-235B 部分オフロード）。

手元の機材×モデルで載るか・速度の目安は動くか診断、量子化の選び方は量子化はどれを選ぶをどうぞ。

6. 結論 — 用途で選ぶ

日本語でエージェント／ツールを動かす: Qwen系（qwen3.6）一択（日本語FC=1.00）。これが今回いちばん明確な結論。
速度・電力効率の汎用チャット: Falcon3 7B（最効率） / Mistral Nemo / Mixtral(MoE)。日本語の素の応答は使えますが、ツール運用は不可。
推論・難問の単発QA: DeepSeek-R1（ただしツールは呼ばないのでエージェントには使わない）。
欧州データ主権・EU多言語: Mistral（仏・Apache）/ Teuken・EuroLLM（EU24言語）。
手元の48GB超の大型を“とりあえず動かす”: 128GB RAMのオフロードが効く。MoEを選ぶとオフロード下でも実用に近い。

「中国モデルが多いから不安」という出発点に対しては——汎用・効率なら欧州（Mistral/Falcon）も十分戦える。ただし日本語エージェント能力に限ればQwen系が頭一つ抜けている、というのが自前実測の答えです。数値の全文は検証DB（CC BY 4.0）で公開しています。