「ローカルLLM=中国勢(Qwen・DeepSeek)」がほぼ定着しつつあります。確かに性能上位は中国製が占めますが、出身国・得意分野・手元のハードで動くか・日本語能力まで見ると、選択肢はもっと豊かで、得手不得手もくっきり分かれます。
本記事は 欧州(Mistral=仏 / Teuken=EU)・UAE(Falcon)・米(Gemma)・中国(Qwen・DeepSeek)の代表8モデルを、当サイトの RTX A6000(48GB)で自前実測し、速度・電力・日本語ファンクションコール能力まで横断比較します。結論から言うと——「速い/省電力」と「日本語エージェントが使える」は完全に別の軸でした。
1. 出身国マップ — 中国一強ではない
| 出身 | 代表モデル | 特徴 |
|---|---|---|
| 🇨🇳 中国 | Qwen(Alibaba) / DeepSeek | 性能上位・多言語・コーディング |
| 🇫🇷 仏 Mistral | Mistral Small 3 / Nemo / Mixtral / Codestral | 効率・欧州多言語・データ主権。Apache中心 |
| 🇪🇺 EU連合 | Teuken(独) / EuroLLM / Salamandra(西) | EU24言語の多言語特化 |
| 🇦🇪 UAE(TII) | Falcon3 | 科学・数学・コード・省サイズ |
| 🇺🇸 米 | Gemma(Google) / Phi(MS) / Llama(Meta) / Granite(IBM) | 汎用・推論・enterprise |
| 🇨🇦 加 Cohere | Command-R / Aya | RAG・ツール・多言語(Aya=101言語) |
根拠: Mistral 2026ガイド / Teuken-7B / Falcon3
2. A6000実測スピード(全Q4相当・GPU常駐)
すべて48GBのVRAMに収まり、GPU常駐で計測しました(当サイト実測・2回平均・num_predict=256)。
| モデル | 出身 | params | tok/s | 電力W | tok/s/W |
|---|---|---|---|---|---|
| Falcon3 7B | 🇦🇪 | 7.5B | 117.4 | 250.3 | 0.47 |
| Mistral Nemo | 🇫🇷 | 12.2B | 81.4 | 265.3 | 0.31 |
| Mixtral 8x7B(MoE) | 🇫🇷 | 46.7B | 78.9 | 269.5 | 0.29 |
| Mistral Small 3 | 🇫🇷 | 23.6B | 42.9 | 275.8 | 0.16 |
| Teuken 7B(F16) | 🇪🇺 | 7.5B | 42.3 | 280.2 | 0.15 |
| Qwen3.6 27B | 🇨🇳 | 27.8B | 33.5 | 285.6 | 0.12 |
| Gemma 3 27B | 🇺🇸 | 27.4B | 33.0 | 283.6 | 0.12 |
| DeepSeek-R1 32B | 🇨🇳 | 32.8B | 30.4 | 291.8 | 0.10 |
- Falcon3 7B が最速・最効率(117 tok/s・0.47 tok/s/W)。小型の強みがそのまま出ます。
- Mixtral は46.7BのMoEですが、実行時のアクティブが一部なので78.9 tok/sと軽量級並み。MoEの効きです。
- 27〜32Bの密モデル(Qwen3.6 / Gemma3 / DeepSeek-R1)は 約30〜33 tok/s で横並び。サイズなりに重い。
- 機材×モデルの全実測は検証DB、手元の構成で動くかは動くか診断で確認できます。
3. 日本語エージェント能力(ファンクションコール)— ここで明暗が割れる
「日本語で正しくツールを呼べるか」を bench_tools.py(日本語6タスク×3回・温度0.7・ollama tools API)で実測しました。これは当サイトの日本語ファンクションコール検証と同じ手法です。
| モデル | 日本語FC正答率 | 失敗の型 |
|---|---|---|
| Qwen3.6 27B 🇨🇳 | 1.00(18/18) | 完璧 |
| Mistral Small 3 🇫🇷 | 0.78 | no_call×4 |
| Mistral Nemo 🇫🇷 | 0.56 | no_call×8 |
| DeepSeek-R1 32B 🇨🇳 | 0.17 | no_call×15 |
| Gemma3 27B 🇺🇸 / Mixtral 🇫🇷 / Falcon3 🇦🇪 / Teuken 🇪🇺 | 0.00 | ツール非対応(error×18) |
4つの発見:
- 日本語エージェントは Qwen系が圧勝(qwen3.6=1.00 完璧)。当サイトの従来結論「日本語ツール運用はQwen系一択」を、最新Qwenでも再確認しました。
- Mistral系(Small/Nemo)は部分的。失敗はすべて
no_call(日本語だとツールを呼ばず素で返す)で、引数の破損ではありません。 - 推論特化の DeepSeek-R1 は
no_callが15/18。「推論が強い」と「エージェントが使える」は別物で、R1は呼ぶべき場面でも考え込んで呼びません(単発の難問QA向き)。 - Gemma3 / Mixtral / Falcon3 / Teuken は ollama でツール呼び出し非対応(
does not support tools)。日本語以前に、エージェント/ツール運用がそもそもできません。
速度・効率と日本語エージェント能力は完全に別軸です。Falcon3は最速最効率なのに日本語ツールは非対応、Qwen3.6は速度中庸でも日本語FCは満点。「日本語でエージェントを動かす」が目的なら、速度ランキングではなくこの表で選ぶべきです。
4. 得意分野マップ(評判×実測)
研究・ベンチの評判(根拠: Kairntech 2026 / Codersera)と、上の自前実測を重ねると——
| 用途 | 強い出身/モデル | 補足 |
|---|---|---|
| 日本語エージェント・ツール運用 | Qwen系(中) | 実測FC=1.00。一択 |
| コーディング | Qwen-Coder / DeepSeek / Codestral(仏) | — |
| 推論・難問 | DeepSeek-R1 / Phi-4 | ※R1はツールを呼ばない=単発QA向き |
| 欧州多言語・データ主権 | Mistral(仏) / Teuken・EuroLLM(EU) | EU24言語 |
| 速度・電力効率(A6000実測) | Falcon3(UAE) > Mistral Nemo > Mixtral(MoE) | 小型・MoEが有利 |
5. A6000で「動くか」— VRAM / RAM / 量子化(128GB RAMの効き)
どれが動くかは、3つの壁で決まります。
- VRAM(48GB)=速度の壁: 収まればGPU常駐で高速。今回の8モデルは全てQ4で≤26GB→全部GPU常駐=上の速度。
- 量子化=VRAMに収める手段: 例えば密の70BはQ4(42GB)でも48GBに対しKVキャッシュ+オーバーヘッドで溢れ、CPUオフロードで約2.17 tok/s=実用外になります(巨大モデル記事で詳述)。F16ともなれば27Bでも54GBで載りません。大型は量子化が必須。
- RAM=“そもそも動くか”の壁(あなたの128GB RAMの効き): VRAMを超えた分はシステムRAMへオフロードされ、PCIe帯域の崖で5〜30倍に減速しますが「動く」ことは動きます(根拠: offload deep-dive)。載る上限は VRAM48+RAM128=約176GB相当まで広がり、32GB機なら起動不能な大型も、128GBなら遅いが動く。とくにMoEはオフロード耐性が高い(毎回アクティブな一部だけ計算するため)ので、128GB+A6000なら大型MoEを実用域で動かせる事例があります(根拠: Qwen3-235B 部分オフロード)。
手元の機材×モデルで載るか・速度の目安は動くか診断、量子化の選び方は量子化はどれを選ぶをどうぞ。
6. 結論 — 用途で選ぶ
- 日本語でエージェント/ツールを動かす: Qwen系(qwen3.6)一択(日本語FC=1.00)。これが今回いちばん明確な結論。
- 速度・電力効率の汎用チャット: Falcon3 7B(最効率) / Mistral Nemo / Mixtral(MoE)。日本語の素の応答は使えますが、ツール運用は不可。
- 推論・難問の単発QA: DeepSeek-R1(ただしツールは呼ばないのでエージェントには使わない)。
- 欧州データ主権・EU多言語: Mistral(仏・Apache)/ Teuken・EuroLLM(EU24言語)。
- 手元の48GB超の大型を“とりあえず動かす”: 128GB RAMのオフロードが効く。MoEを選ぶとオフロード下でも実用に近い。
「中国モデルが多いから不安」という出発点に対しては——汎用・効率なら欧州(Mistral/Falcon)も十分戦える。ただし日本語エージェント能力に限ればQwen系が頭一つ抜けている、というのが自前実測の答えです。数値の全文は検証DB(CC BY 4.0)で公開しています。