「ローカルLLM=中国勢(Qwen・DeepSeek)」がほぼ定着しつつあります。確かに性能上位は中国製が占めますが、出身国・得意分野・手元のハードで動くか・日本語能力まで見ると、選択肢はもっと豊かで、得手不得手もくっきり分かれます。

本記事は 欧州(Mistral=仏 / Teuken=EU)・UAE(Falcon)・米(Gemma)・中国(Qwen・DeepSeek)の代表8モデルを、当サイトの RTX A6000(48GB)で自前実測し、速度・電力・日本語ファンクションコール能力まで横断比較します。結論から言うと——「速い/省電力」と「日本語エージェントが使える」は完全に別の軸でした。

1. 出身国マップ — 中国一強ではない

出身代表モデル特徴
🇨🇳 中国Qwen(Alibaba) / DeepSeek性能上位・多言語・コーディング
🇫🇷 仏 MistralMistral Small 3 / Nemo / Mixtral / Codestral効率・欧州多言語・データ主権。Apache中心
🇪🇺 EU連合Teuken(独) / EuroLLM / Salamandra(西)EU24言語の多言語特化
🇦🇪 UAE(TII)Falcon3科学・数学・コード・省サイズ
🇺🇸 米Gemma(Google) / Phi(MS) / Llama(Meta) / Granite(IBM)汎用・推論・enterprise
🇨🇦 加 CohereCommand-R / AyaRAG・ツール・多言語(Aya=101言語)

根拠: Mistral 2026ガイド / Teuken-7B / Falcon3

2. A6000実測スピード(全Q4相当・GPU常駐)

すべて48GBのVRAMに収まり、GPU常駐で計測しました(当サイト実測・2回平均・num_predict=256)。

モデル出身paramstok/s電力Wtok/s/W
Falcon3 7B🇦🇪7.5B117.4250.30.47
Mistral Nemo🇫🇷12.2B81.4265.30.31
Mixtral 8x7B(MoE)🇫🇷46.7B78.9269.50.29
Mistral Small 3🇫🇷23.6B42.9275.80.16
Teuken 7B(F16)🇪🇺7.5B42.3280.20.15
Qwen3.6 27B🇨🇳27.8B33.5285.60.12
Gemma 3 27B🇺🇸27.4B33.0283.60.12
DeepSeek-R1 32B🇨🇳32.8B30.4291.80.10
  • Falcon3 7B が最速・最効率(117 tok/s・0.47 tok/s/W)。小型の強みがそのまま出ます。
  • Mixtral は46.7BのMoEですが、実行時のアクティブが一部なので78.9 tok/sと軽量級並み。MoEの効きです。
  • 27〜32Bの密モデル(Qwen3.6 / Gemma3 / DeepSeek-R1)は 約30〜33 tok/s で横並び。サイズなりに重い。
  • 機材×モデルの全実測は検証DB、手元の構成で動くかは動くか診断で確認できます。

3. 日本語エージェント能力(ファンクションコール)— ここで明暗が割れる

「日本語で正しくツールを呼べるか」を bench_tools.py(日本語6タスク×3回・温度0.7・ollama tools API)で実測しました。これは当サイトの日本語ファンクションコール検証と同じ手法です。

モデル日本語FC正答率失敗の型
Qwen3.6 27B 🇨🇳1.00(18/18)完璧
Mistral Small 3 🇫🇷0.78no_call×4
Mistral Nemo 🇫🇷0.56no_call×8
DeepSeek-R1 32B 🇨🇳0.17no_call×15
Gemma3 27B 🇺🇸 / Mixtral 🇫🇷 / Falcon3 🇦🇪 / Teuken 🇪🇺0.00ツール非対応(error×18)

4つの発見:

  1. 日本語エージェントは Qwen系が圧勝(qwen3.6=1.00 完璧)。当サイトの従来結論「日本語ツール運用はQwen系一択」を、最新Qwenでも再確認しました。
  2. Mistral系(Small/Nemo)は部分的。失敗はすべて no_call(日本語だとツールを呼ばず素で返す)で、引数の破損ではありません。
  3. 推論特化の DeepSeek-R1 は no_call が15/18「推論が強い」と「エージェントが使える」は別物で、R1は呼ぶべき場面でも考え込んで呼びません(単発の難問QA向き)。
  4. Gemma3 / Mixtral / Falcon3 / Teuken は ollama でツール呼び出し非対応does not support tools)。日本語以前に、エージェント/ツール運用がそもそもできません

速度・効率と日本語エージェント能力は完全に別軸です。Falcon3は最速最効率なのに日本語ツールは非対応、Qwen3.6は速度中庸でも日本語FCは満点。「日本語でエージェントを動かす」が目的なら、速度ランキングではなくこの表で選ぶべきです。

4. 得意分野マップ(評判×実測)

研究・ベンチの評判(根拠: Kairntech 2026 / Codersera)と、上の自前実測を重ねると——

用途強い出身/モデル補足
日本語エージェント・ツール運用Qwen系(中)実測FC=1.00。一択
コーディングQwen-Coder / DeepSeek / Codestral(仏)
推論・難問DeepSeek-R1 / Phi-4※R1はツールを呼ばない=単発QA向き
欧州多言語・データ主権Mistral(仏) / Teuken・EuroLLM(EU)EU24言語
速度・電力効率(A6000実測)Falcon3(UAE) > Mistral Nemo > Mixtral(MoE)小型・MoEが有利

5. A6000で「動くか」— VRAM / RAM / 量子化(128GB RAMの効き)

どれが動くかは、3つの壁で決まります。

  • VRAM(48GB)=速度の壁: 収まればGPU常駐で高速。今回の8モデルは全てQ4で≤26GB→全部GPU常駐=上の速度。
  • 量子化=VRAMに収める手段: 例えば密の70BはQ4(42GB)でも48GBに対しKVキャッシュ+オーバーヘッドで溢れ、CPUオフロードで約2.17 tok/s=実用外になります(巨大モデル記事で詳述)。F16ともなれば27Bでも54GBで載りません。大型は量子化が必須
  • RAM=“そもそも動くか”の壁(あなたの128GB RAMの効き): VRAMを超えた分はシステムRAMへオフロードされ、PCIe帯域の崖で5〜30倍に減速しますが「動く」ことは動きます(根拠: offload deep-dive)。載る上限は VRAM48+RAM128=約176GB相当まで広がり、32GB機なら起動不能な大型も、128GBなら遅いが動く。とくにMoEはオフロード耐性が高い(毎回アクティブな一部だけ計算するため)ので、128GB+A6000なら大型MoEを実用域で動かせる事例があります(根拠: Qwen3-235B 部分オフロード)。

手元の機材×モデルで載るか・速度の目安は動くか診断、量子化の選び方は量子化はどれを選ぶをどうぞ。

6. 結論 — 用途で選ぶ

  • 日本語でエージェント/ツールを動かす: Qwen系(qwen3.6)一択(日本語FC=1.00)。これが今回いちばん明確な結論。
  • 速度・電力効率の汎用チャット: Falcon3 7B(最効率) / Mistral Nemo / Mixtral(MoE)。日本語の素の応答は使えますが、ツール運用は不可。
  • 推論・難問の単発QA: DeepSeek-R1(ただしツールは呼ばないのでエージェントには使わない)。
  • 欧州データ主権・EU多言語: Mistral(仏・Apache)/ Teuken・EuroLLM(EU24言語)。
  • 手元の48GB超の大型を“とりあえず動かす”: 128GB RAMのオフロードが効く。MoEを選ぶとオフロード下でも実用に近い。

「中国モデルが多いから不安」という出発点に対しては——汎用・効率なら欧州(Mistral/Falcon)も十分戦える。ただし日本語エージェント能力に限ればQwen系が頭一つ抜けている、というのが自前実測の答えです。数値の全文は検証DB(CC BY 4.0)で公開しています。