巨大モデルをローカルで動かす【Kimi K2.7級・大規模AIの現実】

「Kimi K2.7級の巨大モデルを、自分の機材で動かせるのか？」——ローカルAIに本気で取り組むと必ずぶつかる問いです。フルサイズはほぼ無理、しかし“賢さの大半”は工夫で手元に降ろせる。その境界を、誇張なしの数字で見ていきます。

そもそも「巨大モデル」とは

2026年に公開されたKimi K2.7は、総パラメータ1兆（1T）／アクティブ32BのMoE（混合エキスパート）モデルです。384個のエキスパートから毎回8個だけを使う構造で、INT4ネイティブ量子化に対応し、ライセンスはModified MIT（自己ホスト可）。

ポイントは「総サイズ」と「実行時に使う量」が違うこと。1Tでも生成時に動くのは32B分だけ——だから“賢いのに比較的速い”わけですが、重み全体はメモリに載せる必要があるため、VRAMの壁は依然として厳しいままです。

ハードウェアの現実（VRAMで決まる）

ローカルでモデルが動くかは、ほぼVRAM容量で決まります。モデル級ごとの目安がこちら（4bit量子化前提）。

モデル級	代表例	必要VRAM目安	動く環境	現実的な速度感
〜14B	Qwen3.5 14B 等	約8〜10GB	24GB GPUの家庭PC	快適
27〜35B（MoE）	Qwen3.6 35B / Gemma4 26B	約18〜24GB	ハイエンド家庭〜WS	実用（後述の実測）
70B級	Llama系 70B	約38〜48GB（量子化）	WS／GPU2枚	中速
100B+（MoE）	GLM系	約64GB〜	マルチGPU	要サーバー
1T級	Kimi K2.7	約630GB（フルINT4）	8×H100クラス	専用サーバー

70B級・100B+の数値は各種ハードウェアガイドの目安です。根拠: Spheron GPU要件ほか。

家庭・ワークステーションの“射程”を図にすると、こうなります（1T級は桁が違うため枠外）。

必要VRAM目安（GB・4bit量子化・経験則）

〜14B〜10
27〜35B（MoE）〜24
70B級〜48

1T級（Kimi K2.7）はフルINT4で約630GB＝8×H100クラス。家庭・WSの現実的な射程は70B級まで。要検証。

つまり、1兆パラメータをフル品質で動かすのはデータセンター級（8×H100など）の世界。家庭やワークステーションの射程は、現実的には70B級まで、快適に使うなら35B級（MoE）までが目安です。

自宅GPUの実用上限：35B MoEは“実用速度”で動く

当サイトのRTX A6000（48GB）での実測では、Qwen3.6 35B（A3B＝アクティブ3B）が約122 tok/s。35Bの大型なのに、4B密モデルとほぼ同じ速さで動きます。これがMoEの効きで、メモリさえ足りれば「大きいのに速い」が成立します。

モデル	種別	A6000 実測	体感
LFM2.5 8B（A1B）	MoE	約284 tok/s	圧倒的に速い
Qwen3.5 4B	密	約124 tok/s	一瞬
Qwen3.6 35B（A3B）	MoE	約122 tok/s	35Bなのに4B並み
Gemma4 26B（A4B）	MoE	約100 tok/s	実用十分

根拠: A6000の検証データ（自前実測）。

生成速度 tok/s（RTX A6000・自前実測）

LFM2.5 8B（A1B・MoE）284
Qwen3.5 4B（密）124
Qwen3.6 35B（A3B・MoE）122
Gemma4 26B（A4B・MoE）100

35BのMoEが4B密モデルとほぼ同速（青の2本がほぼ同長）。メモリに載れば「大きいのに速い」。

「巨大モデル＝必ず遅い／家では無理」は誤解で、MoEと48GB級VRAMがあれば、35Bクラスは日常使いできる——これが2026年の現実的な到達点です。

量子化の魔法：1Tモデルを24GBに“押し込む”

どうしても1T級を手元で試したい場合、Unslothなどの動的量子化（1.8bit級）を使うと、MoE層をシステムRAMやSSDへ退避させることで、24GB GPU＋大容量RAM（256GB級）で動くことは動きます。ただし速度は約1〜2 tok/s——“動く”だけで実用とは言い難い水準です（根拠: Unsloth Docs ほか）。

量子化はサイズを劇的に削れますが、強くするほど品質と速度が犠牲になります。実用を狙うなら「フル品質の巨大モデルを無理に押し込む」より、「メモリに収まる範囲で最良のMoEを選ぶ」ほうが、ほぼ常に正解です。

実機で「壁」を確かめた（Mac mini M4 16GB）

机上の計算だけでなく、メモリ16GBのMac mini M4で“載らない大型モデル”を実際に走らせ、壁を確認しました（自前実測）。

モデル	サイズ目安	実機の挙動	生成速度
gemma4 26B	約18GB	GPUに載りきらずCPU/GPU分割＋スワップ約7GB	約1.6 tok/s
qwen3.6 35B（MoE）	約23GB	同上＋スワップ約11.6GB	約2.9 tok/s

比較用に、同じMac mini M4で収まるモデルは Qwen3.5 4B＝約29 tok/s（実測）。上の大型2件は計測プロトコル外の実機確認で、スワップ下のため値は不安定になりがちです。

どちらも「起動はするが、搭載メモリを超えた分をSSDへスワップ」するため、4Bの約10〜18分の1まで速度が落ちます。つまり大型モデルは“動く／動かない”の二択ではなく、“実用になるか”で落ちる。動くか診断でもメモリに収まらない組み合わせは×（厳しい）と判定されます——上の実測はその裏取りです。搭載メモリに収まる範囲で最良のモデル（できればMoE）を選ぶのが、ほぼ常に正解です。

結論：家庭・WSの“賢さの上限”をどう取るか

数人〜個人の実用: 24GB GPUで〜14B、ハイエンドで27〜35B（MoE）。ここが快適ゾーン。
もう一段上: 48GB級（A6000等）なら35B MoEが実用速度。実測あり。
70B〜1T級: マルチGPUのサーバーが前提。家庭では“検証”止まり。
巨大モデルを業務で常用したい: 自前サーバーを組むか、用途を絞ってクラウドと併用するのが現実解。

巨大モデルをチームや会社で共有して使う構成は、会社にローカルAIを設置して社員で共有する方法で具体的に解説しています。どの機材でどのモデルがどれだけ出るかは、検証DBで実測を確認できます。