「Kimi K2.7級の巨大モデルを、自分の機材で動かせるのか?」——ローカルAIに本気で取り組むと必ずぶつかる問いです。結論から言うと、フルサイズはほぼ無理、しかし“賢さの大半”は工夫で手元に降ろせる。その境界を、誇張なしの数字で見ていきます。
そもそも「巨大モデル」とは
2026年に公開されたKimi K2.7は、総パラメータ1兆(1T)/アクティブ32BのMoE(混合エキスパート)モデルです。384個のエキスパートから毎回8個だけを使う構造で、INT4ネイティブ量子化に対応し、ライセンスはModified MIT(自己ホスト可)。
ポイントは**「総サイズ」と「実行時に使う量」が違う**こと。1Tでも生成時に動くのは32B分だけ——だから“賢いのに比較的速い”わけですが、重み全体はメモリに載せる必要があるため、VRAMの壁は依然として厳しいままです。
ハードウェアの現実(VRAMで決まる)
ローカルでモデルが動くかは、ほぼVRAM容量で決まります。モデル級ごとの目安がこちら(4bit量子化前提・経験則・要検証)。
| モデル級 | 代表例 | 必要VRAM目安 | 動く環境 | 現実的な速度感 |
|---|---|---|---|---|
| 〜14B | Qwen3.5 14B 等 | 約8〜10GB | 24GB GPUの家庭PC | 快適 |
| 27〜35B(MoE) | Qwen3.6 35B / Gemma4 26B | 約18〜24GB | ハイエンド家庭〜WS | 実用(後述の実測) |
| 70B級 | Llama系 70B | 約38〜48GB(量子化) | WS/GPU2枚 | 中速 |
| 100B+(MoE) | GLM系 | 約64GB〜 | マルチGPU | 要サーバー |
| 1T級 | Kimi K2.7 | 約630GB(フルINT4) | 8×H100クラス | 専用サーバー |
70B級・100B+の数値は各種ハードウェアガイドの目安です。根拠: Spheron GPU要件 ほか(要検証)。
つまり、1兆パラメータをフル品質で動かすのはデータセンター級(8×H100など)の世界。家庭やワークステーションの射程は、現実的には70B級まで、快適に使うなら35B級(MoE)までが目安です。
自宅GPUの実用上限:35B MoEは“実用速度”で動く
当サイトのRTX A6000(48GB)での実測では、Qwen3.6 35B(A3B=アクティブ3B)が約122 tok/s。35Bの大型なのに、4B密モデルとほぼ同じ速さで動きます。これがMoEの効きで、メモリさえ足りれば「大きいのに速い」が成立します。
| モデル | 種別 | A6000 実測 | 体感 |
|---|---|---|---|
| LFM2.5 8B(A1B) | MoE | 約284 tok/s | 圧倒的に速い |
| Qwen3.5 4B | 密 | 約124 tok/s | 一瞬 |
| Qwen3.6 35B(A3B) | MoE | 約122 tok/s | 35Bなのに4B並み |
| Gemma4 26B(A4B) | MoE | 約100 tok/s | 実用十分 |
根拠: A6000の検証データ(自前実測)。
「巨大モデル=必ず遅い/家では無理」は誤解で、MoEと48GB級VRAMがあれば、35Bクラスは日常使いできる——これが2026年の現実的な到達点です。
量子化の魔法:1Tモデルを24GBに“押し込む”
どうしても1T級を手元で試したい場合、Unslothなどの動的量子化(1.8bit級)を使うと、MoE層をシステムRAMやSSDへ退避させることで、24GB GPU+大容量RAM(256GB級)で動くことは動きます。ただし速度は約1〜2 tok/s——“動く”だけで実用とは言い難い水準です(根拠: Unsloth Docs ほか)。
量子化はサイズを劇的に削れますが、強くするほど品質と速度が犠牲になります。実用を狙うなら「フル品質の巨大モデルを無理に押し込む」より、「メモリに収まる範囲で最良のMoEを選ぶ」ほうが、ほぼ常に正解です。
結論:家庭・WSの“賢さの上限”をどう取るか
- 数人〜個人の実用: 24GB GPUで〜14B、ハイエンドで27〜35B(MoE)。ここが快適ゾーン。
- もう一段上: 48GB級(A6000等)なら35B MoEが実用速度。実測あり。
- 70B〜1T級: マルチGPUのサーバーが前提。家庭では“検証”止まり。
- 巨大モデルを業務で常用したい: 自前サーバーを組むか、用途を絞ってクラウドと併用するのが現実解。
巨大モデルをチームや会社で共有して使う構成は、会社にローカルAIを設置して社員で共有する方法で具体的に解説しています。どの機材でどのモデルがどれだけ出るかは、検証DBで実測を確認できます。