Kimi K2.7級の巨大モデルを、自分の機材で動かせるのか?」——ローカルAIに本気で取り組むと必ずぶつかる問いです。結論から言うと、フルサイズはほぼ無理、しかし“賢さの大半”は工夫で手元に降ろせる。その境界を、誇張なしの数字で見ていきます。

そもそも「巨大モデル」とは

2026年に公開されたKimi K2.7は、総パラメータ1兆(1T)/アクティブ32BのMoE(混合エキスパート)モデルです。384個のエキスパートから毎回8個だけを使う構造で、INT4ネイティブ量子化に対応し、ライセンスはModified MIT(自己ホスト可)。

ポイントは**「総サイズ」と「実行時に使う量」が違う**こと。1Tでも生成時に動くのは32B分だけ——だから“賢いのに比較的速い”わけですが、重み全体はメモリに載せる必要があるため、VRAMの壁は依然として厳しいままです。

ハードウェアの現実(VRAMで決まる)

ローカルでモデルが動くかは、ほぼVRAM容量で決まります。モデル級ごとの目安がこちら(4bit量子化前提・経験則・要検証)。

モデル級代表例必要VRAM目安動く環境現実的な速度感
〜14BQwen3.5 14B 等約8〜10GB24GB GPUの家庭PC快適
27〜35B(MoE)Qwen3.6 35B / Gemma4 26B約18〜24GBハイエンド家庭〜WS実用(後述の実測)
70B級Llama系 70B約38〜48GB(量子化)WS/GPU2枚中速
100B+(MoE)GLM系約64GB〜マルチGPU要サーバー
1T級Kimi K2.7約630GB(フルINT4)8×H100クラス専用サーバー

70B級・100B+の数値は各種ハードウェアガイドの目安です。根拠: Spheron GPU要件 ほか(要検証)。

つまり、1兆パラメータをフル品質で動かすのはデータセンター級(8×H100など)の世界。家庭やワークステーションの射程は、現実的には70B級まで、快適に使うなら35B級(MoE)までが目安です。

自宅GPUの実用上限:35B MoEは“実用速度”で動く

当サイトのRTX A6000(48GB)での実測では、Qwen3.6 35B(A3B=アクティブ3B)が約122 tok/s。35Bの大型なのに、4B密モデルとほぼ同じ速さで動きます。これがMoEの効きで、メモリさえ足りれば「大きいのに速い」が成立します。

モデル種別A6000 実測体感
LFM2.5 8B(A1B)MoE約284 tok/s圧倒的に速い
Qwen3.5 4B約124 tok/s一瞬
Qwen3.6 35B(A3B)MoE約122 tok/s35Bなのに4B並み
Gemma4 26B(A4B)MoE約100 tok/s実用十分

根拠: A6000の検証データ(自前実測)。

「巨大モデル=必ず遅い/家では無理」は誤解で、MoEと48GB級VRAMがあれば、35Bクラスは日常使いできる——これが2026年の現実的な到達点です。

量子化の魔法:1Tモデルを24GBに“押し込む”

どうしても1T級を手元で試したい場合、Unslothなどの動的量子化(1.8bit級)を使うと、MoE層をシステムRAMやSSDへ退避させることで、24GB GPU+大容量RAM(256GB級)で動くことは動きます。ただし速度は約1〜2 tok/s——“動く”だけで実用とは言い難い水準です(根拠: Unsloth Docs ほか)。

量子化はサイズを劇的に削れますが、強くするほど品質と速度が犠牲になります。実用を狙うなら「フル品質の巨大モデルを無理に押し込む」より、「メモリに収まる範囲で最良のMoEを選ぶ」ほうが、ほぼ常に正解です。

結論:家庭・WSの“賢さの上限”をどう取るか

  • 数人〜個人の実用: 24GB GPUで〜14B、ハイエンドで27〜35B(MoE)。ここが快適ゾーン。
  • もう一段上: 48GB級(A6000等)なら35B MoEが実用速度。実測あり。
  • 70B〜1T級: マルチGPUのサーバーが前提。家庭では“検証”止まり。
  • 巨大モデルを業務で常用したい: 自前サーバーを組むか、用途を絞ってクラウドと併用するのが現実解。

巨大モデルをチームや会社で共有して使う構成は、会社にローカルAIを設置して社員で共有する方法で具体的に解説しています。どの機材でどのモデルがどれだけ出るかは、検証DBで実測を確認できます。