「GLM-5.2がオープンウェイトで公開された——では、これを自分の機材で動かせるのか?」
2026年6月17日、中国のZ.ai(旧Zhipu AI)が新しいコーディング特化モデル GLM-5.2 を公開しました。総パラメータ753B(7,530億)・コンテキスト100万トークン・ライセンスはMITという“フロンティア級なのに完全オープン”なモデルで、コーディング系ベンチマークでは最上位級モデルを上回ったと報じられています(根拠: GIGAZINE)。
結論から言うと、フルサイズをローカルで動かすには“メモリ400GB超”が必要で、一般的な自宅PCの射程外。現実的に載るのは512GB級のMac StudioかマルチGPUサーバーだけで、多くの人にとっては当面クラウド/API利用が現実解です。ただし“オープンウェイトである”ことの意味は別にあります(後述)。
GLM-5.2とは(2026年6月の最新ニュース)
- 公開: 2026年6月17日 / Z.ai(根拠: GIGAZINE)
- 規模: 総パラメータ 753B。MoE(混合エキスパート)構成で、実行時のアクティブは約40Bと報じられています(根拠: VentureBeat)
- 文脈長: 100万トークン
- ライセンス: MIT(商用可・自己ホスト可。根拠: Hugging Face モデルカード / GIGAZINE)→ ローカル運用の前提はクリア
- 配布: Hugging Face zai-org/GLM-5.2
- 用途: コーディング/エージェント。ZCode・Claude Code・OpenCode 等からも利用可
ポイントは、MoEは“実行時に使う量(約40B)”は少なくても、重み全体(753B)はメモリに載せる必要があること。だから「賢いのに比較的速い」一方で、メモリの壁は総パラメータ数で決まります。
必要メモリの試算(量子化別)
総753Bを量子化レベル別に試算した目安が次の通りです(GGUF想定・実際は別途+数%のオーバーヘッド・経験則/要検証。当サイト巨大モデルをローカルで動かすと同じ概算法)。
| 量子化 | ビット相当 | 必要メモリ目安 | 一言 |
|---|---|---|---|
| BF16(無圧縮) | 16bit | 約1.5TB | 非現実的 |
| Q8_0 | 約8bit | 約800GB | サーバーでも重い |
| Q4(INT4) | 約4〜5bit | 約450〜480GB | 実用的な最小ライン |
| Q3 | 約3bit | 約360GB | 品質低下と引き換え |
| Q2 | 約2bit | 約250GB | かなり攻めた圧縮 |
コンテキスト分のKVキャッシュは上記とは別途必要です。100万トークンの文脈をフルに使うとさらに大きく増えるため、ローカルでは文脈長を絞る前提になります(経験則/要検証)。
どの機材なら載るか
量子化してもQ4で約450GB、最も攻めたQ2でも約250GB。これを手持ちの機材に当てると——
| 機材級 | メモリ | GLM-5.2(Q4≒450GB目安) | 判定 |
|---|---|---|---|
| 家庭GPU(RTX 4090 / 5090) | 24〜32GB | 桁違いに足りない | ✕ |
| RTX A6000 | 48GB | 1/9も載らない | ✕ |
| 128GBユニファイド(DGX Spark / Ryzen AI Max 395) | 128GB | Q2でも届かない | ✕ |
| RTX PRO 6000 | 96GB | 単体不可・5〜6枚で射程 | △(マルチGPU) |
| Mac Studio M3 Ultra | 512GB | Q4がぎりぎり / Q3が現実的 | △(速度は要検証) |
| H100 80GB ×8(データセンター級) | 640GB | Q4を快適に | ○(業務・数百万円〜) |
速度の目安: Mac Studio(メモリ帯域 約800GB/s)でアクティブ40BのMoEなら、体感は推測で 10〜20 tok/s 前後(要検証・当サイト未計測)。マルチH100ならさらに速い一方、家庭の24〜48GB GPUは“載らない”ため速度以前の問題です。
つまり、GLM-5.2フルサイズの射程は「512GB Mac Studio」か「マルチGPUサーバー」。一般的な自宅PC(24〜48GB)では、量子化をどれだけ攻めても載りません。手元の構成で何が動くかは動くか診断で確認できます(GLM-5.2級の巨大モデルは“×”判定になります——その裏取りが上の試算です)。
現実解:載らない巨大モデルより「収まる最良のMoE」
これは1兆パラメータ級モデルのときと同じ結論です。“フル品質の巨大モデルを無理に押し込む”より、“メモリに収まる範囲で最良のMoEを選ぶ”ほうが、ほぼ常に正解。当サイトのA6000実測では、35B級のMoEが約122 tok/sの実用速度に達しています。日常のコーディング補助なら、まずはこのクラスで十分戦えます(量子化の選び方は量子化はどれを選ぶを参照)。
では、GLM-5.2のオープンウェイト公開に意味はないのか——そんなことはありません。
- 将来“降りてくる”前提: 蒸留版・小型版・動的量子化が出れば、家庭の射程に入る可能性があります(経験則/要検証)。
- データ主権: MITで自己ホストできるため、コードや社内データを外部APIに出さずに使えます。会社で共有する構成は社内AIサーバーの作り方が参考になります。
- API/クラウド併用: 今すぐ753Bの賢さが必要なら、ローカルに固執せずクラウドと併用するのが現実的です。