GLM-5.2がオープンウェイトで公開された——では、これを自分の機材で動かせるのか?」

2026年6月17日、中国のZ.ai(旧Zhipu AI)が新しいコーディング特化モデル GLM-5.2 を公開しました。総パラメータ753B(7,530億)・コンテキスト100万トークン・ライセンスはMITという“フロンティア級なのに完全オープン”なモデルで、コーディング系ベンチマークでは最上位級モデルを上回ったと報じられています(根拠: GIGAZINE)。

結論から言うと、フルサイズをローカルで動かすには“メモリ400GB超”が必要で、一般的な自宅PCの射程外。現実的に載るのは512GB級のMac StudioかマルチGPUサーバーだけで、多くの人にとっては当面クラウド/API利用が現実解です。ただし“オープンウェイトである”ことの意味は別にあります(後述)。

GLM-5.2とは(2026年6月の最新ニュース)

  • 公開: 2026年6月17日 / Z.ai(根拠: GIGAZINE
  • 規模: 総パラメータ 753B。MoE(混合エキスパート)構成で、実行時のアクティブは約40Bと報じられています(根拠: VentureBeat
  • 文脈長: 100万トークン
  • ライセンス: MIT(商用可・自己ホスト可。根拠: Hugging Face モデルカード / GIGAZINE)→ ローカル運用の前提はクリア
  • 配布: Hugging Face zai-org/GLM-5.2
  • 用途: コーディング/エージェント。ZCode・Claude Code・OpenCode 等からも利用可

ポイントは、MoEは“実行時に使う量(約40B)”は少なくても、重み全体(753B)はメモリに載せる必要があること。だから「賢いのに比較的速い」一方で、メモリの壁は総パラメータ数で決まります

必要メモリの試算(量子化別)

総753Bを量子化レベル別に試算した目安が次の通りです(GGUF想定・実際は別途+数%のオーバーヘッド・経験則/要検証。当サイト巨大モデルをローカルで動かすと同じ概算法)。

量子化ビット相当必要メモリ目安一言
BF16(無圧縮)16bit約1.5TB非現実的
Q8_0約8bit約800GBサーバーでも重い
Q4(INT4)約4〜5bit約450〜480GB実用的な最小ライン
Q3約3bit約360GB品質低下と引き換え
Q2約2bit約250GBかなり攻めた圧縮

コンテキスト分のKVキャッシュは上記とは別途必要です。100万トークンの文脈をフルに使うとさらに大きく増えるため、ローカルでは文脈長を絞る前提になります(経験則/要検証)。

どの機材なら載るか

量子化してもQ4で約450GB、最も攻めたQ2でも約250GB。これを手持ちの機材に当てると——

機材級メモリGLM-5.2(Q4≒450GB目安)判定
家庭GPU(RTX 4090 / 509024〜32GB桁違いに足りない
RTX A600048GB1/9も載らない
128GBユニファイド(DGX Spark / Ryzen AI Max 395)128GBQ2でも届かない
RTX PRO 600096GB単体不可・5〜6枚で射程△(マルチGPU)
Mac Studio M3 Ultra512GBQ4がぎりぎり / Q3が現実的△(速度は要検証)
H100 80GB ×8(データセンター級)640GBQ4を快適に○(業務・数百万円〜)

速度の目安: Mac Studio(メモリ帯域 約800GB/s)でアクティブ40BのMoEなら、体感は推測で 10〜20 tok/s 前後(要検証・当サイト未計測)。マルチH100ならさらに速い一方、家庭の24〜48GB GPUは“載らない”ため速度以前の問題です。

つまり、GLM-5.2フルサイズの射程は「512GB Mac Studio」か「マルチGPUサーバー」。一般的な自宅PC(24〜48GB)では、量子化をどれだけ攻めても載りません。手元の構成で何が動くかは動くか診断で確認できます(GLM-5.2級の巨大モデルは“×”判定になります——その裏取りが上の試算です)。

現実解:載らない巨大モデルより「収まる最良のMoE」

これは1兆パラメータ級モデルのときと同じ結論です。“フル品質の巨大モデルを無理に押し込む”より、“メモリに収まる範囲で最良のMoEを選ぶ”ほうが、ほぼ常に正解。当サイトのA6000実測では、35B級のMoEが約122 tok/sの実用速度に達しています。日常のコーディング補助なら、まずはこのクラスで十分戦えます(量子化の選び方は量子化はどれを選ぶを参照)。

では、GLM-5.2のオープンウェイト公開に意味はないのか——そんなことはありません。

  • 将来“降りてくる”前提: 蒸留版・小型版・動的量子化が出れば、家庭の射程に入る可能性があります(経験則/要検証)。
  • データ主権: MITで自己ホストできるため、コードや社内データを外部APIに出さずに使えます。会社で共有する構成は社内AIサーバーの作り方が参考になります。
  • API/クラウド併用: 今すぐ753Bの賢さが必要なら、ローカルに固執せずクラウドと併用するのが現実的です。

まとめ

  • GLM-5.2は総753B・MIT・100万文脈のオープンなコーディングモデル(2026年6月17日公開/根拠: GIGAZINE)。
  • ローカルでフルに動かすにはQ4で約450GB、Q2でも約250GBのメモリが必要。
  • 射程は512GB Mac StudioマルチGPUサーバー自宅の24〜48GB GPUでは載らない
  • 多くの人の現実解は**「収まる範囲で最良のMoE」+必要に応じてクラウド併用**。
  • 何が動くかは動くか診断、実測値は検証DBで確認できます。