GLM-5.2はローカルで動くか：必要スペックを試算【最新ニュース】

「GLM-5.2がオープンウェイトで公開された——では、これを自分の機材で動かせるのか？」

2026年6月17日、中国のZ.ai（旧Zhipu AI）が新しいコーディング特化モデル GLM-5.2 を公開しました。総パラメータ753B（7,530億）・コンテキスト100万トークン・ライセンスはMITという“フロンティア級なのに完全オープン”なモデルで、コーディング系ベンチマークでは最上位級モデルを上回ったと報じられています（根拠: GIGAZINE）。

結論から言うと、フルサイズをローカルで動かすには“メモリ400GB超”が必要で、一般的な自宅PCの射程外。現実的に載るのは512GB級のMac StudioかマルチGPUサーバーだけで、多くの人にとっては当面クラウド/API利用が現実解です。ただし“オープンウェイトである”ことの意味は別にあります（後述）。

GLM-5.2とは（2026年6月の最新ニュース）

公開: 2026年6月17日 / Z.ai（根拠: GIGAZINE）
規模: 総パラメータ 753B。MoE（混合エキスパート）構成で、実行時のアクティブは約40Bと報じられています（根拠: VentureBeat）
文脈長: 100万トークン
ライセンス: MIT（商用可・自己ホスト可。根拠: Hugging Face モデルカード / GIGAZINE）→ ローカル運用の前提はクリア
配布: Hugging Face zai-org/GLM-5.2
用途: コーディング/エージェント。ZCode・Claude Code・OpenCode 等からも利用可

ポイントは、MoEは“実行時に使う量（約40B）”は少なくても、重み全体（753B）はメモリに載せる必要があること。だから「賢いのに比較的速い」一方で、メモリの壁は総パラメータ数で決まります。

必要メモリの試算（量子化別）

総753Bを量子化レベル別に試算した目安が次の通りです（GGUF想定・実際は別途+数%のオーバーヘッド・経験則／要検証。当サイト巨大モデルをローカルで動かすと同じ概算法）。

量子化	ビット相当	必要メモリ目安	一言
BF16（無圧縮）	16bit	約1.5TB	非現実的
Q8_0	約8bit	約800GB	サーバーでも重い
Q4（INT4）	約4〜5bit	約450〜480GB	実用的な最小ライン
Q3	約3bit	約360GB	品質低下と引き換え
Q2	約2bit	約250GB	かなり攻めた圧縮

コンテキスト分のKVキャッシュは上記とは別途必要です。100万トークンの文脈をフルに使うとさらに大きく増えるため、ローカルでは文脈長を絞る前提になります（経験則／要検証）。

どの機材なら載るか

量子化してもQ4で約450GB、最も攻めたQ2でも約250GB。これを手持ちの機材に当てると——

機材級	メモリ	GLM-5.2（Q4≒450GB目安）	判定
家庭GPU（RTX 4090 / 5090）	24〜32GB	桁違いに足りない	✕
RTX A6000	48GB	1/9も載らない	✕
128GBユニファイド（DGX Spark / Ryzen AI Max 395）	128GB	Q2でも届かない	✕
RTX PRO 6000	96GB	単体不可・5〜6枚で射程	△（マルチGPU）
Mac Studio M3 Ultra	512GB	Q4がぎりぎり / Q3が現実的	△（速度は要検証）
H100 80GB ×8（データセンター級）	640GB	Q4を快適に	○（業務・数百万円〜）

速度の目安: Mac Studio（メモリ帯域約800GB/s）でアクティブ40BのMoEなら、体感は推測で 10〜20 tok/s 前後（要検証・当サイト未計測）。マルチH100ならさらに速い一方、家庭の24〜48GB GPUは“載らない”ため速度以前の問題です。

つまり、GLM-5.2フルサイズの射程は「512GB Mac Studio」か「マルチGPUサーバー」。一般的な自宅PC（24〜48GB）では、量子化をどれだけ攻めても載りません。手元の構成で何が動くかは動くか診断で確認できます（GLM-5.2級の巨大モデルは“×”判定になります——その裏取りが上の試算です）。

現実解：載らない巨大モデルより「収まる最良のMoE」

これは1兆パラメータ級モデルのときと同じ結論です。“フル品質の巨大モデルを無理に押し込む”より、“メモリに収まる範囲で最良のMoEを選ぶ”ほうが、ほぼ常に正解。当サイトのA6000実測では、35B級のMoEが約122 tok/sの実用速度に達しています。日常のコーディング補助なら、まずはこのクラスで十分戦えます（量子化の選び方は量子化はどれを選ぶを参照）。

では、GLM-5.2のオープンウェイト公開に意味はないのか——そんなことはありません。

将来“降りてくる”前提: 蒸留版・小型版・動的量子化が出れば、家庭の射程に入る可能性があります（経験則／要検証）。
データ主権: MITで自己ホストできるため、コードや社内データを外部APIに出さずに使えます。会社で共有する構成は社内AIサーバーの作り方が参考になります。
API/クラウド併用: 今すぐ753Bの賢さが必要なら、ローカルに固執せずクラウドと併用するのが現実的です。

まとめ

GLM-5.2は総753B・MIT・100万文脈のオープンなコーディングモデル（2026年6月17日公開／根拠: GIGAZINE）。
ローカルでフルに動かすにはQ4で約450GB、Q2でも約250GBのメモリが必要。
射程は512GB Mac StudioかマルチGPUサーバー。自宅の24〜48GB GPUでは載らない。
多くの人の現実解は**「収まる範囲で最良のMoE」＋必要に応じてクラウド併用**。
何が動くかは動くか診断、実測値は検証DBで確認できます。