「ローカルLLMを自宅GPUで動かしたい。RTX 4090と5090、どっちを買えばいい?」——この判断は、結局VRAM(GPUメモリ)でどのサイズのモデルが載るかでほぼ決まります。本記事は人気GPU3枚を、メモリの理論値と当サイトのA6000実測で整理します。

注記: 本記事のうちRTX 4090・RTX 5090は当サイト未計測で、VRAM・帯域はメーカー公称(理論値)です。RTX A6000のみ自前実測があります(検証DB)。未計測機材の速度推定は動くか診断で各自ご確認ください(実機ではこれを下回るのが普通)。

VRAMで「載るモデル」が決まる

ローカルLLMは、量子化したモデルがVRAMに載るかが第一条件。Q4_K_M(4bit)ならおおよそ パラメータ数 × 0.7GBが目安です(コンテキスト分の余裕は別途・経験則/要検証)。

GPUVRAMQ4で載るモデル目安帯域(公称)当サイト計測
RTX 409024GB〜30B級1008 GB/s未計測(理論値)
RTX 509032GB〜40B級1792 GB/s未計測(理論値)
RTX A600048GB〜65B級768 GB/s実測あり

メモリ帯域はdecode(生成)速度に効きます。A6000は容量が大きい一方、帯域はゲーミング上位(4090/5090)より低め。「大きいモデルが載る」A6000と「速い」5090は得意が違います(速度の直接比較は4090/5090が未計測のため断定しません・要検証)。

用途別の選び方

  • コスパ重視・〜30B中心: RTX 4090(24GB)。中量級まで十分で、最も入手しやすい。
  • 速度と将来性: RTX 5090(32GB)。帯域が太く、32GBでより大きなモデルも狙える。
  • 大きいモデル/長文脈/業務: RTX A6000(48GB)。35B級MoEも余裕で、A6000実測では35BのMoEが約122 tok/s出ています。

実際に手元の構成で動くか・どのくらいの速度かは、動くか診断で機材とモデルを選んで確認できます(4090・5090も理論値推定で選べます)。

機材を入手する

価格・在庫はリンク先で変動します。用途に合うVRAM帯を上の表で決めてから選んでください。

まとめ

  • 自宅GPUのローカルAIはVRAMで載るモデルが決まる
  • 4090(24GB)=コスパ、5090(32GB)=速度、A6000(48GB)=容量、と得意が違う。
  • 4090/5090は当サイト未計測(理論値)。A6000は実測あり。
  • 載るか・速度は動くか診断で確認を。

会社で共有するなら社内AIサーバーの作り方、量子化の選び方は量子化はどれを選ぶも参考になります。