「ローカルAI」とは、ChatGPTのようなAIをクラウドではなく自分の手元の機材で動かすことです。通信は不要で、入力したデータは外部に送られず、回数制限も月額料金もありません。代わりに必要なのは、用途に見合ったメモリ(VRAM/RAM)と処理性能です。

この記事では「ローカルAIで具体的に何ができるのか」を用途別に整理し、それぞれに必要なスペックの目安と、おすすめの機材帯を示します。速度の話には自前機材での実測値を添えます(カタログ値ではありません)。生の数値は検証DBに機材×モデル×量子化で掲載しています。

なぜローカルで動かすのか(4つの理由)

  • プライバシー: 入力が外部サーバーに送られない。社外秘・個人情報・未公開のコードを扱うときに効きます。
  • コスト: 一度環境を作れば、何回使っても追加課金ゼロ。大量処理ほどクラウドAPIとの差が開きます。
  • オフライン: ネットがなくても動く。現場・出張・閉域ネットワークでも使えます。
  • 制限なし: レート制限や「1日◯回まで」がない。バッチ処理や常時稼働の自動化に向きます。

一方で、最新の超巨大モデル(数百B級)と同等の品質をそのまま家庭の機材で出すのは難しい、という現実もあります。ローカルAIは「用途を絞れば十分実用」が正しい期待値です。

用途別にできること(早見表)

用途代表的な使い方メモリ目安(4bit量子化)機材の目安
チャット・文章生成相談・要約・下書き・アイデア出し2〜6GB(2〜7Bモデル)ラズパイ5〜ミニPC〜
コード補助補完・リファクタ・エラー解説5〜10GB(7〜14Bモデル)ゲーミングPC級〜
文書Q&A・RAG手元のPDF/メモを検索して回答4〜8GB+埋め込みモデルミニPC〜
文字起こし会議・動画の音声をテキスト化(Whisper)1〜5GBラズパイ5〜(CPUでも可)
翻訳・要約長文の日英翻訳・議事録要約2〜8GBミニPC〜
画像理解(VLM)写真の説明・図表の読み取り4〜12GBゲーミングPC級〜
画像生成テキストから画像(Stable Diffusion系)6〜16GBRTX搭載PC〜
音声合成(TTS)テキストを自然な音声へ2〜8GBミニPC〜

メモリ目安は4bit量子化(Q4_K_M相当)での経験則です(要検証)。量子化の強さ・コンテキスト長・実装によって増減します。

速度の読み方:「tok/s」はどれくらいで実用か

ローカルAIの速度は tok/s(1秒あたりの生成トークン数) で測ります。日本語ではおおむね1トークン=1〜2文字弱。人が文章を黙読する速度は体感で7〜10 tok/s前後なので、10 tok/sを超えると「読む速度に追いつかれない」=ストレスなく使える、というのが実用上の目安です(経験則・要検証)。

実際、同じ Qwen3.5 4B(Q4_K_M) を3台で計測すると、体感が大きく変わります。

機材生成速度(実測)初回応答 TTFT(実測)体感消費電力
RTX A6000 48GB約124 tok/s約0.3秒出した瞬間に出力が流れ終わる約218W
Jetson Orin Nano Super 8GB約9.3 tok/s約1.3秒黙読の速度と同等。実用的25W級(省電力)
Raspberry Pi 5 8GB約1.7 tok/s約25.7秒待ちが長い。用途を選ぶ10W級

根拠: 当サイトの検証DB(ollama API・2回平均・num_predict=256での自前実測)。

ここで分かるのは、「動くか」と「快適か」は別物だということ。ラズパイ5でも4Bモデルは“動き”ますが、初回応答に25秒かかると対話用途には厳しい。同じラズパイ5でも、より小さい2Bモデルなら初回応答は約4.9秒に縮みます。機材が非力なほど、モデルを小さく選ぶのがコツです。

量子化:品質とサイズのトレードオフ

ローカルで現実的にモデルを動かす鍵が量子化です。モデルの重みを「4bit」などに圧縮してサイズと必要メモリを大幅に削減します。目安として、4bit量子化なら 「パラメータ数(B) × 約0.6〜0.7GB + 余白」 がメモリ消費の概算です(経験則・要検証)。

  • 7Bモデル(Q4)→ おおよそ5〜6GB
  • 14Bモデル(Q4)→ おおよそ9〜10GB
  • 32Bモデル(Q4)→ おおよそ20GB前後

Q4_K_M(4bit)は容量と品質のバランスが良く、最初の選択として定番。品質を最優先したい場面ではQ8_0(8bit)にすると容量はおよそ倍になりますが、劣化はごくわずかです。まずQ4で動かし、不満があればQ8を試すのが堅実です。

MoE:大きいのに速い理由

最近のモデルには MoE(Mixture of Experts/混合エキスパート) が増えています。総パラメータは大きくても、生成時に使う部分(アクティブパラメータ)はその一部だけ、という仕組みです。実測でもこれははっきり出ます。

  • LFM2.5 8B(A1B=アクティブ1.5B): A6000で約284 tok/s ——8Bクラスなのに最速。
  • Qwen3.6 35B(A3B=アクティブ3B): A6000で約122 tok/s ——35Bの大型なのに、4Bの密モデルとほぼ同等の速度。

つまり「総サイズが大きい=必ず遅い」ではありません。メモリに乗りさえすれば、MoEは賢さと速さを両立できます。機材のメモリに余裕があるなら、MoEの大型モデルは有力な選択肢です(数値根拠: A6000の実測)。

クラウドAIとの使い分け

ローカルとクラウドは対立ではなく分担です。経験則として、次の切り分けが実用的です(要検証)。

  • ローカル向き: 機密データ/反復・大量処理/オフライン現場/定型タスク(要約・分類・抽出・文字起こし)
  • クラウド向き: 最高難度の推論・最新の長文コンテキスト・たまにしか使わない高度タスク

「日常の8割はローカル、難所だけクラウド」に寄せると、コストとプライバシーの利点を取りながら品質も確保できます。

機材別「どこまでできるか」ガイド

  • Raspberry Pi 5(8GB): 2〜4Bの軽量モデルでチャット・要約・文字起こし。速度は控えめなので「常時稼働の小さなAI」「単発の自動処理」向き。対話用途は2Bクラスが快適。
  • Jetson Orin Nano Super(8GB): 4〜8Bを25W級の省電力で。黙読速度に追いつく実用域で、エッジ組み込み・常設デモに好適。
  • RTX A6000(48GB): 27〜35Bクラスの大型モデルやMoE、画像生成まで。自宅GPUの上限帯の基準。

どのモデルがどの機材でどれくらいの速度かは、検証DBで機材×モデル×量子化の実測を比較できます。

まず何から始めるか

  1. 試すだけなら、インストール不要でブラウザから動くデモが手軽です → ローカルAIでできるデモ
  2. 自分のPCで動かすなら、OllamaかLM Studioが定番です → ローカルAIのおすすめサイト・ツール
  3. 機材を選ぶなら、用途に必要なメモリを満たすものを。実測の速度は検証DBで確認できます。

ローカルAIは「高価なGPUが必須」というイメージがありますが、用途を絞れば数千円〜数万円のシングルボードPCでも十分に実用になります。まずは手元の機材でできることから始めるのがおすすめです。