「ローカルAI」とは、ChatGPTのようなAIをクラウドではなく自分の手元の機材で動かすことです。通信は不要で、入力したデータは外部に送られず、回数制限も月額料金もありません。代わりに必要なのは、用途に見合ったメモリ(VRAM/RAM)と処理性能です。
この記事では「ローカルAIで具体的に何ができるのか」を用途別に整理し、それぞれに必要なスペックの目安と、おすすめの機材帯を示します。速度の話には自前機材での実測値を添えます(カタログ値ではありません)。生の数値は検証DBに機材×モデル×量子化で掲載しています。
なぜローカルで動かすのか(4つの理由)
- プライバシー: 入力が外部サーバーに送られない。社外秘・個人情報・未公開のコードを扱うときに効きます。
- コスト: 一度環境を作れば、何回使っても追加課金ゼロ。大量処理ほどクラウドAPIとの差が開きます。
- オフライン: ネットがなくても動く。現場・出張・閉域ネットワークでも使えます。
- 制限なし: レート制限や「1日◯回まで」がない。バッチ処理や常時稼働の自動化に向きます。
一方で、最新の超巨大モデル(数百B級)と同等の品質をそのまま家庭の機材で出すのは難しい、という現実もあります。ローカルAIは「用途を絞れば十分実用」が正しい期待値です。
用途別にできること(早見表)
| 用途 | 代表的な使い方 | メモリ目安(4bit量子化) | 機材の目安 |
|---|---|---|---|
| チャット・文章生成 | 相談・要約・下書き・アイデア出し | 2〜6GB(2〜7Bモデル) | ラズパイ5〜ミニPC〜 |
| コード補助 | 補完・リファクタ・エラー解説 | 5〜10GB(7〜14Bモデル) | ゲーミングPC級〜 |
| 文書Q&A・RAG | 手元のPDF/メモを検索して回答 | 4〜8GB+埋め込みモデル | ミニPC〜 |
| 文字起こし | 会議・動画の音声をテキスト化(Whisper) | 1〜5GB | ラズパイ5〜(CPUでも可) |
| 翻訳・要約 | 長文の日英翻訳・議事録要約 | 2〜8GB | ミニPC〜 |
| 画像理解(VLM) | 写真の説明・図表の読み取り | 4〜12GB | ゲーミングPC級〜 |
| 画像生成 | テキストから画像(Stable Diffusion系) | 6〜16GB | RTX搭載PC〜 |
| 音声合成(TTS) | テキストを自然な音声へ | 2〜8GB | ミニPC〜 |
メモリ目安は4bit量子化(Q4_K_M相当)での経験則です(要検証)。量子化の強さ・コンテキスト長・実装によって増減します。
速度の読み方:「tok/s」はどれくらいで実用か
ローカルAIの速度は tok/s(1秒あたりの生成トークン数) で測ります。日本語ではおおむね1トークン=1〜2文字弱。人が文章を黙読する速度は体感で7〜10 tok/s前後なので、10 tok/sを超えると「読む速度に追いつかれない」=ストレスなく使える、というのが実用上の目安です(経験則・要検証)。
実際、同じ Qwen3.5 4B(Q4_K_M) を3台で計測すると、体感が大きく変わります。
| 機材 | 生成速度(実測) | 初回応答 TTFT(実測) | 体感 | 消費電力 |
|---|---|---|---|---|
| RTX A6000 48GB | 約124 tok/s | 約0.3秒 | 出した瞬間に出力が流れ終わる | 約218W |
| Jetson Orin Nano Super 8GB | 約9.3 tok/s | 約1.3秒 | 黙読の速度と同等。実用的 | 25W級(省電力) |
| Raspberry Pi 5 8GB | 約1.7 tok/s | 約25.7秒 | 待ちが長い。用途を選ぶ | 10W級 |
根拠: 当サイトの検証DB(ollama API・2回平均・num_predict=256での自前実測)。
ここで分かるのは、「動くか」と「快適か」は別物だということ。ラズパイ5でも4Bモデルは“動き”ますが、初回応答に25秒かかると対話用途には厳しい。同じラズパイ5でも、より小さい2Bモデルなら初回応答は約4.9秒に縮みます。機材が非力なほど、モデルを小さく選ぶのがコツです。
量子化:品質とサイズのトレードオフ
ローカルで現実的にモデルを動かす鍵が量子化です。モデルの重みを「4bit」などに圧縮してサイズと必要メモリを大幅に削減します。目安として、4bit量子化なら 「パラメータ数(B) × 約0.6〜0.7GB + 余白」 がメモリ消費の概算です(経験則・要検証)。
- 7Bモデル(Q4)→ おおよそ5〜6GB
- 14Bモデル(Q4)→ おおよそ9〜10GB
- 32Bモデル(Q4)→ おおよそ20GB前後
Q4_K_M(4bit)は容量と品質のバランスが良く、最初の選択として定番。品質を最優先したい場面ではQ8_0(8bit)にすると容量はおよそ倍になりますが、劣化はごくわずかです。まずQ4で動かし、不満があればQ8を試すのが堅実です。
MoE:大きいのに速い理由
最近のモデルには MoE(Mixture of Experts/混合エキスパート) が増えています。総パラメータは大きくても、生成時に使う部分(アクティブパラメータ)はその一部だけ、という仕組みです。実測でもこれははっきり出ます。
- LFM2.5 8B(A1B=アクティブ1.5B): A6000で約284 tok/s ——8Bクラスなのに最速。
- Qwen3.6 35B(A3B=アクティブ3B): A6000で約122 tok/s ——35Bの大型なのに、4Bの密モデルとほぼ同等の速度。
つまり「総サイズが大きい=必ず遅い」ではありません。メモリに乗りさえすれば、MoEは賢さと速さを両立できます。機材のメモリに余裕があるなら、MoEの大型モデルは有力な選択肢です(数値根拠: A6000の実測)。
クラウドAIとの使い分け
ローカルとクラウドは対立ではなく分担です。経験則として、次の切り分けが実用的です(要検証)。
- ローカル向き: 機密データ/反復・大量処理/オフライン現場/定型タスク(要約・分類・抽出・文字起こし)
- クラウド向き: 最高難度の推論・最新の長文コンテキスト・たまにしか使わない高度タスク
「日常の8割はローカル、難所だけクラウド」に寄せると、コストとプライバシーの利点を取りながら品質も確保できます。
機材別「どこまでできるか」ガイド
- Raspberry Pi 5(8GB): 2〜4Bの軽量モデルでチャット・要約・文字起こし。速度は控えめなので「常時稼働の小さなAI」「単発の自動処理」向き。対話用途は2Bクラスが快適。
- Jetson Orin Nano Super(8GB): 4〜8Bを25W級の省電力で。黙読速度に追いつく実用域で、エッジ組み込み・常設デモに好適。
- RTX A6000(48GB): 27〜35Bクラスの大型モデルやMoE、画像生成まで。自宅GPUの上限帯の基準。
どのモデルがどの機材でどれくらいの速度かは、検証DBで機材×モデル×量子化の実測を比較できます。
まず何から始めるか
- 試すだけなら、インストール不要でブラウザから動くデモが手軽です → ローカルAIでできるデモ
- 自分のPCで動かすなら、OllamaかLM Studioが定番です → ローカルAIのおすすめサイト・ツール
- 機材を選ぶなら、用途に必要なメモリを満たすものを。実測の速度は検証DBで確認できます。
ローカルAIは「高価なGPUが必須」というイメージがありますが、用途を絞れば数千円〜数万円のシングルボードPCでも十分に実用になります。まずは手元の機材でできることから始めるのがおすすめです。