ローカルAIでできること【用途別の必要スペックと機材選び】

「ローカルAI」とは、ChatGPTのようなAIをクラウドではなく自分の手元の機材で動かすことです。通信は不要で、入力したデータは外部に送られず、回数制限も月額料金もありません。代わりに必要なのは、用途に見合ったメモリ（VRAM/RAM）と処理性能です。

この記事では「ローカルAIで具体的に何ができるのか」を用途別に整理し、それぞれに必要なスペックの目安と、おすすめの機材帯を示します。速度の話には自前機材での実測値を添えます（カタログ値ではありません）。生の数値は検証DBに機材×モデル×量子化で掲載しています。

なぜローカルで動かすのか（4つの理由）

プライバシー: 入力が外部サーバーに送られない。社外秘・個人情報・未公開のコードを扱うときに効きます。
コスト: 一度環境を作れば、何回使っても追加課金ゼロ。大量処理ほどクラウドAPIとの差が開きます。
オフライン: ネットがなくても動く。現場・出張・閉域ネットワークでも使えます。
制限なし: レート制限や「1日◯回まで」がない。バッチ処理や常時稼働の自動化に向きます。

一方で、最新の超巨大モデル（数百B級）と同等の品質をそのまま家庭の機材で出すのは難しい、という現実もあります。ローカルAIは「用途を絞れば十分実用」が正しい期待値です。

用途別にできること（早見表）

用途	代表的な使い方	メモリ目安（4bit量子化）	機材の目安
チャット・文章生成	相談・要約・下書き・アイデア出し	2〜6GB（2〜7Bモデル）	ラズパイ5〜ミニPC〜
コード補助	補完・リファクタ・エラー解説	5〜10GB（7〜14Bモデル）	ゲーミングPC級〜
文書Q&A・RAG	手元のPDF/メモを検索して回答	4〜8GB＋埋め込みモデル	ミニPC〜
文字起こし	会議・動画の音声をテキスト化（Whisper）	1〜5GB	ラズパイ5〜（CPUでも可）
翻訳・要約	長文の日英翻訳・議事録要約	2〜8GB	ミニPC〜
画像理解（VLM）	写真の説明・図表の読み取り	4〜12GB	ゲーミングPC級〜
画像生成	テキストから画像（Stable Diffusion系）	6〜16GB	RTX搭載PC〜
音声合成（TTS）	テキストを自然な音声へ	2〜8GB	ミニPC〜

メモリ目安は4bit量子化（Q4_K_M相当）での経験則です。量子化の強さ・コンテキスト長・実装によって増減します。

速度の読み方：「tok/s」はどれくらいで実用か

ローカルAIの速度は tok/s（1秒あたりの生成トークン数） で測ります。日本語ではおおむね1トークン＝1〜2文字弱。人が文章を黙読する速度は体感で7〜10 tok/s前後なので、**10 tok/sを超えると「読む速度に追いつかれない」**水準になります。対話で余裕を感じるにはさらに上（目安15〜20 tok/s程度）が望ましい場合もあります。

実際、同じ Qwen3.5 4B（Q4_K_M） を3台で計測すると、体感が大きく変わります。

機材	生成速度（実測）	初回応答 TTFT（実測）	体感	消費電力
RTX A6000 48GB	約124 tok/s	約0.3秒	出した瞬間に出力が流れ終わる	約218W
Mac mini M4 16GB	約29 tok/s	約0.3秒	余裕で快適。8B級も実用	約12.3W（実測）
Jetson Orin Nano Super 8GB	約12.6 tok/s	約1.5秒	黙読の速度を上回り快適	約18.7W（実測）
Raspberry Pi 5 8GB	約2.2 tok/s	約11.3秒	待ちが長い。用途を選ぶ	約7.5W（実測）

根拠: 当サイトの検証DB（ollama API・2回平均・num_predict=256での自前実測）。

生成速度 tok/s（Qwen3.5 4B・Q4_K_M・自前実測）

RTX A6000 48GB124
Mac mini M4 16GB29.3
Jetson Orin Nano 8GB12.6
Raspberry Pi 5 8GB2.2

実用ライン 10 tok/s（黙読に追いつく目安）

「動く」と「快適」は別物。Pi5は4Bだと実用ラインを下回り、2Bモデルなら改善する。

ここで分かるのは、「動くか」と「快適か」は別物だということ。ラズパイ5でも4Bモデルは“動き”ますが、初回応答に約11秒かかると対話用途には厳しい。同じラズパイ5でも、より小さい2Bモデルなら初回応答は約4.8秒に縮みます。機材が非力なほど、モデルを小さく選ぶのがコツです。

量子化：品質とサイズのトレードオフ

ローカルで現実的にモデルを動かす鍵が量子化です。モデルの重みを「4bit」などに圧縮してサイズと必要メモリを大幅に削減します。目安として、4bit量子化なら 「パラメータ数(B) × 約0.6〜0.7GB ＋余白」 がメモリ消費の概算です。

7Bモデル（Q4）→ おおよそ5〜6GB
14Bモデル（Q4）→ おおよそ9〜10GB
32Bモデル（Q4）→ おおよそ20GB前後

Q4_K_M（4bit）は容量と品質のバランスが良く、最初の選択として定番。品質を最優先したい場面ではQ8_0（8bit）にすると容量はおよそ倍になりますが、劣化は小さいことが多いとされます（モデル・タスクにより差はあります）。まずQ4で動かし、不満があればQ8を試すのが堅実です。

MoE：大きいのに速い理由

最近のモデルには MoE（Mixture of Experts／混合エキスパート） が増えています。総パラメータは大きくても、生成時に使う部分（アクティブパラメータ）はその一部だけ、という仕組みです。実測でもこれははっきり出ます。

LFM2.5 8B（A1B＝アクティブ1.5B）: A6000で約284 tok/s ——8Bクラスなのに最速。
Qwen3.6 35B（A3B＝アクティブ3B）: A6000で約122 tok/s ——35Bの大型なのに、4Bの密モデルとほぼ同等の速度。

つまり「総サイズが大きい＝必ず遅い」ではありません。メモリに乗りさえすれば、MoEは総パラメータ由来の知識量を保ちながら速さも確保しやすい仕組みです（速度は実測。賢さそのものは別途の品質評価が必要です）。機材のメモリに余裕があるなら、MoEの大型モデルは有力な選択肢です（数値根拠: A6000の実測）。

クラウドAIとの使い分け

ローカルとクラウドは対立ではなく分担です。経験則として、次の切り分けが実用的です。

ローカル向き: 機密データ／反復・大量処理／オフライン現場／定型タスク（要約・分類・抽出・文字起こし）
クラウド向き: 最高難度の推論・最新の長文コンテキスト・たまにしか使わない高度タスク

「日常の8割はローカル、難所だけクラウド」に寄せると、コストとプライバシーの利点を取りながら品質も確保できます。

機材別「どこまでできるか」ガイド

Raspberry Pi 5（8GB）: 2〜4Bの軽量モデルでチャット・要約・文字起こし。速度は控えめなので「常時稼働の小さなAI」「単発の自動処理」向き。対話用途は2Bクラスが快適。
Jetson Orin Nano Super（8GB）: 4〜8Bを25W級の省電力で。黙読速度に追いつく実用域で、エッジ組み込み・常設デモに好適。
Mac mini M4（16GB）: 統合メモリで2〜8Bを高効率に。MoEなら8Bが約80 tok/s（実測）と速く、4Bでも約29 tok/sで余裕。電力効率はフリート最高かつ静音・省電力で、デスク常設のローカルAIに好適。
RTX A6000（48GB）: 27〜35Bクラスの大型モデルやMoE、画像生成まで。自宅GPUの上限帯の基準。

どのモデルがどの機材でどれくらいの速度かは、検証DBで機材×モデル×量子化の実測を比較できます。

まず何から始めるか

試すだけなら、インストール不要でブラウザから動くデモが手軽です → ローカルAIでできるデモ
自分のPCで動かすなら、OllamaかLM Studioが定番です → ローカルAIのおすすめサイト・ツール
機材を選ぶなら、用途に必要なメモリを満たすものを。実測の速度は検証DBで確認できます。

ローカルAIは「高価なGPUが必須」というイメージがありますが、用途を絞れば数千円〜数万円のシングルボードPCでも十分に実用になります。まずは手元の機材でできることから始めるのがおすすめです。