ローカルAIの本領は、自分の機材で「大きいモデル・自分のデータ・無制限の自動化」を動かすことにあります。これはクラウドの従量課金やレート制限、ブラウザで動く小型デモでは到達できない領域です。
ブラウザだけで雰囲気をつかみたい人は、姉妹サイトのエッジAIラボ(インストール不要の小型モデルデモ)が手軽です。この記事ではその先——自分の機材だからできる本格デモを7つ紹介します。
下準備はOllamaを入れるだけ(ollama serveがOpenAI互換APIとして常駐します)。各デモには「なぜローカルだけなのか」と必要スペックの目安を添えました。
1. 大型モデルと対話する(ブラウザの小型モデルとは別格)
ブラウザデモが動かせるのはせいぜい数億〜数B級の小型モデル。手元のGPUなら、35B級の大型モデルを実用速度で動かせます。
ollama run qwen3.6:35b # 35BのMoE。賢さが段違い
実測では、RTX A6000でこの Qwen3.6 35B(A3B)が約122 tok/s——4B密モデルとほぼ同じ速さで35Bの賢さが手に入ります(MoEの強み)。
- なぜローカルだけ: ブラウザ/小型デモには大型モデルを載せられない。クラウドAPIは課金・送信あり。
- 必要スペック: 24GB前後のVRAM。実測はA6000の検証データ。
2. 自分の資料に質問する(ローカルRAG)
社外秘のPDF・契約書・議事録を一切外に出さず、AIに検索・要約・質問できます。これがローカルAI最大の実用価値です。
-
Open WebUI + Ollama: ChatGPT風のUIで、文書アップロード→質問。Web検索や画像生成も統合できます。
-
AnythingLLM / GPT4All: フォルダを丸ごと読ませるRAGが手軽。
-
なぜローカルだけ: 機密文書をクラウドに送れない現場で唯一の選択肢。検索も回答も端末内で完結。
-
必要スペック: 4〜8GB+埋め込みモデル。ミニPCから。
3. エディタでコード補助(自前のCopilot)
自社の未公開コードを外部に送らずに、補完・リファクタ・エラー解説をAIに任せられます。
-
Continue(VS Code拡張)+ Ollama + コーダー系モデル(例:
qwen2.5-coder)。インライン補完とチャットを、すべてローカルのOllama経由で。 -
なぜローカルだけ: ソースコードを第三者サーバーに渡さずにAI補助できる。
-
必要スペック: 7〜14Bモデルが快適に動くゲーミングPC級〜。
4. テキストから画像を生成する(枚数無制限・無課金)
-
ComfyUI や Stable Diffusion系で、テキストから画像を生成。クラウド画像生成のような1枚ごとの課金や枚数制限がありません。
-
なぜローカルだけ: 試行錯誤を何百枚回しても無料。生成物・プロンプトが外に出ない。
-
必要スペック: 6〜16GBのVRAM。機材別の目安を確認。
5. 長尺音声の一括文字起こし→要約(自動化)
会議録音や動画を、フォルダごと一括で文字起こし→要約まで自動化できます。1ファイルずつ手で回すブラウザデモには無理な領域です。
# whisper.cppで文字起こし → Ollamaで要約、をスクリプトで一括処理
# (faster-whisper / whisper.cpp などローカル音声認識 + ollama run で要約)
- 音声認識: whisper.cpp(CPUでも動作)。
- なぜローカルだけ: 長時間音声を何本でも、無料・無制限・非公開で処理できる。
- 必要スペック: 文字起こしはラズパイ5でも可。要約用に2〜8GB。
6. ローカルAPIサーバーとして自作アプリから使う
ollama serve はOpenAI互換のAPIを提供します。自分のスクリプトやアプリのバックエンドに、回数無制限・無料のAIを組み込めます。
# 例: ローカルのOllamaにHTTPで投げる(OpenAI互換)
curl http://localhost:11434/api/generate -d '{"model":"qwen3.5:4b","prompt":"要約して: ..."}'
- なぜローカルだけ: APIコストとレート制限を気にせず、大量バッチ・常時処理を回せる。
- 必要スペック: 用途のモデルが乗るメモリがあればOK。
7. 24時間の無人運用(省電力で動かし続ける)
ローカルAIは「小さなAIを動かし続ける」のが得意。Jetsonやラズパイにモデルを常駐させ、cronで定型処理(要約・分類・監視・通知)を無人で回せます。
- 実測の省電力性: Jetson Orin Nano Superは25W級で4Bモデルを約9.3 tok/s(黙読速度と同等)。ラズパイ5は10W級で常時稼働向き。
- なぜローカルだけ: 常時起動のクラウドAPIは課金が積み上がる。ローカルなら電気代だけ。
- 必要スペック: Jetson / ラズパイ5の実測を参照。
どれくらいの速度で動く?(実測)
同じ Qwen3.5 4B(Q4_K_M) を3台で計測した実測値です。「動くか」と「快適か」は別物だと分かります。
| 機材 | 生成速度 | 初回応答 | 体感 |
|---|---|---|---|
| RTX A6000 48GB | 約124 tok/s | 約0.3秒 | 一瞬で出力が流れ終わる |
| Jetson Orin Nano Super 8GB | 約9.3 tok/s | 約1.3秒 | 黙読の速度と同等で実用的 |
| Raspberry Pi 5 8GB | 約1.7 tok/s | 約25.7秒 | 待ちが長い。2Bモデルなら改善 |
根拠: 検証DB(ollama API・2回平均・num_predict=256の自前実測)。
まとめ
ローカルAIの価値は「手軽に試せること」よりも、クラウドにもブラウザにもできないこと——機密データの処理、無制限の自動化、常時稼働、大型モデルの占有利用——にあります。まずは手元の機材で1つ、上のデモを動かしてみてください。何が必要かはできること記事と検証DBで確認できます。