ローカルAIの本領は、自分の機材で「大きいモデル・自分のデータ・無制限の自動化」を動かすことにあります。これはクラウドの従量課金やレート制限、ブラウザで動く小型デモでは到達できない領域です。

ブラウザだけで雰囲気をつかみたい人は、姉妹サイトのエッジAIラボ(インストール不要の小型モデルデモ)が手軽です。この記事ではその先——自分の機材だからできる本格デモを7つ紹介します。

下準備はOllamaを入れるだけ(ollama serveがOpenAI互換APIとして常駐します)。各デモには「なぜローカルだけなのか」と必要スペックの目安を添えました。

1. 大型モデルと対話する(ブラウザの小型モデルとは別格)

ブラウザデモが動かせるのはせいぜい数億〜数B級の小型モデル。手元のGPUなら、35B級の大型モデルを実用速度で動かせます。

ollama run qwen3.6:35b   # 35BのMoE。賢さが段違い

実測では、RTX A6000でこの Qwen3.6 35B(A3B)が約122 tok/s——4B密モデルとほぼ同じ速さで35Bの賢さが手に入ります(MoEの強み)。

  • なぜローカルだけ: ブラウザ/小型デモには大型モデルを載せられない。クラウドAPIは課金・送信あり。
  • 必要スペック: 24GB前後のVRAM。実測はA6000の検証データ

2. 自分の資料に質問する(ローカルRAG)

社外秘のPDF・契約書・議事録を一切外に出さず、AIに検索・要約・質問できます。これがローカルAI最大の実用価値です。

  • Open WebUI + Ollama: ChatGPT風のUIで、文書アップロード→質問。Web検索や画像生成も統合できます。

  • AnythingLLM / GPT4All: フォルダを丸ごと読ませるRAGが手軽。

  • なぜローカルだけ: 機密文書をクラウドに送れない現場で唯一の選択肢。検索も回答も端末内で完結。

  • 必要スペック: 4〜8GB+埋め込みモデル。ミニPCから。

3. エディタでコード補助(自前のCopilot)

自社の未公開コードを外部に送らずに、補完・リファクタ・エラー解説をAIに任せられます。

  • Continue(VS Code拡張)+ Ollama + コーダー系モデル(例: qwen2.5-coder)。インライン補完とチャットを、すべてローカルのOllama経由で。

  • なぜローカルだけ: ソースコードを第三者サーバーに渡さずにAI補助できる。

  • 必要スペック: 7〜14Bモデルが快適に動くゲーミングPC級〜。

4. テキストから画像を生成する(枚数無制限・無課金)

  • ComfyUI や Stable Diffusion系で、テキストから画像を生成。クラウド画像生成のような1枚ごとの課金や枚数制限がありません。

  • なぜローカルだけ: 試行錯誤を何百枚回しても無料。生成物・プロンプトが外に出ない。

  • 必要スペック: 6〜16GBのVRAM。機材別の目安を確認。

5. 長尺音声の一括文字起こし→要約(自動化)

会議録音や動画を、フォルダごと一括で文字起こし→要約まで自動化できます。1ファイルずつ手で回すブラウザデモには無理な領域です。

# whisper.cppで文字起こし → Ollamaで要約、をスクリプトで一括処理
# (faster-whisper / whisper.cpp などローカル音声認識 + ollama run で要約)
  • 音声認識: whisper.cpp(CPUでも動作)。
  • なぜローカルだけ: 長時間音声を何本でも、無料・無制限・非公開で処理できる。
  • 必要スペック: 文字起こしはラズパイ5でも可。要約用に2〜8GB。

6. ローカルAPIサーバーとして自作アプリから使う

ollama serve はOpenAI互換のAPIを提供します。自分のスクリプトやアプリのバックエンドに、回数無制限・無料のAIを組み込めます。

# 例: ローカルのOllamaにHTTPで投げる(OpenAI互換)
curl http://localhost:11434/api/generate -d '{"model":"qwen3.5:4b","prompt":"要約して: ..."}'
  • なぜローカルだけ: APIコストとレート制限を気にせず、大量バッチ・常時処理を回せる。
  • 必要スペック: 用途のモデルが乗るメモリがあればOK。

7. 24時間の無人運用(省電力で動かし続ける)

ローカルAIは「小さなAIを動かし続ける」のが得意。Jetsonやラズパイにモデルを常駐させ、cronで定型処理(要約・分類・監視・通知)を無人で回せます

  • 実測の省電力性: Jetson Orin Nano Superは25W級で4Bモデルを約9.3 tok/s(黙読速度と同等)。ラズパイ5は10W級で常時稼働向き。
  • なぜローカルだけ: 常時起動のクラウドAPIは課金が積み上がる。ローカルなら電気代だけ。
  • 必要スペック: Jetson / ラズパイ5の実測を参照。

どれくらいの速度で動く?(実測)

同じ Qwen3.5 4B(Q4_K_M) を3台で計測した実測値です。「動くか」と「快適か」は別物だと分かります。

機材生成速度初回応答体感
RTX A6000 48GB約124 tok/s約0.3秒一瞬で出力が流れ終わる
Jetson Orin Nano Super 8GB約9.3 tok/s約1.3秒黙読の速度と同等で実用的
Raspberry Pi 5 8GB約1.7 tok/s約25.7秒待ちが長い。2Bモデルなら改善

根拠: 検証DB(ollama API・2回平均・num_predict=256の自前実測)。

まとめ

ローカルAIの価値は「手軽に試せること」よりも、クラウドにもブラウザにもできないこと——機密データの処理、無制限の自動化、常時稼働、大型モデルの占有利用——にあります。まずは手元の機材で1つ、上のデモを動かしてみてください。何が必要かはできること記事検証DBで確認できます。