ローカルAIでできるデモ【自分の機材で動かす本格7選】

ローカルAIの本領は、自分の機材で「大きいモデル・自分のデータ・無制限の自動化」を動かすことにあります。これはクラウドの従量課金やレート制限、ブラウザで動く小型デモでは到達できない領域です。

ブラウザだけで雰囲気をつかみたい人は、姉妹サイトのエッジAIラボ（インストール不要の小型モデルデモ）が手軽です。この記事ではその先——自分の機材だからできる本格デモを7つ紹介します。

下準備はOllamaを入れるだけ（ollama serveがOpenAI互換APIとして常駐します）。各デモには「なぜローカルだけなのか」と必要スペックの目安を添えました。

1. 大型モデルと対話する（ブラウザの小型モデルとは別格）

ブラウザデモが動かせるのはせいぜい数億〜数B級の小型モデル。手元のGPUなら、35B級の大型モデルを実用速度で動かせます。

ollama run qwen3.6:35b   # 35BのMoE。賢さが段違い

実測では、RTX A6000でこの Qwen3.6 35B（A3B）が約122 tok/s——4B密モデルとほぼ同じ速さで35Bの賢さが手に入ります（MoEの強み）。

社外秘のPDF・契約書・議事録を一切外に出さず、AIに検索・要約・質問できます。これがローカルAI最大の実用価値です。

自社の未公開コードを外部に送らずに、補完・リファクタ・エラー解説をAIに任せられます。

Continue（VS Code拡張）＋ Ollama ＋コーダー系モデル（例: qwen2.5-coder）。インライン補完とチャットを、すべてローカルのOllama経由で。
なぜローカルだけ: ソースコードを第三者サーバーに渡さずにAI補助できる。
必要スペック: 7〜14Bモデルが快適に動くゲーミングPC級〜。

会議録音や動画を、フォルダごと一括で文字起こし→要約まで自動化できます。1ファイルずつ手で回すブラウザデモには無理な領域です。

# whisper.cppで文字起こし → Ollamaで要約、をスクリプトで一括処理
# （faster-whisper / whisper.cpp などローカル音声認識 + ollama run で要約）

ollama serve はOpenAI互換のAPIを提供します。自分のスクリプトやアプリのバックエンドに、回数無制限・無料のAIを組み込めます。

# 例: ローカルのOllamaにHTTPで投げる（OpenAI互換）
curl http://localhost:11434/api/generate -d '{"model":"qwen3.5:4b","prompt":"要約して: ..."}'

ローカルAIは「小さなAIを動かし続ける」のが得意。Jetsonやラズパイにモデルを常駐させ、cronで定型処理（要約・分類・監視・通知）を無人で回せます。

実測の省電力性: Jetson Orin Nano Superは約18.7W（実測）で4Bモデルを約12.6 tok/s。ラズパイ5は約7.5W（実測）で常時稼働向き。電力効率の詳細は電力効率の実測記事へ。
なぜローカルだけ: 常時起動のクラウドAPIは課金が積み上がる。ローカルなら電気代だけ。
必要スペック: Jetson / ラズパイ5の実測を参照。

同じ Qwen3.5 4B（Q4_K_M） を3台で計測した実測値です。「動くか」と「快適か」は別物だと分かります。

根拠: 検証DB（ollama API・2回平均・num_predict=256の自前実測）。

生成速度 tok/s（Qwen3.5 4B・Q4_K_M・自前実測）

実用ライン 10 tok/s（黙読に追いつく目安）

「動く」と「快適」は別物。Pi5は4Bだと実用ラインを下回り、2Bモデルなら改善する。

ローカルAIの価値は「手軽に試せること」よりも、クラウドにもブラウザにもできないこと——機密データの処理、無制限の自動化、常時稼働、大型モデルの占有利用——にあります。まずは手元の機材で1つ、上のデモを動かしてみてください。何が必要かはできること記事と検証DBで確認できます。