「AIエージェント」を、自分の手元の機材(ローカル)で動かす——これはクラウドAPIにない大きな利点があります。エージェントはツールを何度も呼ぶため、クラウドだと課金が積み上がりますが、ローカルなら何回呼んでも追加料金ゼロ。社外秘データも外に出しません。この記事は、AIエージェントとは何かから、必要な機材・実例までをやさしく整理します。
AIエージェントとは(やさしく)
ふつうのチャットは「1問1答」。AIエージェントは、指示に対して AIが自分で「どのツールを使うか」を判断し、結果を見てまた次の行動を決める——という多段の作業を自動でこなす仕組みです。
① あなたの指示
「請求書を集計して」等
② モデルが判断
どのツールを使うか決める
③ ツールを実行
検索・コード・ファイル操作
④ 結果を見て再判断
②へ戻り繰り返す
④から②へ繰り返し、ゴールに達したら最終回答。エージェントは何度もツールを呼ぶため、クラウドAPIだと課金が積み上がるのに対し、ローカルは何回呼んでも追加料金ゼロ。だから試行錯誤・常時運用に向きます。
たとえば「このフォルダの請求書を集計して」と頼むと、エージェントは「ファイルを読む→数値を抽出→合計を計算→表に整える」と、自分で手順を分解して実行します。
なぜローカルが効くのか(3つの理由)
- コスト: エージェントはツール呼び出しを繰り返すため、クラウドAPIだと課金が積み上がりやすい。ローカルは電気代だけで使い放題。損益分岐の考え方は成果指標とROIへ。
- プライバシー: 社外秘の文書・コード・個人情報を外部に送らずに自動化できる。
- 無制限の試行錯誤: レート制限がないので、夜間バッチや常時運用、エージェントの作り込みを気兼ねなく回せる。
何が必要か
- ツール呼び出し(function calling)対応モデル: エージェントの肝は「AIが正しい形式(JSON)でツールを呼べるか」。Qwen系・gpt-oss系・Gemma系などが対応します(経験則・要検証)。
- 十分な文脈長: 会話履歴やツール結果が積み上がるため、**長めの文脈長(目安128K)**が望ましい。
- メモリ: 動かすモデルが載るVRAM/RAM。手元で動くかは動くか診断、実測の速度は検証DBで確認できます。
ローカルで作れるエージェントの実例
1. 完全ローカルRAG(機密文書に質問する)
社外秘のPDFや契約書を外に出さず、AIに検索・要約・質問できます。LangChain や LlamaIndex は Ollama と連携でき、ローカルの埋め込みモデル+ローカル生成で「フォルダ丸ごとQA」を組めます。
2. 自前のコーディングエージェント
未公開のコードを外に出さずに、補完・リファクタ・複数ファイルの編集を任せられます。エディタ拡張の Continue や、CLIのコーディングエージェントを、Ollama 経由のローカルモデルで動かせます。
3. n8n × Ollama でノーコード自動化
プログラミングなしでも、n8n は Ollama と連携でき、「読み込む→ローカルで要約→DBに保存→通知」のような自動化を画面操作で組めます。データは社外に出ません。
機材の目安(VRAM別)
エージェントは文脈が長くなりがちなので、メモリに余裕があるほど安定します。
- 8GB級(Jetson / ラズパイ): 軽い単発ツール実行・小規模RAGから。
- 16GB級(Mac mini M4 など): 7〜8BのMoEで実用的な多段ツール実行。実測では8B MoEが約80 tok/s。
- 24〜48GB級(RTX/A6000): 大きめモデルで複雑なエージェント・同時実行も。
どれを買うべきかは機材の選び方に、機材×モデルの実測は検証DBにまとめています。
注意点(正直に)
- ツール呼び出しの信頼性: モデルが壊れたJSONを出すと多段処理が止まります。小さなタスクで安定性を確かめてから広げるのが安全。どのモデルが正しく呼べるかはfunction calling信頼性の実測(7モデル比較)を参照——現代モデルは89〜100%ですが、旧世代は非対応のこともあります。
- 安全(マルウェア): エージェントはファイル操作やコード実行など強い権限を持ちうるため、まず安全なモデルを使うこと。
safetensors優先・出所確認はモデルのマルウェア対策を必ず参照してください。 - 権限は絞る: 最初はツールの権限を限定し、隔離環境で試す。いきなり本番や鍵のある環境で動かさない。
よくある質問
- AIエージェントとは何ですか?
- 指示に対して、AIが自分で「どのツール(検索・コード実行・ファイル操作など)を使うか」を判断し、結果を見てまた次の行動を決める——という多段の作業を自動でこなす仕組みです。1問1答のチャットより一歩進んだ使い方です。
- なぜローカルでエージェントを動かすのですか?
- エージェントはツールを何度も呼ぶため、クラウドAPIだと課金が積み上がりやすい一方、ローカルなら何回呼んでも追加料金ゼロです。さらに社外秘データを外に出さずに自動化でき、レート制限もありません。
- どんなモデル・スペックが必要ですか?
- ツール呼び出し(function calling)に対応したモデルが必要で、Qwen系・gpt-oss系・Gemma系などが対応します(経験則・要検証)。履歴が伸びるため文脈長は長め(目安128K)、メモリは動かすモデルが載る量が前提です。手元で動くかは動くか診断で確認できます。
- プログラミングできなくても使えますか?
- はい。n8n のようなノーコードツールは Ollama と連携でき、「読み込む→ローカルで要約→保存→通知」といった自動化を画面操作で組めます。コーディング支援が目的なら、エディタ拡張(Continue など)+ローカルモデルが手軽です。
- 安全面で気をつけることは?
- エージェントはファイル操作やコード実行などの強い権限を持ちうるので、まずは安全なモデル(safetensors優先・出所確認)を使い、ツールの権限を絞って小さく試すのが基本です。モデルの入手は安全対策の記事も参照してください。
まとめ
- AIエージェント=AIが自分でツールを使い、多段で作業する仕組み。
- ローカルは課金ゼロ・機密保持・無制限で、エージェントと相性が良い。
- 必要なのはfunction calling対応モデル+長い文脈長+十分なメモリ。
- 安全なモデルを使い、権限を絞って小さく始める。