「AIエージェント」を、自分の手元の機材(ローカル)で動かす——これはクラウドAPIにない大きな利点があります。エージェントはツールを何度も呼ぶため、クラウドだと課金が積み上がりますが、ローカルなら何回呼んでも追加料金ゼロ。社外秘データも外に出しません。この記事は、AIエージェントとは何かから、必要な機材・実例までをやさしく整理します。

AIエージェントとは(やさしく)

ふつうのチャットは「1問1答」。AIエージェントは、指示に対して AIが自分で「どのツールを使うか」を判断し、結果を見てまた次の行動を決める——という多段の作業を自動でこなす仕組みです。

AIエージェントの動き ― AIが自分でツールを選び、結果を見てまた動く

① あなたの指示

「請求書を集計して」等

② モデルが判断

どのツールを使うか決める

③ ツールを実行

検索・コード・ファイル操作

④ 結果を見て再判断

②へ戻り繰り返す

④から②へ繰り返し、ゴールに達したら最終回答。エージェントは何度もツールを呼ぶため、クラウドAPIだと課金が積み上がるのに対し、ローカルは何回呼んでも追加料金ゼロ。だから試行錯誤・常時運用に向きます。

たとえば「このフォルダの請求書を集計して」と頼むと、エージェントは「ファイルを読む→数値を抽出→合計を計算→表に整える」と、自分で手順を分解して実行します。

なぜローカルが効くのか(3つの理由)

  • コスト: エージェントはツール呼び出しを繰り返すため、クラウドAPIだと課金が積み上がりやすい。ローカルは電気代だけで使い放題。損益分岐の考え方は成果指標とROIへ。
  • プライバシー: 社外秘の文書・コード・個人情報を外部に送らずに自動化できる。
  • 無制限の試行錯誤: レート制限がないので、夜間バッチや常時運用、エージェントの作り込みを気兼ねなく回せる。

何が必要か

  1. ツール呼び出し(function calling)対応モデル: エージェントの肝は「AIが正しい形式(JSON)でツールを呼べるか」。Qwen系・gpt-oss系・Gemma系などが対応します(経験則・要検証)。
  2. 十分な文脈長: 会話履歴やツール結果が積み上がるため、**長めの文脈長(目安128K)**が望ましい。
  3. メモリ: 動かすモデルが載るVRAM/RAM。手元で動くかは動くか診断、実測の速度は検証DBで確認できます。

ローカルで作れるエージェントの実例

1. 完全ローカルRAG(機密文書に質問する)

社外秘のPDFや契約書を外に出さず、AIに検索・要約・質問できます。LangChainLlamaIndex は Ollama と連携でき、ローカルの埋め込みモデル+ローカル生成で「フォルダ丸ごとQA」を組めます。

2. 自前のコーディングエージェント

未公開のコードを外に出さずに、補完・リファクタ・複数ファイルの編集を任せられます。エディタ拡張の Continue や、CLIのコーディングエージェントを、Ollama 経由のローカルモデルで動かせます。

3. n8n × Ollama でノーコード自動化

プログラミングなしでも、n8n は Ollama と連携でき、「読み込む→ローカルで要約→DBに保存→通知」のような自動化を画面操作で組めます。データは社外に出ません。

機材の目安(VRAM別)

エージェントは文脈が長くなりがちなので、メモリに余裕があるほど安定します。

  • 8GB級(Jetson / ラズパイ): 軽い単発ツール実行・小規模RAGから。
  • 16GB級(Mac mini M4 など): 7〜8BのMoEで実用的な多段ツール実行。実測では8B MoEが約80 tok/s。
  • 24〜48GB級(RTX/A6000): 大きめモデルで複雑なエージェント・同時実行も。

どれを買うべきかは機材の選び方に、機材×モデルの実測は検証DBにまとめています。

注意点(正直に)

  • ツール呼び出しの信頼性: モデルが壊れたJSONを出すと多段処理が止まります。小さなタスクで安定性を確かめてから広げるのが安全。どのモデルが正しく呼べるかはfunction calling信頼性の実測(7モデル比較)を参照——現代モデルは89〜100%ですが、旧世代は非対応のこともあります。
  • 安全(マルウェア): エージェントはファイル操作やコード実行など強い権限を持ちうるため、まず安全なモデルを使うこと。safetensors優先・出所確認はモデルのマルウェア対策を必ず参照してください。
  • 権限は絞る: 最初はツールの権限を限定し、隔離環境で試す。いきなり本番や鍵のある環境で動かさない。

よくある質問

AIエージェントとは何ですか?
指示に対して、AIが自分で「どのツール(検索・コード実行・ファイル操作など)を使うか」を判断し、結果を見てまた次の行動を決める——という多段の作業を自動でこなす仕組みです。1問1答のチャットより一歩進んだ使い方です。
なぜローカルでエージェントを動かすのですか?
エージェントはツールを何度も呼ぶため、クラウドAPIだと課金が積み上がりやすい一方、ローカルなら何回呼んでも追加料金ゼロです。さらに社外秘データを外に出さずに自動化でき、レート制限もありません。
どんなモデル・スペックが必要ですか?
ツール呼び出し(function calling)に対応したモデルが必要で、Qwen系・gpt-oss系・Gemma系などが対応します(経験則・要検証)。履歴が伸びるため文脈長は長め(目安128K)、メモリは動かすモデルが載る量が前提です。手元で動くかは動くか診断で確認できます。
プログラミングできなくても使えますか?
はい。n8n のようなノーコードツールは Ollama と連携でき、「読み込む→ローカルで要約→保存→通知」といった自動化を画面操作で組めます。コーディング支援が目的なら、エディタ拡張(Continue など)+ローカルモデルが手軽です。
安全面で気をつけることは?
エージェントはファイル操作やコード実行などの強い権限を持ちうるので、まずは安全なモデル(safetensors優先・出所確認)を使い、ツールの権限を絞って小さく試すのが基本です。モデルの入手は安全対策の記事も参照してください。

まとめ

  • AIエージェント=AIが自分でツールを使い、多段で作業する仕組み。
  • ローカルは課金ゼロ・機密保持・無制限で、エージェントと相性が良い。
  • 必要なのはfunction calling対応モデル+長い文脈長+十分なメモリ
  • 安全なモデルを使い、権限を絞って小さく始める。

まずは手元の機材で動くかを動くか診断で確認し、おすすめのツールから1つ、ローカルエージェントを動かしてみてください。