「チャットで賢いモデルなら、エージェントにしても賢い」——これは誤りです。チャットの強さとエージェントの強さは別の能力軸で、しかも失敗の出方が違い、掛け算で効きます。だからモデル選びの基準そのものが変わり、専用のスコアカードが必要になります。この記事は、その理由を構造化して論証します。

本質的な違いは「ループを誰が回すか」

本質的な違い ―「ループを誰が回すか」

チャット(人間がループを回す)

  1. 1. モデルが出力する
  2. 2. 人間が読む・判断する
  3. 3. 人間がツールを実行する
  4. 4. 人間が結果を戻す → 1へ

制御・判断・誤り訂正・実行を毎ターン人間が担う=人間がオーケストレータ。

エージェント(コードがループを回す)

  1. 1. モデルがツールを選ぶ
  2. 2. コードがツールを実行
  3. 3. モデルが結果を観測する
  4. 4. ゴールまで自分で反復 → 1へ(人間の介在なし)

人間は最初の指示と重要操作の承認だけ。モデルはループの“内側の意思決定主体”。

Anthropicの整理では、ワークフローは「LLMとツールを事前定義のコードパスで動かす系」、エージェントは「LLMが自らのプロセスとツール使用を動的に方向づけ、達成方法の制御を保持する系」です。より簡潔には**「LLMが自律的にツールをループで使うこと」**(根拠: Anthropic「Building Effective Agents」)。

  • チャットで作業する=実態は、人間がオーケストレータ。出力を読む・判断する・ツールを実行する・結果を戻す——を毎ターン人間が担う
  • エージェント=この人間の役割をコード(足場)+モデルで自動化する。モデルはループの内側の意思決定主体として、自分でツールを選び、結果を観測し、ゴールへ反復する。

「行動できるか(ツールを自律で使えるか)」が境界線です。

だから「どのモデルか」が別問題になる

チャットの強さ(知識テスト・対話の好まれ度)とエージェントの強さは相関が弱い。エージェントで効いてくるのは、チャット評価では測れない軸です。

  • ツールコール/構造化出力の忠実度(正しいJSON・スキーマ遵守)。ツール使用の精度は、モデル規模(パラメータ数)より引数の正しさとスキーマ遵守に強く依存します(根拠: BFCL/関数呼び出し評価)。
  • マルチターンの状態・文脈管理(観測が毎ステップ累積する)。
  • 誤り回復(一度失敗して諦めず別手を試せるか)。
  • 「行動しない」判断(不要なツール呼び出しの抑制)。

チャット評価で測る軸と、エージェントで効く軸は、ほとんど重なりません。

能力軸チャット評価で測るエージェントで効く
知識・推論(MMLU等)
対話の自然さ・好まれ度
ツールコール/JSON忠実度
マルチターンの状態管理
誤り回復(諦めない)
「行動しない」判断

チャットのベンチで上位でも、エージェントで効く下4軸はそもそも測られていない——だから順位が入れ替わります。

信頼性は「掛け算」で効く

1ステップの成功率が95%でも、20ステップ連鎖すれば 0.95²⁰ ≈ 0.36 まで落ちます。実際は誤りに相関があり回復もあるので単純な p^N ではありませんが、ホライズン(手数)が長いほど1ステップの信頼性が結果を支配する傾向は変わりません(経験則・要検証)。

手数(ステップ数)が増えると成功率はこう落ちる
1ステップの成功率1ステップ5ステップ10ステップ20ステップ
99%99%95%90%82%
95%95%77%60%36%
90%90%59%35%12%
80%80%33%11%1%

例: 1ステップ95%でも20ステップ連鎖で36%。手数が長いほど1ステップの信頼性が結果を支配します。※実際は誤りに相関があり回復もあるので単純な p^N ではない(経験則・要検証)。

外部のベンチでもこれは顕著で、最先端の関数呼び出しエージェントですらタスク成功率は50%未満、しかも不安定で、同じタスクを8回連続成功できる率(pass^8)は小売ドメインで25%未満に落ちます(根拠: τ-bench(Sierra/arXiv))。

当サイトの実測でも「チャット≠エージェント」が出ている

これは外部の話だけではありません。当サイトが7モデルを実測したところ、単発のツール呼び出しは89〜100%でほぼ横並びなのに、前の結果を使う多ターン連鎖にすると56〜100%へ大きく開き単発100%のモデルが連鎖では67%に急落しました。

① 単発(1回のツール呼び出し)の正答率
  • Gemma4 26B100%
  • Qwen3.6 35B94%
  • Qwen2.5 7B94%
  • Qwen3.5 4B100%
  • LFM2.5 8B100%
  • Qwen3.5 2B89%
② マルチターン連鎖(前の結果を使う本物のエージェント)の成功率
  • Gemma4 26B100%
  • Qwen3.6 35B89%
  • Qwen2.5 7B78%
  • Qwen3.5 4B67%
  • LFM2.5 8B67%
  • Qwen3.5 2B56%

単発はほぼ横並び(89〜100%)なのに、連鎖は56〜100%へ大きく開く。単発100%のQwen3.5 4B・LFM2.5 8Bが連鎖では67%に急落=単発の成績は連鎖を予測しない。3連鎖タスク×3回=9試行・要検証。

単発(チャット的)の成績は、連鎖(エージェント的)を予測しない——これが一次データでの証拠です。さらに5〜6段の長い連鎖にすると差は決定的になり、単発満点・最速のLFM2.5 8Bは17%まで崩壊する一方、Gemma4 26Bは100%を維持しました(手数が増えるほど地力がむき出しになる=まさに「掛け算」)。詳細はfunction calling&連鎖の実測へ。

ローカルモデルだと、差はさらに開く

ここがローカルAI特有の論点で、専用スコアカードの存在理由そのものです。

  • ツールコール対応の質のバラつきが大きい。チャットは流暢な小型モデルでも、エージェントループでは崩れやすい(経験則・要検証)。
  • 量子化は「構造化出力の“形”」は壊さない(実測)。同じQwen2.5 7Bをfp16/Q8/Q4で各48試行測ると、壊れたJSON・ツール誤選択は全量子化で0件。落ちるのは僅かな判断(呼ぶ/呼ばない・引数)だけで、標準のQ4でも実用域でした。「動く(tok/s)」と「動いても賢いまま」は別問題ですが、少なくともツールの“形式”はQ4で保たれます
  • 文脈窓が狭いと観測の累積で破綻しやすい(経験則・要検証)。
  • レイテンシ × ステップ数 = 総実時間。Jetson/ラズパイ級では1ステップの遅延が全体を支配します(経験則・要検証)。
  • 救いもあります。スキーマを明示し、バリデータで縛り、リトライを設計すれば、小型モデルでも関数呼び出しの信頼性を相当カバーできます(根拠: 小型モデルの関数呼び出しに関する研究・要検証)。
量子化を強めても「構造化出力の“形”」は崩れない(Qwen2.5 7B・A6000実測)
量子化単発
正答
JSON崩れ
bad_json
ツール誤
wrong_tool
引数誤
bad_args
未呼出
no_call
連鎖
成功
fp16(無圧縮)100%000067%
Q8_094%002056%
Q4_K_M(標準)90%000467%

要点: 壊れたJSON・誤ったツール選択は全量子化で0件(単発144試行中0)。量子化で落ちるのは僅かな判断(呼ぶ/呼ばない・引数の正しさ)だけで、構造化出力の“形”はQ4でも保たれる。連鎖は67/56/67%で単調劣化は出ず(9試行=小サンプル)。単発48試行/モデル・temp0.7・要検証(追試で確度を上げる)。

つまりローカルで本当に効くのは「量子化でJSONが壊れること」ではなく、判断(いつ・どう呼ぶか)と連鎖の安定性です。だから、チャット評価とは別軸を測るエージェント・スコアカードが要る。ツール選択・軌跡・Nステップ再現性・誤り回復は、チャットのベンチではそもそも測定対象に入りません。

まとめ

  • 本質的違いは**「ループを誰が回すか」**。チャットは人間、エージェントはコード+モデル。
  • エージェント能力は別の能力軸で、ツール忠実度・状態管理・回復・抑制が効き、信頼性は掛け算で結果を支配する。
  • だからチャットの強さはエージェントの強さを予測しない。ローカルでは量子化・文脈・遅延でさらに差が開く。

「結局どのローカルモデルがエージェント向きか」を一次実測で総合評価したのがエージェント実用度スコアカード、作り方はローカルでAIエージェントを動かすにまとめています。こうした能力をどう測っているか(能力天井×デバイス実行性の2層)は測定プロトコルで公開しています。