防犯カメラの映像をクラウドAIに送って解析する運用には、通信量・遅延・そして「映像そのものを外部に送ってよいか」という懸念がつきまといます。物体検知(人物・車両の検知程度のタスク)はローカルで完結させやすいタスクです。当サイトが実測したRaspberry Pi 5+AI HAT2+(Hailo-10H)のデータを基に、低コストな構成を整理します。

結論

  • 人物・車両検知はローカルで十分実用的です。Hailo-10H搭載のRaspberry Pi 5で、YOLOv8mが76.25 FPSまで加速します(CPU実行時は約3〜5 FPS)。
  • 画像分類(ResNet50・汎用CNN処理能力の目安)は307.64 FPS。監視カメラの用途では過剰なほどの余力です。
  • 機材はRaspberry Pi 5+AI HAT2+の2点構成で、Jetson等の上位機材は不要です。
  • 映像はローカルで処理が完結し、外部への常時アップロードが要りません。ただし検知結果や記録の扱いは別問題で、個人情報保護法・各種ガイドラインの確認は必要です(後述)。

なぜ防犯カメラの物体検知はローカルに向くか

防犯・警備カメラのAI活用で最も一般的なのは、「人が映ったら通知する」「車両を検知する」といった物体検知です。この処理には次の3つの理由でローカルが向いています。

  • 映像を外に出したくない: 敷地内・施設内の映像には来訪者や従業員が映り込み、個人情報に該当し得ます(後述)。クラウドへの常時アップロードは情報漏洩リスクと保存先の管理コストを増やします。
  • 常時稼働でも通信量が発生しない: 24時間の映像をクラウドへ送り続けると通信量・API費用がかさみます。ローカルなら検知結果(テキストやイベントログ)だけを必要な時に送れば済みます。
  • 遅延が小さい: 現場での即時通知(侵入検知等)は、クラウド往復の遅延がない分、ローカル処理の方が有利です。
防犯カメラのクラウド運用とローカル運用の違い

クラウドAI運用

カメラ → 常時アップロード → クラウドで検知

  • ・映像そのものが外部サーバーに送られる
  • ・通信量・API費用が稼働時間に比例して増える
  • ・検知結果が届くまでの往復遅延がある

ローカルAI運用(本記事の構成)

カメラ → Hailo-10Hで検知 → 該当時のみ通知

  • ・映像は現地の機材内で処理が完結する
  • ・送信するのは検知結果(通知)のみで通信量が小さい
  • ・クラウド往復がないぶん通知までが速い

検知結果・録画データそのものの保存・共有方法は別途の設計が必要(本記事「導入時の注意点」参照)。

物体検知はLLMのテキスト生成とは全く別のワークロードで、CNN(畳み込みニューラルネットワーク)に最適化されたNPUが素直に効きます。

実測: CPU実行 vs Hailo-10H

Raspberry Pi 5にAI HAT2+(Hailo-10H・40TOPS)を装着した状態での実測です。

Raspberry Pi 5:AI HAT2+(Hailo-10H)あり / なし
タスクなし(CPU)あり(Hailo)効果
物体検出 YOLOv8m約3〜5 FPS76.25 FPS約15〜25倍速い
画像分類 ResNet50数十FPS級(経験則)307.64 FPS大幅に速い
LLM|ollama標準(Qwen2.5 1.5B)10.6 tok/s10.6 tok/sHailo不使用=不変
LLM|Hailo GenAI SDK(同上)4.75 tok/s / 2.5WCPUより遅いが超低電力

画像(CNN)はAI HAT2+で激変、LLMの速度には効かない。これがTOPS神話の核心です。最下行が決定的で、Hailo専用のGenAI SDKでLLMを実際に動かしても 4.75 tok/s=CPUの10.6 tok/sより遅い(ただし2.5WとCPU 7.9Wより省電力でCPUを解放)。つまり40 TOPSは画像には効く(308 FPS)が、LLMの速度には効かない。ollama/llama.cppはそもそもHailoを使わずCPU実行(=AI HATの有無で不変)。Hailo・LLMとも当サイトの自前実測(Hailo LLMはHailoRT 5.1.1+v5.2.0 HEF・end-to-end計測で公称~9.5 tok/sは下回るが「CPU比で速くない」結論は不変)、CPUのYOLOは外部ベンチ(根拠: Seeed Studio Wiki 等)。要検証。

YOLOv8m(人物・車両等の物体検知でよく使われるモデル)は約15〜25倍速くなり、画像分類(ResNet50・汎用CNN処理能力の目安)は307.64 FPSに達します。防犯カメラ用途で必要なフレームレート(数FPS〜十数FPS程度あれば十分なことが多い)に対しては、Hailo-10Hは十分すぎる余力があります。

なお同じ機材でLLM(文章生成)を動かすと事情が変わり、Hailoの効果はほぼ出ません。理由はTOPS神話の検証で解説した通り、LLMの逐次生成はメモリ帯域律速でCNN向けNPUと相性が悪いためです。「映像はNPUで速く、文章生成はCPU/GPUで」という役割分担が実態に合っています。

構成例と機材

  • 本体: Raspberry Pi 5 8GB
  • NPU: AI HAT2+(Hailo-10H・40TOPS)
  • 想定用途: 敷地内カメラの人物・車両検知、通知トリガー、通行人数のカウント(個人識別を伴わない匿名集計)

上位のJetson・GPUマシンを使わずとも、この2点構成で物体検知は実用速度に達します。機材はRaspberry Pi 5とAI HAT2+の2点のみで、初期コストを抑えられます。手元の機材で他のモデルがどう動くかは動くか診断、機材選び全般は機材の選び方をどうぞ。

導入時の注意点

  • 映像処理をローカルで完結させても、検知結果・録画データの扱いは別途整理が必要です。個人情報保護法・各種ガイドラインへの適合は、用途(住宅・店舗・公共施設等)によって求められる対応が異なります。導入前に一次情報・専門家への確認をおすすめします。
  • 本記事は人物・車両の検知程度の一般的な物体検知を対象にしています。顔認識など個人を特定する処理は、検知よりも慎重な法的整理が必要な領域です。

精度等について

  • 実測はYOLOv8m・ResNet50の2モデルのみです。防犯カメラで使われる他のモデル(軽量な顔検知モデル等)での実測ではありません。
  • CPU実行時のYOLOv8m基準値(約3〜5 FPS)は自社実測ではなく外部ベンチの参考値です(Seeed Studio Wiki)。
  • 実際のカメラ映像(実運用の解像度・フレームレート・同時接続台数)での検証ではなく、単体モデルの推論速度の実測です。実運用ではカメラ台数・解像度に応じた検証が別途必要です。
  • 法令・ガイドラインに関する記述は一般的な留意点の整理であり、法的助言ではありません。

バーチカルAI全体の考え方はバーチカルAIにローカルAIをどう組み込むか、他業種の実装例も順次追加予定です。

この機材を入手する

実売価格は変動するため、最新の価格はリンク先で確認してください。