会社にローカルAIを設置して社員で共有する方法【社内AIサーバー入門】

「社外秘のデータをChatGPTに貼れない」「全社員分のAPI課金が読めない」——この2つを同時に解決するのが、社内に1台のAIサーバーを置いて、社員がブラウザから共有して使う構成です。データは社内から一切出ず、使い放題で、月額の従量課金もありません。この記事では、全体像・必要なハードウェア・コストを、図とグラフで整理します。

なぜ「社内ローカルAI」なのか

機密保持: 入力が外部サーバーに送られない。顧客情報・契約書・設計データ・ソースコードを安心して扱える。
コスト: 一度サーバーを用意すれば、社員が何回使っても追加課金ゼロ。人数が増えるほどクラウドAPIとの差が開く。
無制限: レート制限や利用枠を気にせず、要約・分類・文書検索などを全社で回せる。
コンプライアンス: 「生成AIにどのデータを渡したか」を社内で完全に管理できる。

全体像：1台のサーバーをみんなで使う

社員は専用ソフト不要。社内URLをブラウザで開くだけで、見た目はChatGPTそっくり。すべて社内で完結します。

社内ネットワーク（入力データは外部に出ません）

社員のPC・スマホ

ブラウザで開くだけ

Open WebUI

共有UI・ユーザー管理・RAG

Ollama / vLLM

推論エンジン

GPUサーバー

社内に1台でOK

必要なのは3つだけです。

GPUサーバー1台（社内設置／クラウドGPUでも可）
推論エンジン: Ollama（手軽）またはvLLM（多人数の同時利用に強い）
共有UI: Open WebUI（GitHub 10万スター超。マルチユーザー・チャット履歴・文書アップロード・社内RAGを標準装備）

ハードウェア選定（人数×モデルサイズで決まる）

サーバー選びは「同時に何人が使うか」と「どのサイズのモデルを動かすか」で決まります。まず動かすモデルが載るVRAMが前提です。

規模別の必要VRAM目安（4bit量子化・経験則）

小規模〜14B約10GB
中規模 27〜35B(MoE)約24GB
大規模 70B級約48GB

1T級（Kimi K2.7 等）はフル量子化で約630GB＝マルチGPUのサーバーが前提。1台の射程は70B級まで。

規模	想定	モデル	GPUの目安
小規模	数人〜十数人・たまに同時	〜14B	24GB GPU 1枚（RTX 4090/5090級）
中規模	部署単位・常時数人同時	27〜35B（MoE）	48GB級（RTX A6000 等）1枚
大規模	全社・数十人同時	70B級	H100級、または複数GPU＋vLLM

多人数の同時接続では、スループットに強いvLLMが有利。70B級（量子化）は単一の高性能GPUに載りますが、数十人が同時に使うと待ち行列が出るため2枚構成が安全という目安があります。根拠: Open WebUI/LLMセルフホストの運用ガイド。

実機での速度（tok/s）は検証DBに実測を掲載。たとえばRTX A6000（48GB）では35BのMoEが約122 tok/sと、中規模の社内利用に十分です。手元の構成で動くかは動くか診断でも確認できます。

構築の流れ（5ステップ）

詳細はOpen WebUI公式に譲りますが、流れはシンプルです。

サーバーにGPUドライバとDocker（またはOllama）を導入
推論エンジンを起動（ollama serve がOpenAI互換APIとして常駐）
Open WebUIをDockerで起動し、Ollamaをバックエンドに接続
管理者アカウントを作成し、社員をユーザー登録（権限・モデルの出し分けも可能）
必要なら社内文書を読ませてRAGを有効化（規程・マニュアル・FAQへの質問が可能に）

コスト：クラウドAPIとの損益分岐

ローカルは「初期投資＋電気代」、クラウドは「使った分だけ」。利用量が多いほどローカルが有利になります。下のグラフは一例（クラウド月3万円／サーバー初期40万円＋運用月6千円）。

累計コストの比較（例: クラウド月3万円／サーバー初期40万＋運用月6千円）

クラウド・1年36万円
ローカル・1年47万円
クラウド・3年108万円
ローカル・3年62万円
クラウド・5年180万円
ローカル・5年76万円

1年目はクラウドが安いが、3年で逆転、5年では差が約104万円に。ただしローカルは5年目前後でハード更新（再投資）が要る点に注意。利用量が多いほど分岐は早まる。

グラフの見方（これは累計です）: ローカルの金額が年々増えるのは増設のためではありません。累計（積み上がり）のグラフで、増えているのは運用費（電気代＋保守月6千円）が毎月積み上がる分だけ。サーバーは同じ1台のままです。クラウドは月3万円なので積み上がりが速く、時間が経つほど差が開きます。年あたりで見ると、ローカルは初年度47万円→2年目以降は7.2万円/年（運用費のみ）に対し、クラウドは毎年36万円が続きます。

スケールアップ（利用が増えたら）の具体例

上の図は「利用量が一定・1台で足りる」前提です。利用人数やモデルを増やすと、クラウドとローカルで増え方がまるで違います。

クラウドは“線形に青天井”: 利用量（トークン）に比例して月額が上がる。2倍なら月6万円、5倍なら月15万円——使うほど際限なく増えます。
ローカルは“買い切りの階段”: 1台で賄える範囲は、何回使っても追加課金ゼロ。容量を超えたら一度だけサーバーを買い足す“階段状”。継続増は電気代（台数分・月数千円）だけ。

利用規模（例）	クラウド月額	クラウド年額	ローカル追加投資（一度きり）
現状: 20名・1台で十分	3万円	36万円	初期40万円＋月0.6万円
2倍: 40名・2台 or 上位GPU	6万円	72万円	＋40万円＋月0.6万円
5倍: 100名・複数台/上位機	15万円	180万円	＋上位GPU/複数台

要点: 利用量・人数が多いほどローカルが効き（クラウドの月額が毎年積み上がる一方、ローカルは買い足し分が一度きり）、少人数・低頻度ならクラウドが身軽です。スケールするなら、上のコスト図に「買い足し分（1台あたり数十万円・一度きり）」を上乗せして試算してください。1台で何人まで賄えるかは同時利用人数とモデルサイズ次第で、動くか診断・検証DBで確認できます（数値は規模・モデルで変動します）。

累計コスト（2年目に利用2倍→2台目を買い足した現実シナリオ）

クラウド累計ローカル累計約2年で逆転

前提: クラウドは利用2倍で月3万→月6万（線形）。ローカルは初期40万＋運用月0.6万、2年目頭に2台目を+40万、運用は月1.2万へ。階段が乗っても累計はローカルが大きく下。5年でクラウド324万 vs ローカル約145万（差約179万）。数値は規模・モデルで変動します。

クラウド費用の前提（根拠）: 上の「月3万円」は仮定値で、特定サービスの請求額ではありません。クラウドLLMの実費は「API単価 × 利用トークン量」で決まり、モデルと文脈長で10倍以上変わります。2026年の代表的な単価（100万トークンあたり入力/出力）は、高性能級で Claude Opus 4.8 $5/$25・GPT-5.5 $5/$30、ミドルで Claude Sonnet 4.6 $3/$15・GPT-5.4 $2.5/$15、低価格で Gemini Flash-Lite $0.1/$0.4 など（根拠: LLM API価格比較・CloudZero ／ Inference.net）。

月3万円は一例として、高性能級モデルで月1,300タスク・1タスク約2万トークン（RAGの長文脈込み）を回した場合に概ね相当します（約$180/月 ≈ ¥2.7万・為替¥150/$の概算）。安いモデルや短い文脈なら数千円、長文脈・高頻度なら数万〜十万円超と幅が大きいので、必ず自社の実請求額（または「想定トークン量 × 単価」）に置き換えて判断してください。スケール時の月6万・月15万も、同じ単価に利用量を掛けた線形換算です。

自社の数字で損益分岐を出してみてください。

損益分岐シミュレータ

クラウドAPI vs 社内ローカルAI

自社の数字を入れると、何ヶ月でローカルが得になるかの目安が出ます（概算）。

クラウドAI 月額円現状/想定の従量課金サーバー初期費用円GPU・本体などサーバー運用月額円電気代・保守サーバー平均消費電力Wアイドル込みの平均W

クラウド累計ローカル累計（初期＋運用）約17ヶ月で逆転

緑の面が「ローカルに切り替えて浮く累計額」。利用量（クラウド月額）が増えるほど交差点は左へ動きます。

損益分岐17ヶ月

月あたり削減24,000円

3年でローカルがお得464,000円

※ クラウド3年 1,080,000円 / ローカル3年（初期＋運用）616,000円の比較。機材選定の前に、実測の処理速度を検証DBで確認してください。

電力・CO2の目安（サーバーを24時間365日稼働させた場合の概算）

年間消費電力1,314kWh

年間CO2排出591kg-CO2

CO2は全国平均係数0.45 kg/kWh（2024年度速報）で換算。クラウド側の消費電力は公開情報が乏しく直接比較は困難なため、ここはローカルの footprint のみを示します。用途に最小十分なモデルを選ぶほど電力もCO2も下げられます。

ローカルが得と出たら、次は機材選び

損益分岐は「どの機材で組むか」で変わります。実測の速度・適合・価格感は次で確認できます。

機材の選び方ガイド →動くか診断検証DB

金額に表れない価値（機密を出せる・レート制限がない）も、ローカルの大きな利点です。

数字で見る導入効果（モデルケース）

「結局いくら得するのか」を仮のモデル企業で試算します。数値はすべて仮定で、自社の実態に合わせ上の試算ツールで置き換えてください。

前提: 従業員50名・AI利用20名。月間で議事録100本／文書の要約・翻訳400件／問い合わせ一次対応800件を処理。クラウドAPIなら月3万円相当、ローカルはGPUサーバー初期40万円＋運用月6千円と仮定。

① 実コスト削減（ハードな現金効果）

期間	クラウド	ローカル	差額
1年累計	36万円	47.2万円（初期込み）	＋11.2万円（ローカルが高い）
3年累計	108万円	61.6万円	−46.4万円
5年累計	180万円	76万円	−104万円

損益分岐は約17ヶ月、5年では約104万円の差。クラウドは従量・ローカルは固定のため、利用量が増えるほど差は開きます。ただし5年試算はハード更新なしの楽観値で、5年目前後の買い替え（再投資）を見込むと差は縮みます（下記「切り替えコストと課題」参照）。

② 生産性の効果（時間→金額の“目安”）

業務	1件あたり短縮	月間件数	月間削減時間	金額換算（時給2,500円）
議事録作成	30分→5分	100本	約42時間	約10.5万円
要約・翻訳	10分→2分	400件	約53時間	約13.3万円
問い合わせ一次対応	6分→2分	800件	約53時間	約13.3万円
合計	—	—	約148時間/月	約37万円/月相当

重要: この「金額換算」は機会価値（浮いた時間を他業務へ振り向けられる前提）で、即現金化ではありません。意思決定では①のハードな削減と分けて扱ってください。短縮率はモデル品質・業務で大きく変動しがちです。

KPIの置き方（達成を測る）

KPI	目標値の例	測り方
AI関連コスト	損益分岐17ヶ月／3年で−46万円	クラウド課金→電気代＋償却の月次差
処理時間	主要業務 −50%	before/afterの実測（導入前にベースライン必須）
定着率	利用20名・週3回以上	Open WebUIの利用ログ
機密リスク	外部送信したAI処理 0件	ローカル化できた処理の件数

数字で語るには導入前のベースライン取得が必須です。指標設計の詳細は成果指標と全体最適へ。

切り替えコストと、隠れた課題

上の試算はハードと電気代だけの比較です。実際にクラウドから移行するには“見えにくいコスト”が乗るため、ROIにはこれも織り込んでください。都合の良い数字だけを見ないことが、失敗しない導入の条件です。

初期の切り替えコスト（一度きり）: サーバー構築・モデル選定・社内RAG整備・既存ワークフローの繋ぎ替え・社員教育。上の初期40万円はハード代のみで、外注なら数十万円〜、内製でも担当者の工数が別途乗ります。移行期は一時的にクラウドとの二重運用も発生します。
ハードの更新（再投資）: GPUは3〜5年で陳腐化します。5年試算は“更新なし”の楽観値で、5年目前後の買い替えを見込むと差は縮みます。
運用負荷: モデル更新・ユーザー権限・ログ・障害対応が継続コストに。属人化しやすく、担当者が抜けると回らなくなりがちです。
品質の上限: 最高難度の推論や最新の超長文処理はクラウドが優位。ローカルは「最小十分」の範囲で使い、難所はクラウド併用が現実的です。
可用性: 1台構成は単一障害点。重要業務は冗長化やクラウドへのフェイルオーバーを備える必要があります。
技術的な詰まりどころ（VRAM不足・同時接続・電源/空調）は次節「つまずきやすい点」も参照。

結論: ローカルAIは利用量が多く・機密性が高く・定型反復が多いほど有利です。逆に少量利用や高度タスク中心ならクラウド（または併用）が正解なことも多い。上の数字は「条件が揃えば」の試算であり、自社の切り替えコストを足し、ベースラインで検証してから判断してください。

つまずきやすい点

VRAM不足でモデルが載らない: 人数より先に「動かすモデルが載るか」を確認。大規模モデルの必要メモリも参照。
同時接続で遅くなる: Ollamaは手軽ですが、多人数同時はvLLMの方が安定。
電源・空調・設置: GPUサーバーは消費電力と発熱が大きい。常時稼働の前提で設置場所を確保。
更新・バックアップ運用: モデル更新・ユーザー管理・ログの扱いを最初に決めておく。

まず何から

自社の「同時利用人数」と「扱いたいモデルサイズ」を見積もる
それに合うGPUを選ぶ（実測の速度は検証DB、適合は動くか診断で確認）
小さく1台で始め、足りなければvLLM＋複数GPUへ拡張

機材を入手する

上の「ハードウェア選定」で目安を決めたら、実測（検証DB）で速度を確かめてから選んでください。価格・在庫はリンク先で変動します。

中規模（27〜35B・48GB級）: RTX A6000 — Amazonで見る広告・Amazon 楽天で見る広告・楽天
小規模（〜14B・24〜32GB級）: RTX 4090 / RTX 5090 — Amazonで見る広告・Amazon Amazonで見る広告・Amazon

本格的な構築・運用設計や、自社データでのRAG導入を相談したい場合は、Link Fieldへどうぞ。GIS・現場DX・ローカルAI導入の実務に対応しています。巨大モデルを動かす現実はKimi K2.7級・大規模AIの現実に、成果の測り方は成果指標と全体最適にまとめています。