NVIDIA DGX Sparkは4TB SSDを積んでいる。これだけあれば安心——」と思ったら危険です。AI用途でストレージ設計を間違えると、容量より先に“SSDの寿命”が尽きます。

結論を先に言うと、AIは書き込みが異常に多く、SSDは容量と**書き込み寿命(TBW)**の両方で限界に達します。対策は「SSDを使わない」ではなく、①生成物・データセットはHDDへ逃がす階層化 ②寿命に余裕のあるドライブ選定 ③巨大モデルのSSDスワップを避ける——この3点です。

AIは“書き込み”が異常に多い

AI学習・生成のワークフローは、ほぼ全工程が書き込みです。チェックポイント保存、ログ、エポックごとの前処理、データ拡張、分散保存——いずれも継続的にディスクへ書き込みます(根拠: Silicon Power / Compudevices)。

さらに画像・動画・モデルの生成は、人間の手作業の数千倍の速度で出力されます。何TBあっても容量はすぐ埋まる——ここまでは多くの人が実感する通りです。ただし注意すべきは、「容量が埋まる」と「寿命が尽きて壊れる」は別問題だということ。両方がAIでは同時に効いてきます。

SSDは“書き潰れる”——TBWという寿命

SSDには TBW(Terabytes Written=生涯の総書き込み許容量)DWPD(1日あたり何回容量分書けるか) という寿命指標があります(根拠: ADATA / YANSEN)。これを超えると、容量が空いていても劣化・故障します。

  • 目安: AI用途なら最低でも 1TBあたり600 TBW、毎日学習するなら更に上。エンタープライズ向けは最大6,000 TBW級まである(根拠: KingSpec)。
  • 故障は“一発”ではなく累積: ログ・チェックポイント・キャッシュ・スワップが、少しずつ寿命を削っていきます。
  • 特に危険なのが巨大モデルのスワップ: メモリに収まらないモデルをSSDスワップで無理に動かすと、書き込み量が爆発します。当サイトの巨大モデルをローカルで動かすでは、16GB機で約11.6GBのスワップを観測しました。これが常時続けば、寿命を急速に削る典型パターンです(経験則/要検証)。

実体験:SSDは本当に壊れる(計測現場から)

机上論ではありません。運営者自身の現場で、こんなことが起きています。

  • 8万円で買ったSSDをAI学習に使い、3日で故障。以来、SSDを全面的には信用していません。
  • ハッカソンで貸し出した20TB SSD搭載マシンを、ストレージ知識のない参加者が1日で破損させました。

念のため補足すると、これは「すべてのSSDが3日で死ぬ」という意味ではありません。寿命に対して桁違いの書き込み(スワップ/チェックポイント連打)や、書き込み耐久の低いドライブだと、現実にこの速さで終わり得る、という実例です(条件依存・経験則/要検証)。AIの読み書きは“予想外に多い”——この一点を甘く見ないでください。

正しい対策:階層化・耐久・スワップ回避

業界のベストプラクティスも、結論は同じ方向です。

① 階層化(ホットはSSD・コールドはHDD)

OSとアクティブなモデル/データセットはNVMe SSD(ホット)、大量の生成物や当面使わないデータセットは**HDD(コールド=容量の母艦)**に置きます。HDDはAIインフラの容量階層の主役で、低コストの大容量を支えます(根拠: Western Digital(SCMP) / Serverion)。

つまり「外付けHDDをメインに」という直感は正しい——ただし正確には、HDDは“容量の母艦”、SSDは“作業用”。churnの激しい生成物はHDD(や NAS)へ逃がし、SSDの寿命を守るのが要点です。作業中のデータセットまでHDDに置くと、今度はランダムI/Oが遅くて学習が詰まります。

② 寿命(TBW/DWPD)で選ぶ

書き込みが多い用途は、高TBW・高DWPDのドライブを選びます。安価なQLC/PLCはコールド〜ウォーム向き、常時書き込むホットなデータにはMLCやエンタープライズ級が向きます(根拠: StarWind)。

③ 巨大モデルのSSDスワップを避ける

メモリに載らないモデルを無理にSSDスワップで動かすのは、速度にも寿命にも最悪です。動くか診断メモリに収まる構成を選ぶことが、結果的にSSDを守ります。

DGX Sparkを例に

DGX Sparkは4TB NVMe SSD+128GBユニファイドメモリ(根拠: Micro Center)。4TBは大きいものの、生成物を貯め続ければ容量も寿命も有限です。実運用では、生成物・データセットは外付けHDDやNASへ逃がし、内蔵SSDは作業用に保つのが安全です。

まとめ

  • AIは書き込みが極端に多く、SSDは容量と**書き込み寿命(TBW)**の両方で限界に達する。
  • 正解は「SSDを使わない」ではなく、①階層化(HDDを容量の母艦に)②高耐久ドライブ ③スワップ回避
  • 運営者の実体験では、条件次第でSSDは数日で壊れる。AIの読み書きの多さを甘く見ないこと。
  • 何が載るかは動くか診断、機材選びはローカルAIの機材ガイドも参考に(外付けHDD・高耐久SSDの具体的な選び方は今後追記予定)。