「NVIDIA DGX Sparkは4TB SSDを積んでいる。これだけあれば安心——」と思ったら危険です。AI用途でストレージ設計を間違えると、容量より先に“SSDの寿命”が尽きます。
結論を先に言うと、AIは書き込みが異常に多く、SSDは容量と**書き込み寿命(TBW)**の両方で限界に達します。対策は「SSDを使わない」ではなく、①生成物・データセットはHDDへ逃がす階層化 ②寿命に余裕のあるドライブ選定 ③巨大モデルのSSDスワップを避ける——この3点です。
AIは“書き込み”が異常に多い
AI学習・生成のワークフローは、ほぼ全工程が書き込みです。チェックポイント保存、ログ、エポックごとの前処理、データ拡張、分散保存——いずれも継続的にディスクへ書き込みます(根拠: Silicon Power / Compudevices)。
さらに画像・動画・モデルの生成は、人間の手作業の数千倍の速度で出力されます。何TBあっても容量はすぐ埋まる——ここまでは多くの人が実感する通りです。ただし注意すべきは、「容量が埋まる」と「寿命が尽きて壊れる」は別問題だということ。両方がAIでは同時に効いてきます。
SSDは“書き潰れる”——TBWという寿命
SSDには TBW(Terabytes Written=生涯の総書き込み許容量) と DWPD(1日あたり何回容量分書けるか) という寿命指標があります(根拠: ADATA / YANSEN)。これを超えると、容量が空いていても劣化・故障します。
- 目安: AI用途なら最低でも 1TBあたり600 TBW、毎日学習するなら更に上。エンタープライズ向けは最大6,000 TBW級まである(根拠: KingSpec)。
- 故障は“一発”ではなく累積: ログ・チェックポイント・キャッシュ・スワップが、少しずつ寿命を削っていきます。
- 特に危険なのが巨大モデルのスワップ: メモリに収まらないモデルをSSDスワップで無理に動かすと、書き込み量が爆発します。当サイトの巨大モデルをローカルで動かすでは、16GB機で約11.6GBのスワップを観測しました。これが常時続けば、寿命を急速に削る典型パターンです(経験則/要検証)。
実体験:SSDは本当に壊れる(計測現場から)
机上論ではありません。運営者自身の現場で、こんなことが起きています。
- 8万円で買ったSSDをAI学習に使い、3日で故障。以来、SSDを全面的には信用していません。
- ハッカソンで貸し出した20TB SSD搭載マシンを、ストレージ知識のない参加者が1日で破損させました。
念のため補足すると、これは「すべてのSSDが3日で死ぬ」という意味ではありません。寿命に対して桁違いの書き込み(スワップ/チェックポイント連打)や、書き込み耐久の低いドライブだと、現実にこの速さで終わり得る、という実例です(条件依存・経験則/要検証)。AIの読み書きは“予想外に多い”——この一点を甘く見ないでください。
正しい対策:階層化・耐久・スワップ回避
業界のベストプラクティスも、結論は同じ方向です。
① 階層化(ホットはSSD・コールドはHDD)
OSとアクティブなモデル/データセットはNVMe SSD(ホット)、大量の生成物や当面使わないデータセットは**HDD(コールド=容量の母艦)**に置きます。HDDはAIインフラの容量階層の主役で、低コストの大容量を支えます(根拠: Western Digital(SCMP) / Serverion)。
つまり「外付けHDDをメインに」という直感は正しい——ただし正確には、HDDは“容量の母艦”、SSDは“作業用”。churnの激しい生成物はHDD(や NAS)へ逃がし、SSDの寿命を守るのが要点です。作業中のデータセットまでHDDに置くと、今度はランダムI/Oが遅くて学習が詰まります。
② 寿命(TBW/DWPD)で選ぶ
書き込みが多い用途は、高TBW・高DWPDのドライブを選びます。安価なQLC/PLCはコールド〜ウォーム向き、常時書き込むホットなデータにはMLCやエンタープライズ級が向きます(根拠: StarWind)。
③ 巨大モデルのSSDスワップを避ける
メモリに載らないモデルを無理にSSDスワップで動かすのは、速度にも寿命にも最悪です。動くか診断でメモリに収まる構成を選ぶことが、結果的にSSDを守ります。
DGX Sparkを例に
DGX Sparkは4TB NVMe SSD+128GBユニファイドメモリ(根拠: Micro Center)。4TBは大きいものの、生成物を貯め続ければ容量も寿命も有限です。実運用では、生成物・データセットは外付けHDDやNASへ逃がし、内蔵SSDは作業用に保つのが安全です。
まとめ
- AIは書き込みが極端に多く、SSDは容量と**書き込み寿命(TBW)**の両方で限界に達する。
- 正解は「SSDを使わない」ではなく、①階層化(HDDを容量の母艦に)②高耐久ドライブ ③スワップ回避。
- 運営者の実体験では、条件次第でSSDは数日で壊れる。AIの読み書きの多さを甘く見ないこと。
- 何が載るかは動くか診断、機材選びはローカルAIの機材ガイドも参考に(外付けHDD・高耐久SSDの具体的な選び方は今後追記予定)。