大規模なAIワークロードを支えるGPUクラスタの管理は、ハードウェアの信頼性、ソフトウェアの柔軟性、そしてリアルタイムでの故障対応能力が不可欠です。特に、GPUの高コストと高パフォーマンスを活かすためには、故障検出と自動回復(Fault Detection and Recovery)が必須です。本記事では、クラスタ管理における観測性(Observability)、GPUクラスタの設計、AIワークロードの最適化、CNCF(Cloud Native Computing Foundation)の技術スタックを活用した実踐的なアプローチを解説します。
BellaクラスタとBella 2クラスタは、IBM Cloud上で構築された大規模なGPUクラスタの例です。Bellaクラスタは、8つのNVIDIA 800シリーズGPUを搭載し、MVLinkとMV Switchを介して800 Gbpsのネットワーク帯域を確保しています。一方、Bella 2クラスタは、NVIDIA H100 GPUを搭載し、ネットワーク帯域を3.2 TB/sに向上させ、トレーニングとインフェリアンスの両方をサポートしています。NVMeストレージの容量もBellaクラスタの2倍に拡張されています。
クラスタ管理には、Red Hat OpenShiftがベースプラットフォームとして採用され、Multus CNIを用いてPodの複數ポートアクセスを実現しています。MLB Batchは、Kubernetes上でAIと機械學習ワークロードを管理するためのリソース管理ツールで、多租戶環境でのリソース配分、優先順位、公平性を確保します。Qシステムは、Kubernetesの原生キュー管理機能を拡張し、クラスタキューとスラッククラスタキューを組み合わせて、動的なリソース調整を可能にします。
AppWrapperは、計算リソース、サービス、証明書、エントリポイントを統合し、ワークロードの異常時のリソースクリーンアップやリトライ戦略を提供します。Autopilotは、GPU、ネットワーク、ストレージの健康狀態を週期的に監視し、異常を検出することで自動的なリセットとリソース再配分を実現します。
Metaの白皮書では、78%のトレーニング中斷がハードウェア故障(特にGPU故障)に起因していることが示されています。University of Illinoisの研究では、2.5年間で4,000回以上のGPU関連ワークロードのクラッシュが報告されています。このような課題に対し、Prometheus、DCGM Exporter、Grafanaを組み合わせた監視・診斷ツールが導入され、リアルタイムでの異常検出が可能となっています。
Autopilotは、GPUやネットワークの異常を検出後、Podの親和性(Affinity)を自動的に調整し、異常ノードへのワークロード配分を防ぎます。Qシステムのスラッククラスタキューは、ノードの健康狀態に応じて動的に容量を調整し、システムメンテナンス時の運用継続性を確保します。
MLB Batchは、トレーニング、ファインチューニング、モデルサービスなどのワークロードタイプに応じてリソースを分類し、配額と優先順位を設定することで、リソースの公平な使用を実現します。AppWrapperは、Podの狀態を監視し、ベースコンテローラーが回復できない場合にリトライ戦略を自動的に実行します。
大規模なGPUクラスタにおけるAIワークロードの管理には、故障検出と回復、観測性、リソース最適化が不可欠です。本記事で紹介した技術スタック(Autopilot、Qシステム、AppWrapper)は、クラスタの信頼性と運用効率を向上させるための実踐的なアプローチです。クラスタ管理者は、動的な配額管理や自動リセット機能を活用し、ハードウェアの故障やメンテナンスにも対応可能な柔軟な設計を追求すべきです。