大規模AIとGPUクラスタの管理：故障検出と回復の課題と機會

はじめに

大規模なAIワークロードを支えるGPUクラスタの管理は、ハードウェアの信頼性、ソフトウェアの柔軟性、そしてリアルタイムでの故障対応能力が不可欠です。特に、GPUの高コストと高パフォーマンスを活かすためには、故障検出と自動回復（Fault Detection and Recovery）が必須です。本記事では、クラスタ管理における観測性（Observability）、GPUクラスタの設計、AIワークロードの最適化、CNCF（Cloud Native Computing Foundation）の技術スタックを活用した実踐的なアプローチを解説します。

技術の定義と基本概念

GPUクラスタの設計

BellaクラスタとBella 2クラスタは、IBM Cloud上で構築された大規模なGPUクラスタの例です。Bellaクラスタは、8つのNVIDIA 800シリーズGPUを搭載し、MVLinkとMV Switchを介して800 Gbpsのネットワーク帯域を確保しています。一方、Bella 2クラスタは、NVIDIA H100 GPUを搭載し、ネットワーク帯域を3.2 TB/sに向上させ、トレーニングとインフェリアンスの両方をサポートしています。NVMeストレージの容量もBellaクラスタの2倍に拡張されています。

ソフトウェアスタック

クラスタ管理には、Red Hat OpenShiftがベースプラットフォームとして採用され、Multus CNIを用いてPodの複數ポートアクセスを実現しています。MLB Batchは、Kubernetes上でAIと機械學習ワークロードを管理するためのリソース管理ツールで、多租戶環境でのリソース配分、優先順位、公平性を確保します。Qシステムは、Kubernetesの原生キュー管理機能を拡張し、クラスタキューとスラッククラスタキューを組み合わせて、動的なリソース調整を可能にします。

AppWrapperとAutopilot

AppWrapperは、計算リソース、サービス、証明書、エントリポイントを統合し、ワークロードの異常時のリソースクリーンアップやリトライ戦略を提供します。Autopilotは、GPU、ネットワーク、ストレージの健康狀態を週期的に監視し、異常を検出することで自動的なリセットとリソース再配分を実現します。

主な特徴と機能

故障検出と回復

Metaの白皮書では、78%のトレーニング中斷がハードウェア故障（特にGPU故障）に起因していることが示されています。University of Illinoisの研究では、2.5年間で4,000回以上のGPU関連ワークロードのクラッシュが報告されています。このような課題に対し、Prometheus、DCGM Exporter、Grafanaを組み合わせた監視・診斷ツールが導入され、リアルタイムでの異常検出が可能となっています。

自動化と観測性

Autopilotは、GPUやネットワークの異常を検出後、Podの親和性（Affinity）を自動的に調整し、異常ノードへのワークロード配分を防ぎます。Qシステムのスラッククラスタキューは、ノードの健康狀態に応じて動的に容量を調整し、システムメンテナンス時の運用継続性を確保します。

リソース管理の最適化

MLB Batchは、トレーニング、ファインチューニング、モデルサービスなどのワークロードタイプに応じてリソースを分類し、配額と優先順位を設定することで、リソースの公平な使用を実現します。AppWrapperは、Podの狀態を監視し、ベースコンテローラーが回復できない場合にリトライ戦略を自動的に実行します。

実際の応用ケース

ワークロードのサブミット：3ノードのテストクラスタにAIワークロードをサブミットします。
Autopilotによる異常検出：ノードが重大な故障を検出され、Autopilotがノードを「Evict」ラベルでマークします。
AppWrapperの自動リセット：AppWrapperコンテローラーがノードラベルを検出し、Podを削除し、新しいPodを健康なノードに再配分します。
ワークロードの再実行：リセットが完了後、ワークロードを再サブミットし、異常ノードへの配分を迴避します。

本技術の優位性と課題

優位性

自動化による故障対応：AutopilotとAppWrapperの組み合わせにより、人間の介入を最小限に抑え、継続的な運用が可能になります。
高リソース利用率：動的な配額管理とスラックキューの導入により、ハードウェアの故障やメンテナンス時でもリソースの有効活用が実現されます。
観測性の強化：PrometheusとDCGM Exporterの統合により、GPUやネットワークの狀態をリアルタイムで監視し、迅速なトラブルシューティングが可能になります。

課題

ハードウェアの信頼性：GPUやネットワークの故障率が高く、継続的な監視と回復メカニズムが求められます。
複雑なリソース管理：多租戶環境でのリソース配分や優先順位の調整には、高度な設計が不可欠です。

結論

大規模なGPUクラスタにおけるAIワークロードの管理には、故障検出と回復、観測性、リソース最適化が不可欠です。本記事で紹介した技術スタック（Autopilot、Qシステム、AppWrapper）は、クラスタの信頼性と運用効率を向上させるための実踐的なアプローチです。クラスタ管理者は、動的な配額管理や自動リセット機能を活用し、ハードウェアの故障やメンテナンスにも対応可能な柔軟な設計を追求すべきです。