【導(dǎo)讀】對于在 2026 年管理EB級基礎(chǔ)設(shè)施的數(shù)據(jù)中心運(yùn)營商而言,關(guān)鍵問題已不再僅僅是是否擁有備份,而是存儲基礎(chǔ)設(shè)施能否提供符合實際運(yùn)營需求的數(shù)據(jù)韌性:包括在線業(yè)務(wù)所需的高可用性、跨故障域的數(shù)據(jù)持久性,以及抵御攻擊所需的不可變歸檔能力。
設(shè)施規(guī)劃中的乘數(shù)效應(yīng)
云服務(wù)提供商通過糾刪碼、異地冗余和自動分層等多重保護(hù)機(jī)制,承諾提供 11 個 9(99.999999999%)的數(shù)據(jù)持久性。但現(xiàn)實的經(jīng)濟(jì)邏輯是:當(dāng)數(shù)據(jù)在三個可用區(qū)之間進(jìn)行地理冗余時,根據(jù)復(fù)制和糾刪碼方案的不同,備份和副本數(shù)據(jù)量可能會達(dá)到原始存儲占用的 2 到 3 倍。這一“乘數(shù)效應(yīng)”不僅作用于數(shù)據(jù)容量,還會同步放大以下成本維度,包括:機(jī)架空間、電力消耗、散熱需求和持續(xù)運(yùn)營成本。
在當(dāng)前云數(shù)據(jù)中,絕大多數(shù)仍存儲在硬盤(HDD)上,因此每TB功耗、組件壽命以及故障帶來的運(yùn)營成本,已成為影響數(shù)據(jù)中心能效(PUE)和單機(jī)架成本的核心變量。
組件故障的隱藏成本
傳統(tǒng)數(shù)據(jù)中心財務(wù)模型通常將數(shù)據(jù)持久性基礎(chǔ)設(shè)施視為線性乘數(shù),但這忽略了在總體擁有成本(TCO)中占據(jù)主導(dǎo)地位的運(yùn)營成本。例如:在部署一百萬個存儲組件、且年故障率為1%的場景下,運(yùn)營人員平均每天面臨約 27 次組件故障,并需要執(zhí)行重建操作。每次重建都會帶來連鎖影響:持續(xù)讀取壓力作用于相鄰設(shè)備,從而功耗增加、散熱負(fù)荷加劇、網(wǎng)絡(luò)帶寬被占用,觸發(fā)級聯(lián)故障的風(fēng)險。
組件可靠性直接決定了重建頻率。若年故障率分別為 0.5% 和 1.5%,則每日重建操作的頻率將產(chǎn)生三倍的差異。這不僅會導(dǎo)致可量化的能耗波動和制冷負(fù)荷變化(因多個機(jī)架同時處于高利用率狀態(tài)所致),還會引發(fā)網(wǎng)絡(luò)擁塞,并占用技術(shù)人員用于組件更換的時間。
勒索軟件推動“不可變歸檔”成為剛需
如今,勒索軟件攻擊者已將目標(biāo)轉(zhuǎn)向生產(chǎn)存儲系統(tǒng),甚至包括那些旨在確保可用性的冗余機(jī)制。這一嚴(yán)峻現(xiàn)實,使數(shù)據(jù)韌性策略——特別是日益與在線系統(tǒng)隔離或物理隔離的不可變歸檔存儲——從合規(guī)性要求提升為不可或缺的運(yùn)營剛需。在線存儲側(cè)重于業(yè)務(wù)負(fù)載的可用性和持久性,而不可變歸檔則提供了抵御攻擊所需的額外保護(hù)層。
這也帶來了新的基礎(chǔ)設(shè)施挑戰(zhàn):可能閑置數(shù)月的歸檔存儲基礎(chǔ)設(shè)施,在生產(chǎn)系統(tǒng)受損的恢復(fù)場景下,必須瞬間提供持續(xù)的高強(qiáng)度讀取性能。設(shè)施管理人員必須為歸檔系統(tǒng)配置足夠的電力、散熱和網(wǎng)絡(luò)容量,以應(yīng)對可能持續(xù)數(shù)周的多 PB 級數(shù)據(jù)恢復(fù)操作所帶來的極限吞吐量壓力。在數(shù)據(jù)恢復(fù)期間,單一存儲組件的故障會對相鄰組件造成級聯(lián)壓力,進(jìn)而產(chǎn)生局部熱點,這不僅會增加散熱系統(tǒng)的負(fù)荷,還會提高相鄰機(jī)架發(fā)生熱致故障的風(fēng)險。
AI 工作負(fù)載加劇規(guī)劃的復(fù)雜性
AI 訓(xùn)練負(fù)載引入了具有獨特基礎(chǔ)設(shè)施需求的關(guān)鍵歸檔數(shù)據(jù)資產(chǎn)。傳統(tǒng)數(shù)據(jù)在歸檔層中通常處于冷數(shù)據(jù)狀態(tài),而與之不同的是,AI 訓(xùn)練數(shù)據(jù)集面臨著定期的驗證讀取和周期性的重訓(xùn)練循環(huán),從而產(chǎn)生了持續(xù)的工作負(fù)載模式,并對以下方面造成影響:
電力規(guī)劃: 歸檔系統(tǒng)從閑置切換到極限讀取狀態(tài)會產(chǎn)生功耗波動,進(jìn)而影響容量規(guī)劃和UPS(不間斷電源)的容量選型。
散熱需求: 帶有版本控制的 AI 存儲庫會經(jīng)歷高頻讀取的訪問模式,產(chǎn)生持續(xù)的熱負(fù)荷
網(wǎng)絡(luò)架構(gòu): 遷移 PB 級的 AI 檢查點會產(chǎn)生東西向流量,這與傳統(tǒng)的南北向流量模式截然不同
預(yù)計到 2027 年,每年將新增 130–140 個超大規(guī)模數(shù)據(jù)中心,且用于支持 AI 能力的基礎(chǔ)設(shè)施支出將高達(dá)數(shù)千億美元。因此,在規(guī)劃備份基礎(chǔ)設(shè)施時,充分考量在極端情況下確保快速恢復(fù)所需的系統(tǒng)電力、散熱和網(wǎng)絡(luò)影響,顯得至關(guān)重要。
數(shù)據(jù)中心運(yùn)營者應(yīng)關(guān)注的關(guān)鍵問題
數(shù)據(jù)中心運(yùn)營商應(yīng)審查其存儲基礎(chǔ)設(shè)施是否與運(yùn)維實際相符:
電力與熱量的可預(yù)測性: 存儲組件在整個生命周期內(nèi)是否保持穩(wěn)定的功耗區(qū)間?
持續(xù)性能: 歸檔系統(tǒng)在閑置數(shù)月后,能否在不產(chǎn)生散熱問題的情況下提供額定吞吐量?
故障模式的可預(yù)測性: 組件是否能夠以可控方式退化,并提供明確的故障指示,還是會增加故障排查的復(fù)雜度?
密度優(yōu)化: 電力和散熱系統(tǒng)的容量配置,是否足以應(yīng)對所有存儲層在極端情況下的同時利用率?
組件級可靠性將直接影響設(shè)施的經(jīng)濟(jì)效益:減少上門維修和運(yùn)維人工成本、通過可預(yù)測的功耗簡化容量規(guī)劃、延長更新周期以減少破壞性的設(shè)備更替,以及在采用新一代技術(shù)時簡化驗證流程。
核心要旨
對于數(shù)據(jù)中心運(yùn)營商來說,核心問題不在于是否有備份,而在于設(shè)施基礎(chǔ)設(shè)施能否支撐其SLA(服務(wù)等級協(xié)議)所承諾的數(shù)據(jù)韌性:在維持在線工作負(fù)載正常運(yùn)行時間的同時,確保不可變歸檔能力有助于抵御攻擊。電力與散熱系統(tǒng)能否在數(shù)據(jù)恢復(fù)場景中,支撐存儲基礎(chǔ)設(shè)施在極限利用率下連續(xù)運(yùn)行數(shù)周的壓力?
在當(dāng)今時代,AI 的開發(fā)進(jìn)度和客戶留存率均依賴于跨層的存儲基礎(chǔ)設(shè)施性能,而組件級的可靠性則是一個影響數(shù)據(jù)中心經(jīng)濟(jì)效益方方面面的設(shè)施規(guī)劃變量——從電力合同到散熱系統(tǒng)選型,再到人工成本,無一例外。
作者:Stefan Mandl,西部數(shù)據(jù)全球銷售與市場營銷副總裁





