云計算的牌桌上,AI 算力競賽已是刀刀到肉。當(dāng)行業(yè)逐漸對“堆卡”祛魅,真正的較量早已轉(zhuǎn)移到看不見的戰(zhàn)場——架構(gòu)是否精妙;是否緊密貼合業(yè)務(wù)需求;以及如何破解規(guī)模定律(Scaling Law)效應(yīng)減弱的魔咒。
在 8 月 14 日的飛天發(fā)布時刻,國內(nèi)公有云一哥阿里云亮出底牌,發(fā)布通用計算、容器計算及存儲服務(wù)三項產(chǎn)品更新。這三大產(chǎn)品看似“分管”不同任務(wù),實則巧妙地串聯(lián)出一條 AI 落地業(yè)務(wù)場景的完整路徑,每一步都為下一步鋪平道路,環(huán)環(huán)相扣,層層遞進(jìn)。
對于行業(yè)而言,阿里云此次發(fā)布的意義也不止于一次產(chǎn)品升級,其背后的產(chǎn)品升級邏輯也在引導(dǎo)行業(yè)重新思考——AI 時代,云基礎(chǔ)設(shè)施的本質(zhì)到底是什么。
場景化實例,
定義極致性能與資源利用效率
傳統(tǒng) x86 服務(wù)器運行數(shù)據(jù)密集型業(yè)務(wù)時,常常卡在“算力不夠強、吞吐不夠快、內(nèi)存不夠大”這三道硬限制上。
此次飛天發(fā)布時刻,阿里云共發(fā)布三款企業(yè)級實例,把同一批 AMD 硬件做成三檔規(guī)格,用戶按需取用即可:
-
u2a:CPU 與內(nèi)存比例適中,價格最低,適合日常網(wǎng)站或輕量推理等通用需求。
-
g9a:CPU 主頻更高,能大幅提升單進(jìn)程任務(wù)數(shù)據(jù)的處理效率,適合在線型應(yīng)用場景。
-
g9ae:采用物理核設(shè)計,算力更高,內(nèi)存帶寬更大,I/O 能力更強,適合高并發(fā)的計算密集型任務(wù)。
三款實例均搭配了 AMD 最新第五代 EPYC 處理器(Turin )。阿里云和 AMD 雙方的合作最早可追溯到 Rome 時期,當(dāng)時就與 AMD 合作進(jìn)行芯片定制,到 Milan 時期開始規(guī)模商業(yè)化,性能提升 15%,Genoa 時期性能則提升 25%。
到今天,服務(wù)于數(shù)據(jù)中心的 EPYC 系列處理器,采用業(yè)界領(lǐng)先的 chiplet 架構(gòu),已經(jīng)演進(jìn)到第五代,即 AMD EPYC 處理器都靈 (Turin)。Turin 采用了全新的“Zen 5”核心架構(gòu),Zen 5 架構(gòu)每時鐘周期指令(IPC)比上一代提升 17%;結(jié)合 Turin 支持全鏈路 AVX512 的能力,為 AI 和高性能計算(HPC)提供高達(dá) 37% 的 IPC 提升。
在 Turin 處理器基礎(chǔ)上,通過阿里云軟硬一體的 CIPU 架構(gòu)驅(qū)動,此次發(fā)布的三款企業(yè)級實例實現(xiàn)了針對差異化場景的產(chǎn)品布局,讓不同業(yè)務(wù)直接落在最匹配的檔位,節(jié)省資源的同時也幫企業(yè)節(jié)省了算力預(yù)算。
首先來看面向中小型企業(yè)的 u2a。
“u”實例為通用算力型“universal”實例的簡稱,是一款為中小企業(yè)量身定制的云服務(wù)器。基于阿里云飛天云計算操作系統(tǒng)和云基礎(chǔ)設(shè)施處理器(CIPU),“u”實例讓中小企業(yè)像使用水、電和煤氣一樣,便捷獲取性能強勁、性價比出眾的云計算服務(wù),無需投入精力自建或運維硬件設(shè)施。
此次全新升級的 u2 系列中,阿里云推出了首個基于 AMD EPYC 處理器的“u”實例——u2a。該系列涵蓋兩款細(xì)分產(chǎn)品,提供了企業(yè)級獨享算力,目前仍處于定向邀測階段,預(yù)計于 8 月 30 日正式開啟商業(yè)化。
u2a 采用自研雙單路服務(wù)器架構(gòu),單顆 CPU 故障不會影響另一顆,能夠顯著提升服務(wù)器的穩(wěn)定性。性能上,u2a 實例性能基線較 u1 提升 20%,支持最高 15% 的算力突發(fā)能力;網(wǎng)絡(luò)基線帶寬為 16Gbps,支持突發(fā)至 25Gbps;最大規(guī)格可支持 64vCPU。
面向通用場景,u2a 能滿足企業(yè)不同層級的數(shù)據(jù)處理需求,通過屏蔽代系差異和較 u1 提升 50% 的性價比,將企業(yè)級算力的門檻大幅降低,讓更多中小企業(yè)能享受到技術(shù)紅利。
跟隨 u2a 一同發(fā)布的,還有第九代 ECS 性能旗艦產(chǎn)品,AMD 企業(yè)級實例 g9ae。
對于大數(shù)據(jù)、搜推廣、視頻轉(zhuǎn)碼等數(shù)據(jù)密集型業(yè)務(wù),g9ae 實例瞄準(zhǔn)內(nèi)存帶寬、I/O 帶寬不足的行業(yè)痛點,基于 Turin D 處理器,創(chuàng)新性地采用了物理核設(shè)計,摒棄了傳統(tǒng)的超線程虛擬化思路。這意味著每個 vCPU 都獨占 L3 緩存和內(nèi)存通道,算力不再因通道帶寬不足而被壓制。
阿里云之所以能首創(chuàng)物理核設(shè)計,離不開底層硬件的支持。
事實上,Turin 包含 Turin-C(Turin Classic)、Turin-D(Turin Dense)兩款 CPU,都使用 Zen5 的微架構(gòu),其中 Turin-C 使用了 Zen5 CCD,而 Dense 是 Zen5c CCD。
Zen5 和 Zen5c 微架構(gòu)相同,指令集相同,IPC 提升相同,區(qū)別在于 Zen5c 的核心計算單元(CCD)通過芯粒(chiplet)架構(gòu)支持更高的核心密度,從而支持阿里云實現(xiàn)首創(chuàng)的 “物理核設(shè)計”。
“物理核”設(shè)計讓 g9ae 實例單 vCPU 算力提升高達(dá) 60%,在視頻轉(zhuǎn)碼等業(yè)務(wù)中性能提升高達(dá) 65%,并能極大降低核心交易系統(tǒng)的長尾時延,性能輸出更穩(wěn)定。
在 AMD 強大硬件的基礎(chǔ)上,阿里云自研操作系統(tǒng)又將其性能充分“兌現(xiàn)”了出來。阿里云彈性計算產(chǎn)品經(jīng)理姬少晨介紹,g9ae 的極致性能還來源于軟硬件的深度融合。阿里云把自研的 Alibaba Cloud Linux 3 與 AMD 最新的 Turin 服務(wù)器做了“基因級”適配,涉及兩百多個內(nèi)核補丁、改了近 2 萬行代碼,相當(dāng)于把操作系統(tǒng)“重新編譯”了一遍,專門針對 AMD 的多核、內(nèi)存通道、IO 路徑做優(yōu)化。
針對 MySQL 查詢場景,操作系統(tǒng)存儲引擎的預(yù)讀機制會把數(shù)據(jù)提前加載到 CPU 的高速緩存中,再借助 g9ae 的超大內(nèi)存帶寬,查詢速度再提升 10%;針對搜推訓(xùn)練場景,操作系統(tǒng)的網(wǎng)絡(luò)協(xié)議棧采用“零拷貝”技術(shù),數(shù)據(jù)包從網(wǎng)卡到應(yīng)用內(nèi)存“一次到位”,單節(jié)點推理性能再提 15%。
除極致性能外,端到端的數(shù)據(jù)安全能力也是 g9ae 的一大亮點。g9ae 開機即由 CIPU 可信根從 BIOS 到 kernel 再到操作系統(tǒng)開啟全鏈路度量,防止惡意植入;運行期間,AMD 機密計算給內(nèi)存加硬鎖,數(shù)據(jù)可用不可見;在數(shù)據(jù)傳輸階段,首發(fā) VPC 加密能力,實現(xiàn)了數(shù)據(jù)傳輸過程中的安全防護(hù)。
然而,盡管 g9ae 性能強大,但真實業(yè)務(wù)場景產(chǎn)生的 AI 負(fù)載遠(yuǎn)非單個計算實例所能承載。AI 工作負(fù)載遠(yuǎn)比傳統(tǒng) Web 應(yīng)用復(fù)雜,它有狀態(tài)、角色多樣、且需“同生同死”。
以一個 32B LLM 模型推理為例,模型啟動瞬間可能占用 65GB 顯存,接下來可能因并發(fā)請求膨脹到 200GB。推理服務(wù)在短時間內(nèi)可能從 8 卡擴展到數(shù)百卡,再逐步縮回——這對于整個系統(tǒng)的調(diào)度、存儲及網(wǎng)絡(luò)通信效率都提出了更嚴(yán)苛的要求。
單實例性能提升雖顯著,但 AI 負(fù)載的復(fù)雜性要求更全面的基礎(chǔ)設(shè)施支持。要破解這些難題,就需要上述企業(yè)級實例和容器、存儲服務(wù)協(xié)同作戰(zhàn)。
容器激活“算力流通”,
存儲激活“數(shù)據(jù)流通”
容器作為云原生時代彈性計算的核心技術(shù),在 AI 時代,它也逐漸從十年前“讓應(yīng)用跑起來”的封裝工具,升級為未來算力的通用接口。
這場變革中,Kubernetes 已經(jīng)成為承載 AI 負(fù)載的事實標(biāo)準(zhǔn),是當(dāng)前最主流、最廣泛采用的 AI 基礎(chǔ)設(shè)施平臺。根據(jù) CNCF 2024 年度用戶調(diào)研,已有 52% 的受訪終端用戶在 Kubernetes 上運行 AI/ML 工作負(fù)載。我們確實也看到,主流云廠商、大模型實驗室,以及新興的 AI 初創(chuàng)公司幾乎都選擇以 Kubernetes 作為 AI 應(yīng)用的運行底座。
這種情況下,企業(yè)面臨的問題就不再是“要不要上 Kubernetes”,而是“怎樣把 Kubernetes 用得更好”。
在此次飛天發(fā)布時刻,阿里云正式對外宣布了 ACK 和 ACS 兩項容器服務(wù)的最新進(jìn)展,核心就是向用戶提供一種把 Kubernetes 用得更好的方法論。
其中,阿里云容器服務(wù) ACK 在保障穩(wěn)定性和提升 AI 部署效率兩個維度均有新突破。
穩(wěn)定性方面,ACK 通過高效管理運維異構(gòu)資源以保障業(yè)務(wù)穩(wěn)定性,并實現(xiàn)三項能力突破:
-
異構(gòu)資源管理: 通過統(tǒng)一的 ACK 控制面,將 GPU、靈駿、遠(yuǎn)程直接內(nèi)存訪問(RDMA)、智算版并行文件系統(tǒng)(CPFS)等異構(gòu)智算資源納入同一技術(shù)棧,用戶無需再為每類硬件單獨適配。
-
GPU 故障自愈: 平臺先為硬件或軟件異常建立標(biāo)準(zhǔn)化判別模型;一旦觸發(fā)規(guī)則,立即隔離故障 GPU,防止錯誤分配,隨后調(diào)用 IaaS 層接口嘗試修復(fù),修復(fù)成功后自動解除隔離并重新調(diào)度任務(wù),顯著降低人工干預(yù)。
-
在線實時 GPU AI Profiling:借助 eBPF 與 library injector,用戶在不改代碼、不重啟服務(wù)的情況下即可實時抓取 GPU 運行時數(shù)據(jù)——涵蓋 CUDA kernel(含 NCCL 通信算子)及 PyTorch 高層調(diào)用——按時間軸還原現(xiàn)場,在線定位瓶頸,官方數(shù)據(jù)顯示診斷效率提升 50% 以上。
此外,為幫助企業(yè)以更低成本、更高效率、更強穩(wěn)定性將大模型落地到生產(chǎn)環(huán)境,并讓模型能力真正高效、安全地賦能業(yè)務(wù)流程,ACK 此次也全新發(fā)布了云原生 AI 套件 Serving Stack。
該套件包括 RoleBasedGroup 控制器(簡稱 RBG)和 Gateway Inference Extension(簡稱 GIE)兩大組件。
RoleBasedGroup 控制器(簡稱 RBG)是該套件在 Kubernetes 集群中針對 LLM 推理工作負(fù)載的抽象層。
RBG 支持主流 LLM 推理引擎,如 vLLM、SGLang、TRT-LLM 等,兼容各類推理性能優(yōu)化架構(gòu),如 Dynamo、Mooncake 等。 RBG 能夠?qū)⒎植际酵评砉ぷ髫?fù)載中的不同任務(wù)角色(如 Prefill worker、Decode worker、Router 等),靈活地抽象為獨立的 Role;并支持采集不同角色的關(guān)鍵監(jiān)控指標(biāo)(如 TTFT、TPOT、Token throughput、Request rate 等),聯(lián)動推理運行時可支持基于 SLO(如平均 TTFT/TPOT)的彈性伸縮。
同時,RBG 還內(nèi)置對 HPA、cronHPA、KPA、AHPA、KEDA 等 Kubernetes 生態(tài)中各類應(yīng)用彈性伸縮架構(gòu)的兼容,以適應(yīng)不同場景需求;并結(jié)合 Fluid 的分布式緩存和數(shù)據(jù)預(yù)熱技術(shù),能夠大幅提升 LLM 推理服務(wù)彈性伸縮的響應(yīng)速度和效率。在 Deepseek R1 推理服務(wù)啟動速度測試中,F(xiàn)luid 在 220 秒內(nèi)將 671B 模型權(quán)重數(shù)據(jù)從遠(yuǎn)程對象存儲讀取到 GPU 顯存中,達(dá)到 10GiB/s 以上的帶寬。這將 Deepseek R1 模型加載耗時減少了 90%。
GIE 則是 ACK 基于 Kubernetes Gateway API 的推理擴展組件,支持灰度發(fā)布、過載檢測、請求排隊、熔斷限流。在 Qwen、Deepseek 等模型推理服務(wù)壓測中,長尾場景下的首包延遲提升 73%,緩存利用率提升 90%,前綴感知負(fù)載均衡優(yōu)化帶來 40% 的響應(yīng)速度提升。
總的來看,在云原生 AI 套件 Serving Stack 中,RBG 負(fù)責(zé) LLM 推理服務(wù)的部署,更新,升級等全生命周期管理,并根據(jù)業(yè)務(wù)指標(biāo)動態(tài)調(diào)整實例規(guī)模,GIE 負(fù)責(zé)根據(jù)實時請求負(fù)載情況和模型處理能力智能路由流量。兩者一起打配合,讓大模型生產(chǎn)化部署做到低成本、高效率,同時具備強穩(wěn)定性。
容器計算服務(wù) ACS 此次則新上線了 AMD 通用算力,并在以下五個維度實現(xiàn)技術(shù)突破:
-
性能: 在視頻編解碼、圖形渲染、大數(shù)據(jù)等計算密集型場景,AMD 實例端到端性能最高提升 55%。
-
規(guī)格:CPU 與內(nèi)存最小粒度為 0.5vCPU、1GiB 步長,且 CPU 和內(nèi)存配比可在 1:1~1:8 之間自由組合,更貼近實際負(fù)載,避免資源浪費。
-
彈性:AMD 實例可支持分鐘級萬個 Pod 彈出,并支持 AHPA 預(yù)測式伸縮;用戶可按需單獨使用 AMD,或采用 AMD 與其他異構(gòu)芯片混合部署。
-
BestEffort 模式:新增可搶占式 AMD 實例,價格為常規(guī)實例的 20%;系統(tǒng)在資源緊張時自動驅(qū)逐這些實例,能夠滿足離線批處理、測試等對穩(wěn)定性要求低、對成本極敏感的業(yè)務(wù)。
-
成本優(yōu)化: 推出按日承諾付費計劃,用戶以“每日預(yù)計使用規(guī)!碧崆版i定折扣,進(jìn)一步壓低長期算力價格。
整體來看,ACS 以“容器算力”形態(tài)將通用算力切分得更碎、更便宜,ACK Pro 則在容器編排層讓 GPU 像水電一樣隨取隨用、故障自愈,兩條線合起來指向同一個結(jié)論:
單純采購算力資源已經(jīng)無法滿足 AI 負(fù)載的需求,貼合負(fù)載需求靈活地調(diào)度算力資源,已經(jīng)成為 AI 算力發(fā)展的主線。
然而,要讓 AI 真正落地業(yè)務(wù)場景,只實現(xiàn)算力的靈活調(diào)度還不夠,還需解決計算過程中產(chǎn)生數(shù)據(jù)的去向問題。
AI 訓(xùn)推產(chǎn)生的大量權(quán)重、日志、KV-Cache 均需長期留存;多輪對話、個性化推薦等場景又要求毫秒級找回歷史狀態(tài);一旦存儲跟不上算力彈性,就會出現(xiàn) GPU 空轉(zhuǎn)、成本飆升的尷尬局面。
因此,靈活調(diào)度算力的下一步,就是靈活調(diào)度存儲。目前,Agentic AI 的趨勢已經(jīng)把 AI 任務(wù)對靈活調(diào)度存儲的需求推到極致。
在此次飛天發(fā)布會上,阿里云表格存儲 Tablestore 還宣布全面升級 AI 場景支持能力:
-
功能方面,Tablestore 升級多元索引能力,新增 JSON 格式,相對嵌套(Nested)數(shù)據(jù)類型性能更好,成本更低;并支持多列向量,降低數(shù)據(jù)冗余,加速關(guān)聯(lián)查詢;
-
數(shù)據(jù)模型方面,Tablestore 推出了全新開源的 AI Agent Memory 框架,瞄準(zhǔn)對話記憶和知識管理兩大場景,預(yù)置了會話(session)、消息(message)、知識庫(knowledge)三大通用數(shù)據(jù)模型,讓開發(fā)者無需關(guān)注底層存儲細(xì)節(jié),更加專注業(yè)務(wù)創(chuàng)新本身。
-
生態(tài)方面,Tablestore 可通過 OpenMemory MCP(模型上下文協(xié)議)一鍵部署 AI 記憶方案,并接入開源 Dify,提供高可用性向量存儲方案以及 Spring AI,承接記憶(Memory)和知識(Knowledge)引擎的存儲需求。
在上述更新基礎(chǔ)上,Tablestore 又通過 DiskANN 等先進(jìn)向量檢索算法,按需計費與自動彈性伸縮能力以及默認(rèn)支持跨可用區(qū)部署三項升級,較傳統(tǒng)自建方案降低 30% 的整體存儲成本。
小 結(jié)
阿里云的這套連招,每一步都在試圖讓基礎(chǔ)設(shè)施匹配業(yè)務(wù),而不是業(yè)務(wù)遷就基礎(chǔ)設(shè)施。
過去,企業(yè)必須先“買下”一臺規(guī)格固定的機器,再去削足適履地改寫應(yīng)用;如今,ACS 把算力切成 0.5 vCPU 的微小單元,ACK Pro 把 GPU 故障自愈、AI Profiling、分布式推理調(diào)度做成水電煤一樣的基礎(chǔ)服務(wù)。當(dāng)算力可以按需膨脹、按秒計費、按故障自愈,業(yè)務(wù)邏輯第一次不必再為底層資源讓步。
更進(jìn)一步看,當(dāng)容器層把“計算”抽象到極限,存儲層必須同步把“記憶”抽象到極限——Tablestore 以 PB 級彈性、毫秒級檢索、開源 Memory Framework,讓智能體的“長期記憶”也變成可插拔的公共服務(wù)。于是,應(yīng)用只需描述“我要多少算力、我要記住什么”,而不必關(guān)心“我從哪里買機器、我把數(shù)據(jù)放哪”。
阿里云此次發(fā)布會也越發(fā)凸顯了云計算的本質(zhì)不只是算力資源,而是一種“服務(wù)”屬性。未來,算力與存儲也將繼續(xù)“服務(wù)化”,價格曲線與性能曲線或許會逐漸解耦,企業(yè)只為業(yè)務(wù)峰值買單。
當(dāng)資源不再成為瓶頸,真正的競爭將回到業(yè)務(wù)創(chuàng)新本身——誰的場景抽象得更準(zhǔn),誰的模型迭代得更快,誰就能在下一輪浪潮中勝出。