搜索新聞

從計算到存儲，阿里云打通AI落地的“任督二脈”

來源：投影時代　更新日期：2025-09-05 作者：佚名

商顯市場最大的看點何在年度評選盛典獲獎揭曉 Infocomm China 深入報道

云計算的牌桌上，AI 算力競賽已是刀刀到肉。當(dāng)行業(yè)逐漸對“堆卡”祛魅，真正的較量早已轉(zhuǎn)移到看不見的戰(zhàn)場——架構(gòu)是否精妙；是否緊密貼合業(yè)務(wù)需求；以及如何破解規(guī)模定律（Scaling Law）效應(yīng)減弱的魔咒。

在 8 月 14 日的飛天發(fā)布時刻，國內(nèi)公有云一哥阿里云亮出底牌，發(fā)布通用計算、容器計算及存儲服務(wù)三項產(chǎn)品更新。這三大產(chǎn)品看似“分管”不同任務(wù)，實則巧妙地串聯(lián)出一條 AI 落地業(yè)務(wù)場景的完整路徑，每一步都為下一步鋪平道路，環(huán)環(huán)相扣，層層遞進(jìn)。

對于行業(yè)而言，阿里云此次發(fā)布的意義也不止于一次產(chǎn)品升級，其背后的產(chǎn)品升級邏輯也在引導(dǎo)行業(yè)重新思考——AI 時代，云基礎(chǔ)設(shè)施的本質(zhì)到底是什么。

場景化實例，

定義極致性能與資源利用效率

傳統(tǒng) x86 服務(wù)器運行數(shù)據(jù)密集型業(yè)務(wù)時，常常卡在“算力不夠強、吞吐不夠快、內(nèi)存不夠大”這三道硬限制上。

此次飛天發(fā)布時刻，阿里云共發(fā)布三款企業(yè)級實例，把同一批 AMD 硬件做成三檔規(guī)格，用戶按需取用即可：

u2a：CPU 與內(nèi)存比例適中，價格最低，適合日常網(wǎng)站或輕量推理等通用需求。
g9a：CPU 主頻更高，能大幅提升單進(jìn)程任務(wù)數(shù)據(jù)的處理效率，適合在線型應(yīng)用場景。
g9ae：采用物理核設(shè)計，算力更高，內(nèi)存帶寬更大，I/O 能力更強，適合高并發(fā)的計算密集型任務(wù)。

三款實例均搭配了 AMD 最新第五代 EPYC 處理器（Turin ）。阿里云和 AMD 雙方的合作最早可追溯到 Rome 時期，當(dāng)時就與 AMD 合作進(jìn)行芯片定制，到 Milan 時期開始規(guī)模商業(yè)化，性能提升 15%，Genoa 時期性能則提升 25%。

到今天，服務(wù)于數(shù)據(jù)中心的 EPYC 系列處理器，采用業(yè)界領(lǐng)先的 chiplet 架構(gòu)，已經(jīng)演進(jìn)到第五代，即 AMD EPYC 處理器都靈 (Turin)。Turin 采用了全新的“Zen 5”核心架構(gòu)，Zen 5 架構(gòu)每時鐘周期指令（IPC）比上一代提升 17%；結(jié)合 Turin 支持全鏈路 AVX512 的能力，為 AI 和高性能計算（HPC）提供高達(dá) 37% 的 IPC 提升。

在 Turin 處理器基礎(chǔ)上，通過阿里云軟硬一體的 CIPU 架構(gòu)驅(qū)動，此次發(fā)布的三款企業(yè)級實例實現(xiàn)了針對差異化場景的產(chǎn)品布局，讓不同業(yè)務(wù)直接落在最匹配的檔位，節(jié)省資源的同時也幫企業(yè)節(jié)省了算力預(yù)算。

首先來看面向中小型企業(yè)的 u2a。

“u”實例為通用算力型“universal”實例的簡稱，是一款為中小企業(yè)量身定制的云服務(wù)器�；诎⒗镌骑w天云計算操作系統(tǒng)和云基礎(chǔ)設(shè)施處理器（CIPU），“u”實例讓中小企業(yè)像使用水、電和煤氣一樣，便捷獲取性能強勁、性價比出眾的云計算服務(wù)，無需投入精力自建或運維硬件設(shè)施。

此次全新升級的 u2 系列中，阿里云推出了首個基于 AMD EPYC 處理器的“u”實例——u2a。該系列涵蓋兩款細(xì)分產(chǎn)品，提供了企業(yè)級獨享算力，目前仍處于定向邀測階段，預(yù)計于 8 月 30 日正式開啟商業(yè)化。

u2a 采用自研雙單路服務(wù)器架構(gòu)，單顆 CPU 故障不會影響另一顆，能夠顯著提升服務(wù)器的穩(wěn)定性。性能上，u2a 實例性能基線較 u1 提升 20%，支持最高 15% 的算力突發(fā)能力；網(wǎng)絡(luò)基線帶寬為 16Gbps，支持突發(fā)至 25Gbps；最大規(guī)格可支持 64vCPU。

面向通用場景，u2a 能滿足企業(yè)不同層級的數(shù)據(jù)處理需求，通過屏蔽代系差異和較 u1 提升 50% 的性價比，將企業(yè)級算力的門檻大幅降低，讓更多中小企業(yè)能享受到技術(shù)紅利。

跟隨 u2a 一同發(fā)布的，還有第九代 ECS 性能旗艦產(chǎn)品，AMD 企業(yè)級實例 g9ae。

對于大數(shù)據(jù)、搜推廣、視頻轉(zhuǎn)碼等數(shù)據(jù)密集型業(yè)務(wù)，g9ae 實例瞄準(zhǔn)內(nèi)存帶寬、I/O 帶寬不足的行業(yè)痛點，基于 Turin D 處理器，創(chuàng)新性地采用了物理核設(shè)計，摒棄了傳統(tǒng)的超線程虛擬化思路。這意味著每個 vCPU 都獨占 L3 緩存和內(nèi)存通道，算力不再因通道帶寬不足而被壓制。

阿里云之所以能首創(chuàng)物理核設(shè)計，離不開底層硬件的支持。

事實上，Turin 包含 Turin-C（Turin Classic）、Turin-D（Turin Dense）兩款 CPU，都使用 Zen5 的微架構(gòu)，其中 Turin-C 使用了 Zen5 CCD，而 Dense 是 Zen5c CCD。

Zen5 和 Zen5c 微架構(gòu)相同，指令集相同，IPC 提升相同，區(qū)別在于 Zen5c 的核心計算單元（CCD）通過芯粒（chiplet）架構(gòu)支持更高的核心密度，從而支持阿里云實現(xiàn)首創(chuàng)的 “物理核設(shè)計”。

“物理核”設(shè)計讓 g9ae 實例單 vCPU 算力提升高達(dá) 60%，在視頻轉(zhuǎn)碼等業(yè)務(wù)中性能提升高達(dá) 65%，并能極大降低核心交易系統(tǒng)的長尾時延，性能輸出更穩(wěn)定。

在 AMD 強大硬件的基礎(chǔ)上，阿里云自研操作系統(tǒng)又將其性能充分“兌現(xiàn)”了出來。阿里云彈性計算產(chǎn)品經(jīng)理姬少晨介紹，g9ae 的極致性能還來源于軟硬件的深度融合。阿里云把自研的 Alibaba Cloud Linux 3 與 AMD 最新的 Turin 服務(wù)器做了“基因級”適配，涉及兩百多個內(nèi)核補丁、改了近 2 萬行代碼，相當(dāng)于把操作系統(tǒng)“重新編譯”了一遍，專門針對 AMD 的多核、內(nèi)存通道、IO 路徑做優(yōu)化。

針對 MySQL 查詢場景，操作系統(tǒng)存儲引擎的預(yù)讀機制會把數(shù)據(jù)提前加載到 CPU 的高速緩存中，再借助 g9ae 的超大內(nèi)存帶寬，查詢速度再提升 10%；針對搜推訓(xùn)練場景，操作系統(tǒng)的網(wǎng)絡(luò)協(xié)議棧采用“零拷貝”技術(shù)，數(shù)據(jù)包從網(wǎng)卡到應(yīng)用內(nèi)存“一次到位”，單節(jié)點推理性能再提 15%。

除極致性能外，端到端的數(shù)據(jù)安全能力也是 g9ae 的一大亮點。g9ae 開機即由 CIPU 可信根從 BIOS 到 kernel 再到操作系統(tǒng)開啟全鏈路度量，防止惡意植入；運行期間，AMD 機密計算給內(nèi)存加硬鎖，數(shù)據(jù)可用不可見；在數(shù)據(jù)傳輸階段，首發(fā) VPC 加密能力，實現(xiàn)了數(shù)據(jù)傳輸過程中的安全防護(hù)。

然而，盡管 g9ae 性能強大，但真實業(yè)務(wù)場景產(chǎn)生的 AI 負(fù)載遠(yuǎn)非單個計算實例所能承載。AI 工作負(fù)載遠(yuǎn)比傳統(tǒng) Web 應(yīng)用復(fù)雜，它有狀態(tài)、角色多樣、且需“同生同死”。

以一個 32B LLM 模型推理為例，模型啟動瞬間可能占用 65GB 顯存，接下來可能因并發(fā)請求膨脹到 200GB。推理服務(wù)在短時間內(nèi)可能從 8 卡擴展到數(shù)百卡，再逐步縮回——這對于整個系統(tǒng)的調(diào)度、存儲及網(wǎng)絡(luò)通信效率都提出了更嚴(yán)苛的要求。

單實例性能提升雖顯著，但 AI 負(fù)載的復(fù)雜性要求更全面的基礎(chǔ)設(shè)施支持。要破解這些難題，就需要上述企業(yè)級實例和容器、存儲服務(wù)協(xié)同作戰(zhàn)。

容器激活“算力流通”，

存儲激活“數(shù)據(jù)流通”

容器作為云原生時代彈性計算的核心技術(shù)，在 AI 時代，它也逐漸從十年前“讓應(yīng)用跑起來”的封裝工具，升級為未來算力的通用接口。

這場變革中，Kubernetes 已經(jīng)成為承載 AI 負(fù)載的事實標(biāo)準(zhǔn)，是當(dāng)前最主流、最廣泛采用的 AI 基礎(chǔ)設(shè)施平臺。根據(jù) CNCF 2024 年度用戶調(diào)研，已有 52% 的受訪終端用戶在 Kubernetes 上運行 AI/ML 工作負(fù)載。我們確實也看到，主流云廠商、大模型實驗室，以及新興的 AI 初創(chuàng)公司幾乎都選擇以 Kubernetes 作為 AI 應(yīng)用的運行底座。

這種情況下，企業(yè)面臨的問題就不再是“要不要上 Kubernetes”，而是“怎樣把 Kubernetes 用得更好”。

在此次飛天發(fā)布時刻，阿里云正式對外宣布了 ACK 和 ACS 兩項容器服務(wù)的最新進(jìn)展，核心就是向用戶提供一種把 Kubernetes 用得更好的方法論。

其中，阿里云容器服務(wù) ACK 在保障穩(wěn)定性和提升 AI 部署效率兩個維度均有新突破。

穩(wěn)定性方面，ACK 通過高效管理運維異構(gòu)資源以保障業(yè)務(wù)穩(wěn)定性，并實現(xiàn)三項能力突破：

異構(gòu)資源管理：通過統(tǒng)一的 ACK 控制面，將 GPU、靈駿、遠(yuǎn)程直接內(nèi)存訪問（RDMA）、智算版并行文件系統(tǒng)（CPFS）等異構(gòu)智算資源納入同一技術(shù)棧，用戶無需再為每類硬件單獨適配。
GPU 故障自愈：平臺先為硬件或軟件異常建立標(biāo)準(zhǔn)化判別模型；一旦觸發(fā)規(guī)則，立即隔離故障 GPU，防止錯誤分配，隨后調(diào)用 IaaS 層接口嘗試修復(fù)，修復(fù)成功后自動解除隔離并重新調(diào)度任務(wù)，顯著降低人工干預(yù)。
在線實時 GPU AI Profiling：借助 eBPF 與 library injector，用戶在不改代碼、不重啟服務(wù)的情況下即可實時抓取 GPU 運行時數(shù)據(jù)——涵蓋 CUDA kernel（含 NCCL 通信算子）及 PyTorch 高層調(diào)用——按時間軸還原現(xiàn)場，在線定位瓶頸，官方數(shù)據(jù)顯示診斷效率提升 50% 以上。

此外，為幫助企業(yè)以更低成本、更高效率、更強穩(wěn)定性將大模型落地到生產(chǎn)環(huán)境，并讓模型能力真正高效、安全地賦能業(yè)務(wù)流程，ACK 此次也全新發(fā)布了云原生 AI 套件 Serving Stack。

該套件包括 RoleBasedGroup 控制器（簡稱 RBG）和 Gateway Inference Extension（簡稱 GIE）兩大組件。

RoleBasedGroup 控制器（簡稱 RBG）是該套件在 Kubernetes 集群中針對 LLM 推理工作負(fù)載的抽象層。

RBG 支持主流 LLM 推理引擎，如 vLLM、SGLang、TRT-LLM 等，兼容各類推理性能優(yōu)化架構(gòu)，如 Dynamo、Mooncake 等。 RBG 能夠?qū)⒎植际酵评砉ぷ髫?fù)載中的不同任務(wù)角色（如 Prefill worker、Decode worker、Router 等），靈活地抽象為獨立的 Role；并支持采集不同角色的關(guān)鍵監(jiān)控指標(biāo)（如 TTFT、TPOT、Token throughput、Request rate 等），聯(lián)動推理運行時可支持基于 SLO（如平均 TTFT/TPOT）的彈性伸縮。

同時，RBG 還內(nèi)置對 HPA、cronHPA、KPA、AHPA、KEDA 等 Kubernetes 生態(tài)中各類應(yīng)用彈性伸縮架構(gòu)的兼容，以適應(yīng)不同場景需求；并結(jié)合 Fluid 的分布式緩存和數(shù)據(jù)預(yù)熱技術(shù)，能夠大幅提升 LLM 推理服務(wù)彈性伸縮的響應(yīng)速度和效率。在 Deepseek R1 推理服務(wù)啟動速度測試中，F(xiàn)luid 在 220 秒內(nèi)將 671B 模型權(quán)重數(shù)據(jù)從遠(yuǎn)程對象存儲讀取到 GPU 顯存中，達(dá)到 10GiB/s 以上的帶寬。這將 Deepseek R1 模型加載耗時減少了 90%。

GIE 則是 ACK 基于 Kubernetes Gateway API 的推理擴展組件，支持灰度發(fā)布、過載檢測、請求排隊、熔斷限流。在 Qwen、Deepseek 等模型推理服務(wù)壓測中，長尾場景下的首包延遲提升 73%，緩存利用率提升 90%，前綴感知負(fù)載均衡優(yōu)化帶來 40% 的響應(yīng)速度提升。

總的來看，在云原生 AI 套件 Serving Stack 中，RBG 負(fù)責(zé) LLM 推理服務(wù)的部署，更新，升級等全生命周期管理，并根據(jù)業(yè)務(wù)指標(biāo)動態(tài)調(diào)整實例規(guī)模，GIE 負(fù)責(zé)根據(jù)實時請求負(fù)載情況和模型處理能力智能路由流量。兩者一起打配合，讓大模型生產(chǎn)化部署做到低成本、高效率，同時具備強穩(wěn)定性。

容器計算服務(wù) ACS 此次則新上線了 AMD 通用算力，并在以下五個維度實現(xiàn)技術(shù)突破：

性能：在視頻編解碼、圖形渲染、大數(shù)據(jù)等計算密集型場景，AMD 實例端到端性能最高提升 55%。
規(guī)格：CPU 與內(nèi)存最小粒度為 0.5vCPU、1GiB 步長，且 CPU 和內(nèi)存配比可在 1:1～1:8 之間自由組合，更貼近實際負(fù)載，避免資源浪費。
彈性：AMD 實例可支持分鐘級萬個 Pod 彈出，并支持 AHPA 預(yù)測式伸縮；用戶可按需單獨使用 AMD，或采用 AMD 與其他異構(gòu)芯片混合部署。
BestEffort 模式：新增可搶占式 AMD 實例，價格為常規(guī)實例的 20%；系統(tǒng)在資源緊張時自動驅(qū)逐這些實例，能夠滿足離線批處理、測試等對穩(wěn)定性要求低、對成本極敏感的業(yè)務(wù)。
成本優(yōu)化：推出按日承諾付費計劃，用戶以“每日預(yù)計使用規(guī)�！碧崆版i定折扣，進(jìn)一步壓低長期算力價格。

整體來看，ACS 以“容器算力”形態(tài)將通用算力切分得更碎、更便宜，ACK Pro 則在容器編排層讓 GPU 像水電一樣隨取隨用、故障自愈，兩條線合起來指向同一個結(jié)論：

單純采購算力資源已經(jīng)無法滿足 AI 負(fù)載的需求，貼合負(fù)載需求靈活地調(diào)度算力資源，已經(jīng)成為 AI 算力發(fā)展的主線。

然而，要讓 AI 真正落地業(yè)務(wù)場景，只實現(xiàn)算力的靈活調(diào)度還不夠，還需解決計算過程中產(chǎn)生數(shù)據(jù)的去向問題。

AI 訓(xùn)推產(chǎn)生的大量權(quán)重、日志、KV-Cache 均需長期留存；多輪對話、個性化推薦等場景又要求毫秒級找回歷史狀態(tài)；一旦存儲跟不上算力彈性，就會出現(xiàn) GPU 空轉(zhuǎn)、成本飆升的尷尬局面。

因此，靈活調(diào)度算力的下一步，就是靈活調(diào)度存儲。目前，Agentic AI 的趨勢已經(jīng)把 AI 任務(wù)對靈活調(diào)度存儲的需求推到極致。

在此次飛天發(fā)布會上，阿里云表格存儲 Tablestore 還宣布全面升級 AI 場景支持能力：

功能方面，Tablestore 升級多元索引能力，新增 JSON 格式，相對嵌套（Nested）數(shù)據(jù)類型性能更好，成本更低；并支持多列向量，降低數(shù)據(jù)冗余，加速關(guān)聯(lián)查詢；
數(shù)據(jù)模型方面，Tablestore 推出了全新開源的 AI Agent Memory 框架，瞄準(zhǔn)對話記憶和知識管理兩大場景，預(yù)置了會話（session）、消息（message）、知識庫（knowledge）三大通用數(shù)據(jù)模型，讓開發(fā)者無需關(guān)注底層存儲細(xì)節(jié)，更加專注業(yè)務(wù)創(chuàng)新本身。
生態(tài)方面，Tablestore 可通過 OpenMemory MCP（模型上下文協(xié)議）一鍵部署 AI 記憶方案，并接入開源 Dify，提供高可用性向量存儲方案以及 Spring AI，承接記憶（Memory）和知識（Knowledge）引擎的存儲需求。

在上述更新基礎(chǔ)上，Tablestore 又通過 DiskANN 等先進(jìn)向量檢索算法，按需計費與自動彈性伸縮能力以及默認(rèn)支持跨可用區(qū)部署三項升級，較傳統(tǒng)自建方案降低 30% 的整體存儲成本。

小結(jié)

阿里云的這套連招，每一步都在試圖讓基礎(chǔ)設(shè)施匹配業(yè)務(wù)，而不是業(yè)務(wù)遷就基礎(chǔ)設(shè)施。

過去，企業(yè)必須先“買下”一臺規(guī)格固定的機器，再去削足適履地改寫應(yīng)用；如今，ACS 把算力切成 0.5 vCPU 的微小單元，ACK Pro 把 GPU 故障自愈、AI Profiling、分布式推理調(diào)度做成水電煤一樣的基礎(chǔ)服務(wù)。當(dāng)算力可以按需膨脹、按秒計費、按故障自愈，業(yè)務(wù)邏輯第一次不必再為底層資源讓步。

更進(jìn)一步看，當(dāng)容器層把“計算”抽象到極限，存儲層必須同步把“記憶”抽象到極限——Tablestore 以 PB 級彈性、毫秒級檢索、開源 Memory Framework，讓智能體的“長期記憶”也變成可插拔的公共服務(wù)。于是，應(yīng)用只需描述“我要多少算力、我要記住什么”，而不必關(guān)心“我從哪里買機器、我把數(shù)據(jù)放哪”。

阿里云此次發(fā)布會也越發(fā)凸顯了云計算的本質(zhì)不只是算力資源，而是一種“服務(wù)”屬性。未來，算力與存儲也將繼續(xù)“服務(wù)化”，價格曲線與性能曲線或許會逐漸解耦，企業(yè)只為業(yè)務(wù)峰值買單。

當(dāng)資源不再成為瓶頸，真正的競爭將回到業(yè)務(wù)創(chuàng)新本身——誰的場景抽象得更準(zhǔn)，誰的模型迭代得更快，誰就能在下一輪浪潮中勝出。

返回投影機頻道首頁