GPU煉金試驗(yàn)室 揭秘HD7800強(qiáng)勁性能之謎

來(lái)源:中關(guān)村在線 更新日期:2012-04-15 作者:顧杰

有了Pitcairn,你還會(huì)選擇Tahiti么

     作為AMD在經(jīng)歷了5年坎坷摸索之后的作品,以第三代DirectX 11旗艦構(gòu)架登場(chǎng)的Tahiti承載了AMD工程師大量的汗水和期許。初登場(chǎng)時(shí)的Tahiti以驚艷構(gòu)架改進(jìn),幾乎蕩平了由Evengreen甚至R600所積累的諸多詬病,并博得了應(yīng)有的掌聲和喝彩,雖然依舊有絕對(duì)性能不足等瑕疵,但它依舊讓我們感受到了AMD追求卓越圖形構(gòu)架設(shè)計(jì)以及探索的決心。

    因?yàn)門(mén)ahiti所展現(xiàn)出來(lái)的決心和意志,我們變的寬容起來(lái)。我們可以忍受它看上去并不十分強(qiáng)大的絕對(duì)性能上限,我們接受了HD7970那令人印象深刻的噪音和并不算小的功耗,我們以為自己獲得或者即將獲得的是一個(gè)足夠盡力但還有一段不短的路需要走的GCN系列構(gòu)架。萬(wàn)事開(kāi)頭難嘛,糾正一系列長(zhǎng)期積累的問(wèn)題是一個(gè)困難而持久的過(guò)程,GCN構(gòu)架對(duì)過(guò)去問(wèn)題的修正不可能一蹴而就,但它畢竟邁出了堅(jiān)實(shí)的第一步,因此,我們應(yīng)該給予它充足的時(shí)間。

    但好景不長(zhǎng),就在Tahiti構(gòu)架出現(xiàn)2個(gè)月之后,與之同期開(kāi)始研發(fā)并同樣源自GCN(Graphic Core Next)體系,擁有近似邏輯結(jié)構(gòu)和不同資源搭配比例的Pitcairn出現(xiàn)在了人們的視野中。在與這個(gè)同族小兄弟的對(duì)比中,Tahiti的圖形性能及其規(guī)模性能延伸率表現(xiàn)似乎并不盡如人意,Tahiti構(gòu)架的次級(jí)旗艦HD7950在大多數(shù)場(chǎng)合都無(wú)法與基于Pitcairn的HD7870拉開(kāi)與規(guī)模相符的差距,無(wú)論單元效率還是每瓦特效率,HD7800都表現(xiàn)的十分強(qiáng)大,甚至直接對(duì)HD7950這樣一個(gè)更高級(jí)別的存在造成了明顯的沖擊。Tahiti諸多改進(jìn)帶來(lái)的閃光,正在隨著Pitcairn的到來(lái)而逐漸變得暗淡。

    Pitcairn的實(shí)際表現(xiàn)更是在想我們確鑿無(wú)疑的說(shuō)明這一個(gè)可怕的事實(shí)——GCN構(gòu)架的性能和效率,明顯不應(yīng)該被延伸到Tahiti這樣一個(gè)較低的程度。事實(shí)上GCN構(gòu)架本身就存在相當(dāng)優(yōu)秀的邏輯結(jié)構(gòu)設(shè)計(jì),而這種邏輯結(jié)構(gòu)設(shè)計(jì)卻并沒(méi)有在Tahiti身上得到體現(xiàn)。換句話說(shuō),Tahiti本身在改進(jìn)諸多過(guò)去錯(cuò)誤的同時(shí),本身又帶來(lái)了新的問(wèn)題,而Pitcairn的表現(xiàn)則告訴我們這些問(wèn)題本來(lái)是可以避免的……

    難道這就是AMD工程師要表達(dá)給我們的“靈魂的力量”么?不僅我,相信屏幕前的諸位同樣不會(huì)相信也無(wú)法接受這一點(diǎn)。那么,究竟Tahiti與Pitcairn在深層構(gòu)架性能層面有著怎樣的異同?Tahiti遺失了哪些Pitcairn乃至整個(gè)GCN構(gòu)架應(yīng)該具備的特質(zhì)呢?在今天的GPU煉金實(shí)驗(yàn)室中,我們將會(huì)以直接面向底層的測(cè)試方式以及分析,來(lái)為你還原真正的HD7900以及HD7800,并為你解答心中的困惑。

   

與設(shè)計(jì)師的靈魂的再次對(duì)話

    ● 與設(shè)計(jì)師的靈魂的再次對(duì)話 

    我們?cè)?jīng)提到過(guò),每一款GPU芯片都是辛勤汗水的結(jié)晶,它們凝聚著設(shè)計(jì)者靈魂的力量。透過(guò)GPU芯片的特性以及表現(xiàn)的全面了解,我們可以從不同角度體會(huì)到設(shè)計(jì)師在設(shè)計(jì)芯片時(shí)的想法以及希望表達(dá)的意圖。

    要想掌握Tahiti以及Pitcairn在邏輯結(jié)構(gòu)上的差異所帶來(lái)的影響,我們必須避開(kāi)圖形過(guò)程其他步驟所帶來(lái)的各種干擾,收集到“純凈”的Tahiti以及Pitcairn構(gòu)架的底層性能,只有這樣才能直達(dá)AMD工程師的內(nèi)心深處。

    圖形處理的本質(zhì)其實(shí)就是GPU各單元對(duì)各種數(shù)學(xué)過(guò)程進(jìn)行執(zhí)行的集合,常規(guī)的圖形化測(cè)試方法之所以無(wú)法避開(kāi)各種干擾,是因?yàn)樗鼈兇蠖嗑心嘤凇皥D形化”的形式當(dāng)中,無(wú)論測(cè)試過(guò)程還是結(jié)果都包含在了一個(gè)完整的圖形化處理和輸出過(guò)程中。比如說(shuō)要測(cè)試材質(zhì)填充率,我們必須經(jīng)歷完整的幾何處理、光柵化、像素處理、材質(zhì)填充以及輸出過(guò)程,這讓常規(guī)圖形測(cè)試的幾何關(guān)聯(lián)達(dá)到了對(duì)結(jié)果來(lái)說(shuō)無(wú)法忽略的地步。所以,只要繞開(kāi)這層幾何關(guān)聯(lián),直接測(cè)試構(gòu)架底層單元執(zhí)行對(duì)應(yīng)數(shù)學(xué)過(guò)程的能力,就可以避開(kāi)其他單元以及圖形化本身對(duì)測(cè)試的干擾了。

    GPCBenchmark是一款基于Open CL的GPU通用性能測(cè)試軟件,它不僅使用最為通用的函數(shù)庫(kù)及API接口進(jìn)行編寫(xiě),并未對(duì)任何構(gòu)架進(jìn)行針對(duì)性的優(yōu)化,所有測(cè)試更基于從圖形過(guò)程以及通用計(jì)算過(guò)程中抽離出來(lái)的數(shù)學(xué)過(guò)程,能夠進(jìn)行我們所期望獲得的,能夠繞開(kāi)幾何關(guān)聯(lián)和圖形化過(guò)程的特定底層硬件純執(zhí)行能力測(cè)試。通過(guò)該款軟件,我們不僅可以直接讀取許多底層構(gòu)架信息,更能獲得構(gòu)架最真實(shí)的特性。

    有了合適的測(cè)試手段,我們便可以通過(guò)“純凈”的構(gòu)架底層性能來(lái)面對(duì)和對(duì)比構(gòu)架內(nèi)部甚至不同構(gòu)架之間的諸多有用信息,比如吞吐能力、shader應(yīng)對(duì)能力或者材質(zhì)處理能力等等,并由此定性的推定出構(gòu)架的單元復(fù)用率以及效率狀況,進(jìn)而對(duì)性能表現(xiàn)進(jìn)行更深層次的解讀。

    我們?cè)?jīng)多次提到過(guò),DirectX 11時(shí)代對(duì)于構(gòu)架效率的對(duì)比,實(shí)際上就是對(duì)構(gòu)架單元復(fù)用率的對(duì)比,因此今天我們關(guān)于Tahiti以及Pitcairn構(gòu)架效率的測(cè)試,同樣也要圍繞著與復(fù)用率相關(guān)的測(cè)試步驟,包括矩陣乘法、矩陣轉(zhuǎn)置、并行規(guī)約、亮度直方圖局域存儲(chǔ)器原子操作以及二維卷積。最終,我們同樣也會(huì)通過(guò)戰(zhàn)地3游戲來(lái)完成我們對(duì)構(gòu)架數(shù)學(xué)應(yīng)對(duì)能力,也就是背后的單元復(fù)用率測(cè)試的檢驗(yàn)。

   

測(cè)試平臺(tái)及測(cè)試項(xiàng)目簡(jiǎn)介

    ● 測(cè)試平臺(tái)及測(cè)試項(xiàng)目簡(jiǎn)介

    性能測(cè)試使用的硬件平臺(tái)由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600內(nèi)存構(gòu)成。細(xì)節(jié)及軟件 環(huán)境設(shè)定見(jiàn)下表:

測(cè) 試 平 臺(tái) 硬 件


中央處理器
Intel Core i7-3960X
(6核 / 12線程 / 100MHz*33 /
15MB L3 Cache )

散熱器
Intel RTS2011LC
(原廠水冷散熱器 / 選配件 )

內(nèi)存模組
Samsung 黑武士 DDR3-1600 4GB
(SPD:9-9-9-24-1T)

主板
ASUS Rampage IV Extreme
(Intel X79 Chipset)

硬盤(pán)
Hitachi 1T
(1TB / 7200RPM / 16M緩存 /
50GB NTFS系統(tǒng)

電源供應(yīng)器
NERMAX 白金冰核 1500W
(CSCI Platinum 80Plus / 1500W)

顯示器
DELL UltraSharp 3008WFP
(30英寸LCD / 2560*1600分辨率)

    為保證系統(tǒng)平臺(tái)具有最佳的穩(wěn)定性,此次硬件評(píng)測(cè)中所使用的操作系統(tǒng)均為Microsoft Windows 7 正版授權(quán)產(chǎn)品。使用Windows 7正版軟件能夠獲得最好的兼容性以及系統(tǒng)升級(jí)更新服務(wù)。

    用戶在體驗(yàn)或購(gòu)買(mǎi)安裝Windows 7的操作系統(tǒng)時(shí)請(qǐng)認(rèn)準(zhǔn)所裝系統(tǒng)是否已經(jīng)獲得正版授權(quán)許可!未經(jīng)授權(quán)的非正版軟件將無(wú)法獲得包括更新等功能在內(nèi)的Windows 7服務(wù)。

操 作 系 統(tǒng) 及 驅(qū) 動(dòng)

操作系統(tǒng)
Microsoft Windows 7
Ultimate RTM SP1
(64bit / 版本號(hào)7601)

主板芯片組驅(qū)動(dòng)
Intel Chipset Device Software
for Win7
(WHQL / 版本號(hào) 9.2.3.1022)

AMD 顯卡驅(qū)動(dòng)
AMD Catalsyt
(Beta / 版本號(hào) 8.95.5 RC)

桌面環(huán)境

2560*1600_32bit 60Hz

    我們采用GPCBenchmark 1.1以及戰(zhàn)地3進(jìn)行本次測(cè)試的數(shù)據(jù)收集,各項(xiàng)數(shù)值越高越好。為保證測(cè)試組別具有盡可能相同的外部存儲(chǔ)環(huán)境,我們決定將HD7950的顯存頻率調(diào)至與HD7970相同的5500MHz,HD7870與HD7850則運(yùn)行在相同的默認(rèn)公版顯存頻率上。在該環(huán)境下,HD7970/HD7950以及HD7870/HD7850將擁有完全相同的各自組別帶寬,之間的差異將只局限于CU單元的規(guī)模。

   

shader靈活度測(cè)試:矩陣乘法

    ● shader靈活度測(cè)試:矩陣乘法

    矩陣乘法是線性代數(shù)的基本構(gòu)成之一,它是各種通用計(jì)算以及shader處理過(guò)程中非常常見(jiàn)的數(shù)學(xué)操作方式,矩陣乘法的過(guò)程可以將許多非常復(fù)雜的模型轉(zhuǎn)換成相對(duì)簡(jiǎn)單的表現(xiàn)形式,因此被廣泛應(yīng)用在了光柵化(坐標(biāo)變換)、光照(亮度直方操作)、陰影邊緣平滑(針對(duì)像素塊的切比雪夫不等式群)等幾乎所有圖形處理過(guò)程中。可以說(shuō)只要進(jìn)行圖形處理過(guò)程,GPU就必定會(huì)進(jìn)行大量的矩陣乘法操作。

    矩陣乘法可以被解離成大量的存在一階或者多階弱關(guān)聯(lián)度的行列式運(yùn)算,并行化的處理這些行列式,同時(shí)為操作過(guò)程提供合理的緩沖空間來(lái)釋放臨時(shí)結(jié)果勢(shì)必會(huì)極大地加快矩陣乘法操作的效率,進(jìn)而加快整個(gè)圖形過(guò)程的進(jìn)度。因此,對(duì)于矩陣乘法效率的測(cè)試,不僅可以讓我們獲得構(gòu)架并行度以及緩沖資源情況的信息,更能在趨勢(shì)上反映GPU執(zhí)行shader尤其是靈活shader的執(zhí)行效率。所以,無(wú)論是之前已經(jīng)進(jìn)行過(guò)的HD7970/7950效能測(cè)試還是本次的GCN體系對(duì)比測(cè)試,我們都將矩陣乘法測(cè)試作為構(gòu)架延展測(cè)試的第一個(gè)項(xiàng)目,通過(guò)它將Tahiti以及Pitcairn構(gòu)架的ALU團(tuán)簇部分剝離出來(lái)進(jìn)行專門(mén)的性能測(cè)試。

    矩陣乘法需要構(gòu)架擁有良好的線程仲裁分配機(jī)制以及充足的緩沖體系,而這正是Tahiti構(gòu)架與Pitcairn,甚至是Tahiti構(gòu)架內(nèi)部最核心的差異。Tahiti與Pitcairn同樣擁有2組并行的ACE引擎,同樣的2組ACE引擎在HD7970上需要應(yīng)對(duì)32組CU共計(jì)2048個(gè)Vector ALU的需求,HD7950的運(yùn)算單元規(guī)模比HD7970縮減了12.5%,所以同樣的2組ACE引擎在一級(jí)線程隊(duì)列仲裁及管理壓力方面也要低于HD7970。HD7870及HD7850的ACE引擎與HD7900并無(wú)區(qū)別,但同樣的2組ACE引擎在Pitcairn中只需要管理20/16組CU,合計(jì)1280/1024個(gè)Vector ALU。不難看出,HD7800的CU可以輕松的獲得比HD7900更加充盈的線程塊供給,這對(duì)于提升單元復(fù)用率有著極大的貢獻(xiàn)。

    測(cè)試結(jié)果支撐了我們的分析,盡管Pitcairn的運(yùn)算規(guī)模只有Tahiti的62.5%,但HD7800卻取得了超越HD7900的矩陣乘法性能,同時(shí)并完全沒(méi)有表現(xiàn)出HD7900資源匱乏從而重度依賴驅(qū)動(dòng)優(yōu)化所導(dǎo)致的矩陣操作性能起伏問(wèn)題。而在Tahiti構(gòu)架內(nèi)部,HD7950亦表現(xiàn)出了優(yōu)于HD7970的性能增長(zhǎng)趨勢(shì)。

   

shader靈活度測(cè)試:矩陣轉(zhuǎn)置

    ● shader靈活度測(cè)試:矩陣轉(zhuǎn)置

    矩陣轉(zhuǎn)置同矩陣乘法一樣,也廣泛分布在包括坐標(biāo)變換等過(guò)程在內(nèi)的大量圖形處理過(guò)程中。矩陣轉(zhuǎn)置可以被理解成矩陣沿特定方向“翻轉(zhuǎn)”之后產(chǎn)生的鏡像,這導(dǎo)致了矩陣轉(zhuǎn)置操作會(huì)涉及到大量數(shù)據(jù),比如稀疏矩陣的對(duì)角線數(shù)據(jù)等的臨時(shí)存儲(chǔ),因此矩陣轉(zhuǎn)置操作對(duì)于體系的緩沖密度是相當(dāng)敏感的。

    同矩陣乘法一樣,伴隨著頻率的不斷提升,HD7950的矩陣轉(zhuǎn)置性能提升速度較之HD7970要高出許多,兩者之間的性能差異在迅速的收窄甚至趨同。由于矩陣轉(zhuǎn)置的操作過(guò)程較之矩陣乘法更加“規(guī)整”,能夠產(chǎn)生瞬間高延遲的因素較少,因此矩陣轉(zhuǎn)置測(cè)試所得的趨勢(shì)也更加明顯和直觀。

    由于矩陣轉(zhuǎn)置對(duì)緩沖體系的敏感,緩沖密度相同但總量更少的Pitcairn在這項(xiàng)測(cè)試中遇到了不小的問(wèn)題,不足以應(yīng)對(duì)測(cè)試需求的緩沖體系導(dǎo)致了大量的訪存過(guò)程,這直接拖累HD7800的矩陣轉(zhuǎn)置性能。這個(gè)過(guò)程在Tahiti中同樣存在,但擁有巨大顯存帶寬的HD7900系列成功的以更好的顯存性能應(yīng)對(duì)了緩沖溢出的問(wèn)題。sweet spot級(jí)的HD7800并不具備旗艦級(jí)的384bit顯存位寬,因此只能接受150G顯存帶寬帶來(lái)的測(cè)試結(jié)果。

   

shader吞吐能力測(cè)試:并行歸約

    ● shader吞吐能力測(cè)試:并行歸約

    為了全面的反應(yīng)Tahiti構(gòu)架的特性,同時(shí)證明矩陣乘法以及矩陣轉(zhuǎn)置測(cè)試的結(jié)果與伴隨頻率抬升帶來(lái)的吞吐增加并無(wú)直接關(guān)系,我們進(jìn)一步收集了HD7950與HD7970在不同頻率下的并行歸約執(zhí)行能力的數(shù)據(jù)。

    通俗的說(shuō),歸約是一個(gè)以已知問(wèn)題解法來(lái)直接處理未知問(wèn)題的黑箱化數(shù)學(xué)方法。比如說(shuō)我們不知道2的4次方應(yīng)該怎樣計(jì)算,但我們知道2X2以及4X4如何計(jì)算,那我們就可以把應(yīng)用中所有的2的4次方操作轉(zhuǎn)變成2X2或者4X4來(lái)進(jìn)行處理。歸約操作的本質(zhì),就是在已知問(wèn)題和未知問(wèn)題之間建立指向和聯(lián)系,將特定問(wèn)題轉(zhuǎn)化成已知問(wèn)題來(lái)進(jìn)行處理,而并行歸約操作則將這一過(guò)程并行化已達(dá)到加快處理速度的目的。

    并行歸約操作考驗(yàn)的是構(gòu)架的并行吞吐能力,只要線程資源充足,體系應(yīng)該可以以最大化的方式來(lái)完成吞吐過(guò)程。從測(cè)試結(jié)果來(lái)看,Tahiti與Pitcairn構(gòu)架在這項(xiàng)測(cè)試中取得了相同的趨勢(shì),彼此之間也基本上保持了與規(guī)模相符的成績(jī)差異。

   

CS等效性能測(cè)試:亮度直方圖

    ● CS等效性能測(cè)試:亮度直方圖

    Compute Shader對(duì)于DirectX 11的重要性不言而喻,它擁有很多實(shí)用的應(yīng)用方式,快速繪制場(chǎng)景的亮度直方圖就是其中之一。無(wú)論DirectX還是Open CL,以通用計(jì)算方式來(lái)完成亮度直方圖繪制都需要體系擁有非常優(yōu)秀的ALU綜合性能。這其中不僅有吞吐能力,更有單元復(fù)用率所帶來(lái)的動(dòng)作效率。因此,我們決定繼續(xù)收集GPCBenchmark測(cè)試的亮度直方圖性能,借以了解緩沖密度以及單元復(fù)用率的差異對(duì)HD7950以及HD7970的圖形通用計(jì)算性能的影響。

    原子操作能夠讓線程塊凝固并不可再分,因此對(duì)吞吐和快速執(zhí)行能夠起到很好的“保護(hù)”作用,而緩沖密度又決定了體系在局域存儲(chǔ)器內(nèi)完成原子操作的效率,因此亮度直方圖的局域存儲(chǔ)器原子操作能夠反映體系在吞吐和單元復(fù)用率兩方面因素共同作用下的實(shí)際執(zhí)行能力,進(jìn)而檢驗(yàn)體系是否具備良好的靈活shader以及Compute Shader的執(zhí)行能力。

    在亮度直方圖的局域存儲(chǔ)器原子操作測(cè)試中,Tahiti與Pitcairn構(gòu)架,尤其是HD7950與HD7870的成績(jī)?cè)俅巍凹m纏”在了一起,雙方直到900MHz以上的核心頻率才算真正的分出了勝負(fù),雖然HD7950憑借更好的緩沖密度和緩沖總量,不僅在高頻下甩開(kāi)了一直緊緊咬住自己的HD7870,甚至最終還戰(zhàn)勝了最高級(jí)的旗艦HD7970,但聯(lián)系到其比HD7800大得多的規(guī)模,我們實(shí)在不能稱之為一場(chǎng)精彩的勝利。

   

Texture性能測(cè)試:二維卷積

    ● Texture性能測(cè)試:二維卷積

    由于Tahiti和Pitcairn擁有相同的幾何端、光柵化單元和輸出端,CU單元的圍觀邏輯結(jié)構(gòu)也完全相同,因此CU的總規(guī)模就成了兩者最主要的區(qū)別。我們已經(jīng)通過(guò)測(cè)試了解了Tahiti構(gòu)架CU中ALU團(tuán)簇部分因線程和緩沖等效密度密度不同而產(chǎn)生的性能差異。接下來(lái)我們將要展開(kāi)的測(cè)試,將圍繞著CU中的另一個(gè)重要組成部分——Texture Array展開(kāi)。

    我們?cè)谥暗奈恼轮刑岬竭^(guò),在傳統(tǒng)手段中想要單純測(cè)試體系的TMU性能是相當(dāng)困難的事情。幸運(yùn)的是,TMU對(duì)材質(zhì)的諸多操作過(guò)程,包括抽離材質(zhì)的顏色信息,將之轉(zhuǎn)化成灰度數(shù)據(jù),再將其與頂點(diǎn)數(shù)值進(jìn)行對(duì)照并輔以相關(guān)的操作等等,本質(zhì)上就是對(duì)像素?cái)?shù)據(jù)數(shù)組的一系列操作。因此GPCBenchmark對(duì)于二維卷積性能的測(cè)試,可以讓我們將TMU性能轉(zhuǎn)化成單純的TMU動(dòng)作能力以及與相關(guān)緩沖互動(dòng)能力的測(cè)試。

    卷積過(guò)程的應(yīng)用領(lǐng)域極為廣泛,其在統(tǒng)計(jì)學(xué)、概率論、聲學(xué)研究、以及電子信號(hào)處理領(lǐng)域都有廣泛的涉及,任何一個(gè)存在于世界上受物理學(xué)支配的線性系統(tǒng)均包含卷積過(guò)程。用TMU單元對(duì)卷積過(guò)程進(jìn)行運(yùn)算,可以考驗(yàn)TMU處理數(shù)據(jù)類型完全相同的材質(zhì)過(guò)程時(shí)的性能,同時(shí)還能避開(kāi)來(lái)自幾何、光柵化以及輸出過(guò)程的諸多干擾。

    由于Tahiti構(gòu)架的Texture cache資源相當(dāng)豐富,再加上Texture Array的動(dòng)作方式遠(yuǎn)比ALU面對(duì)shader時(shí)要來(lái)的規(guī)整和平滑,所以HD7900的二維卷積性能相當(dāng)出色。作為sweet spot登場(chǎng),Texture Array只有Tahiti一半的Pitcairn雖然因?yàn)榭偭坎蛔愣鋽,但卻憑借更加充盈的線程分配資源獲得了更為“平滑”的性能延伸曲線。

   

單元復(fù)用率表象:戰(zhàn)地3游戲測(cè)試

    ● 單元復(fù)用率表象:戰(zhàn)地3游戲測(cè)試

    我們對(duì)于構(gòu)架的底層延展測(cè)試,其本質(zhì)目的其實(shí)還是要向大家展現(xiàn)一款GPU對(duì)圖形過(guò)程的執(zhí)行能力。圖形能力是建立在一系列底層單元性能的基礎(chǔ)之上的,因此對(duì)于底層構(gòu)架的測(cè)試,將有助于我們理解現(xiàn)有的圖形測(cè)試的結(jié)果,并對(duì)該款構(gòu)架即將到來(lái)的產(chǎn)品進(jìn)行一定的預(yù)測(cè)。

    我們選擇DirectX 11游戲戰(zhàn)地3作為圖形表現(xiàn)的測(cè)試對(duì)象;诤2引擎的戰(zhàn)地3擁有大量先進(jìn)的DirectX 11特效,它并沒(méi)有采用傳統(tǒng)游戲以及跨平臺(tái)游戲以高精度材質(zhì)來(lái)提升畫(huà)質(zhì)的方法,而是利用靈活復(fù)雜的各種shader,尤其是Compute Shader來(lái)快速表達(dá)更加真實(shí)的光照效果以及環(huán)境,借以達(dá)到直接提升環(huán)境真實(shí)度的目的。

    戰(zhàn)地3的測(cè)試結(jié)果向我們說(shuō)明了許多問(wèn)題。以HD7950和HD7870為例,前者的運(yùn)算資源和材質(zhì)資源比后者大40%,同時(shí)擁有大出數(shù)十G的顯存帶寬和更好的緩沖總量,但其低落的線程密度和并不足夠的緩沖密度都極大地限制了它的單元復(fù)用率,進(jìn)而制約了其性能的延伸能力。從測(cè)試可以看出,只有當(dāng)頻率提升到一定地步之后,Tahiti構(gòu)架才會(huì)透過(guò)頻率換來(lái)的線程密度和緩沖帶寬的增長(zhǎng)獲得更好的單元復(fù)用率,進(jìn)而取得更好的圖形性能延伸性。

   

產(chǎn)品級(jí)的對(duì)決又會(huì)怎樣呢?

    ● Tahiti,Wicked Game

    與之前我們所進(jìn)行的HD7970/7950底層構(gòu)架眼神測(cè)試相比,本篇測(cè)試無(wú)論從測(cè)試內(nèi)容還是結(jié)果的解讀方面來(lái)講都是有過(guò)之而無(wú)不及的。我們花費(fèi)大力氣進(jìn)行測(cè)試和數(shù)據(jù)收集,并將測(cè)試結(jié)果抽離出來(lái)加以解讀,其目的無(wú)非是想讓大家了解什么才是真正的Tahiti構(gòu)架。我們?cè)陂_(kāi)篇就已經(jīng)說(shuō)過(guò),只有剝離測(cè)試中的其他干擾要素,直達(dá)構(gòu)架底層某個(gè)部件的真實(shí)性能,我們才能真正了解和理解一款圖形構(gòu)架。現(xiàn)在,我們收集到了足夠的數(shù)據(jù),但究竟應(yīng)該怎樣看待這些數(shù)據(jù)呢?

    底層的性能測(cè)試,其最終目的還是在于反應(yīng)并解釋實(shí)際產(chǎn)品的種種表現(xiàn)。因此通過(guò)對(duì)默認(rèn)核心頻率下HD7950與HD7870的各項(xiàng)測(cè)試數(shù)據(jù)進(jìn)行收集,我們成功的獲得了產(chǎn)品級(jí)的底層構(gòu)架性能對(duì)比情況。從對(duì)比狀況來(lái)看,HD7950以及背后的Tahiti構(gòu)架被HD7870以及Pitcairn所壓迫不僅不冤,而且情況相當(dāng)不容樂(lè)觀。

    在于單元復(fù)用率/shader靈活度相關(guān)的3項(xiàng)測(cè)試,包括矩陣乘法、矩陣轉(zhuǎn)置以及亮度直方圖的局域存儲(chǔ)器原子操作測(cè)試中,HD7950除了以我們?yōu)閷?duì)比HD7970而調(diào)節(jié)的264G顯存帶寬所換來(lái)的訪存優(yōu)勢(shì)完成了矩陣轉(zhuǎn)置的超越之外,另外兩項(xiàng)測(cè)試均敗給了默認(rèn)頻率的HD7870,尤其是對(duì)應(yīng)Compute Shader性能的亮度直方圖測(cè)試結(jié)果相當(dāng)值得關(guān)注。而可以等效規(guī)整Shader吞吐能力的并行規(guī)約測(cè)試中,默認(rèn)核心頻率的HD7950依舊敗給了HD7870?梢哉f(shuō)與shader相關(guān)的所有測(cè)試,HD7950基本上都輸給了比他小3成的HD7870。

    以產(chǎn)品而言,在這樣的底層測(cè)試結(jié)果下竟然還能取得10%的游戲性能領(lǐng)先,我們除了感慨巨大的材質(zhì)差異消弭了shader部分的領(lǐng)先之外,就只有替Tahiti構(gòu)架捏上一把汗了。

   

HD7900,一場(chǎng)危險(xiǎn)的游戲

    ● Tahiti is a Wicked Game

    Pitcairn向我們展現(xiàn)了一個(gè)幾乎完美的GCN體系構(gòu)架,同時(shí)也將Tahiti的問(wèn)題一并擺在了我們的面前。相比于Tahiti,同樣基于GCN體系且擁有雙ACE的Pitcairn擁有高出許多的等效線程密度,單元復(fù)用率以及由此帶來(lái)的相當(dāng)不錯(cuò)的shader性能。它以小得多的規(guī)模和功耗,實(shí)現(xiàn)了遠(yuǎn)遠(yuǎn)超過(guò)Tahiti的性能密度和延展性。如果不是總規(guī)模限制帶來(lái)的材質(zhì)資源不足,HD7800的絕對(duì)性能甚至應(yīng)該可以完全追上甚至超越HD7970,因此能夠擁有現(xiàn)在這樣向上壓迫HD7950的表現(xiàn),自然也就不足為奇了。

    那么,我們的問(wèn)題就來(lái)了——既然Pitcairn無(wú)論運(yùn)算還是圖形效率都明顯要好于Tahiti,AMD為什么不以Pitcairn為基礎(chǔ)維持比例對(duì)其進(jìn)行放大,而是弄出了Tahiti這樣一個(gè)存在效率問(wèn)題,無(wú)論等效線程密度還是等效緩沖密度都不出眾的旗艦級(jí)構(gòu)架呢?今天這樣的測(cè)試結(jié)果我們可以收集到,AMD性能實(shí)驗(yàn)室同樣也可以收集到而且應(yīng)該做的更好,我們甚至敢斷言它們?cè)跇?gòu)架凝固之前的模擬階段就應(yīng)該已經(jīng)獲得了與我們測(cè)試類似的結(jié)果,但它們卻為何沒(méi)有對(duì)Tahiti構(gòu)架提出任何有效的預(yù)警或者干預(yù)呢?

    對(duì)HPC市場(chǎng)的渴望,D線,勝利工程,這三者以及更多其它問(wèn)題的共同作用,導(dǎo)致了今天我們所見(jiàn)到的Tahiti的狀態(tài)。

    基于GPGPU應(yīng)用的HPC市場(chǎng)一直是AMD可望而不可及的,無(wú)論R600、R700、Evengreen還是Cayman,它們身上都有太多不適合HPC應(yīng)用的構(gòu)架級(jí)問(wèn)題。因此在Tahiti研制之初,AMD便致力于修補(bǔ)來(lái)自通用計(jì)算性能和效率層面的諸多既往設(shè)計(jì)缺陷。但這種認(rèn)知依舊沒(méi)有脫離AMD對(duì)原教旨GPGPU理解的失當(dāng)。AMD對(duì)HPC市場(chǎng)較為敏感的雙精度參數(shù)的盲從,將Tahiti拖入了晶體管消耗的漩渦之中。在D線的壓力下,AMD手上能夠支配的芯片面積以及晶體管數(shù)量并不富裕,這部分晶體管還要被拿來(lái)滿足更傾向于宣傳的DP吞吐數(shù)據(jù),這直接導(dǎo)致了Tahiti構(gòu)架沒(méi)有了可以用來(lái)擴(kuò)充緩沖資源以及ACE等線程密度和并行度相關(guān)的資本,進(jìn)而造就了如今HD7900尤其是HD7970那無(wú)法令人滿意的單元復(fù)用率和絕對(duì)性能。

    具體來(lái)說(shuō),如果維持雙ACE以及目前的緩沖密度不變,Tahiti完全可以以1536個(gè)Vector ALU的規(guī)模來(lái)?yè)Q取更好的線程和緩沖密度,但這并不利于平衡吞吐尤其是DP吞吐與頻率/良率之間的關(guān)系,D線的橫亙又讓AMD失去了在維持2048 Vector ALU以及1/4 DP性能目標(biāo)的前提下實(shí)現(xiàn)四ACE并行以及使用更大容量緩沖的可能。所以,Tahiti只得在構(gòu)架上選擇優(yōu)先達(dá)成吞吐目標(biāo),進(jìn)而也就只得接受較低的線程密度以及并不令人滿意的單元復(fù)用率了。

    在此基礎(chǔ)上,AMD性能實(shí)驗(yàn)室并未對(duì)其所面對(duì)的各種搭配失當(dāng)?shù)膯?wèn)題作出必要的預(yù)警和干預(yù),由于羅瑞德主推的勝利工程,包括Godfrey Cheng(All In Wonder顯卡之父,AMD性能實(shí)驗(yàn)室主管)在內(nèi)的諸多高管以及員工的離職影響了AMD性能實(shí)驗(yàn)室的運(yùn)作,這使得了AMD的構(gòu)架決策團(tuán)隊(duì)失去了重要的參考依據(jù)。于是,我們所見(jiàn)到的Tahiti也就成了今天的樣子,充滿了改進(jìn)以及對(duì)未來(lái)的美好憧憬,但卻帶來(lái)了更多全新的麻煩和錯(cuò)誤……

    Wicked Game可以被翻譯成帶有“曖昧”意味的危險(xiǎn)游戲,用這個(gè)詞來(lái)形容Tahiti以及目前正在熱切宣傳本質(zhì)上其實(shí)并不出眾通用計(jì)算能力的AMD,應(yīng)該是比較恰當(dāng)?shù)摹ahiti的圖形性能以及運(yùn)算性能都沒(méi)有想象中那樣優(yōu)秀,無(wú)論對(duì)于HPC市場(chǎng)還是民用顯示市場(chǎng)來(lái)說(shuō),其并不算高的單元復(fù)用率以及效率都讓AMD目前的宣傳和運(yùn)作有了成為雙刃劍的可能。

    對(duì)于底層構(gòu)架乃至公司運(yùn)作過(guò)程的剖析看似與常規(guī)用戶非常遙遠(yuǎn),但正是這種剖析為我們提供了更多尋找優(yōu)秀的或者更加適合我們的顯卡產(chǎn)品的依據(jù)。以目前的情況來(lái)看,HD7800顯然對(duì)大多數(shù)人來(lái)說(shuō)都是更值得選擇的產(chǎn)品。Pitcairn提供的優(yōu)秀基礎(chǔ)令其擁有了GCN體系中最佳的性能密度和效率,它的性價(jià)比、性能規(guī)模比以及性能功耗比均遠(yuǎn)高于HD7900系列,其默認(rèn)絕對(duì)性能更是可以對(duì)HD7950造成極大的壓迫。不管這種壓迫因何而起,從產(chǎn)品的角度出發(fā)來(lái)看,HD7800都是一款更優(yōu)秀的顯卡。我們期待AMD能夠盡快將HD7800的售價(jià)調(diào)整到適宜它的位置,這不僅對(duì)消費(fèi)者更加有利,同時(shí)也可以帶來(lái)更好的芯片出貨量,是一個(gè)雙贏的優(yōu)秀選擇。

廣告聯(lián)系:010-82755684 | 010-82755685 手機(jī)版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時(shí)代網(wǎng) 版權(quán)所有 關(guān)于投影時(shí)代 | 聯(lián)系我們 | 歡迎來(lái)稿 | 網(wǎng)站地圖
返回首頁(yè) 網(wǎng)友評(píng)論 返回頂部 建議反饋
快速評(píng)論
驗(yàn)證碼: 看不清?點(diǎn)一下
發(fā)表評(píng)論