投影時(shí)代首頁(yè) > 電腦配件 >> 評(píng)測(cè)試用 > 正文

搜索新聞

GPU煉金試驗(yàn)室揭秘HD7800強(qiáng)勁性能之謎

來(lái)源：中關(guān)村在線(xiàn)　更新日期：2012-04-15 作者：顧杰

商顯市場(chǎng)最大的看點(diǎn)何在年度評(píng)選盛典獲獎(jiǎng)揭曉 Infocomm China 深入報(bào)道

本文導(dǎo)航

第1頁(yè)：有了Pitcairn，你還會(huì)選擇Tahiti么
第3頁(yè)：測(cè)試平臺(tái)及測(cè)試項(xiàng)目簡(jiǎn)介
第5頁(yè)：shader靈活度測(cè)試：矩陣轉(zhuǎn)置
第7頁(yè)：CS等效性能測(cè)試：亮度直方圖
第9頁(yè)：?jiǎn)卧獜?fù)用率表象：戰(zhàn)地3游戲測(cè)試
第11頁(yè)：HD7900，一場(chǎng)危險(xiǎn)的游戲

第2頁(yè)：與設(shè)計(jì)師的靈魂的再次對(duì)話(huà)
第4頁(yè)：shader靈活度測(cè)試：矩陣乘法
第6頁(yè)：shader吞吐能力測(cè)試：并行歸約
第8頁(yè)：Texture性能測(cè)試：二維卷積
第10頁(yè)：產(chǎn)品級(jí)的對(duì)決又會(huì)怎樣呢？

返回分頁(yè)閱讀文章

有了Pitcairn，你還會(huì)選擇Tahiti么

作為AMD在經(jīng)歷了5年坎坷摸索之后的作品，以第三代DirectX 11旗艦構(gòu)架登場(chǎng)的Tahiti承載了AMD工程師大量的汗水和期許。初登場(chǎng)時(shí)的Tahiti以驚艷構(gòu)架改進(jìn)，幾乎蕩平了由Evengreen甚至R600所積累的諸多詬病，并博得了應(yīng)有的掌聲和喝彩，雖然依舊有絕對(duì)性能不足等瑕疵，但它依舊讓我們感受到了AMD追求卓越圖形構(gòu)架設(shè)計(jì)以及探索的決心。

因?yàn)門(mén)ahiti所展現(xiàn)出來(lái)的決心和意志，我們變的寬容起來(lái)。我們可以忍受它看上去并不十分強(qiáng)大的絕對(duì)性能上限，我們接受了HD7970那令人印象深刻的噪音和并不算小的功耗，我們以為自己獲得或者即將獲得的是一個(gè)足夠盡力但還有一段不短的路需要走的GCN系列構(gòu)架。萬(wàn)事開(kāi)頭難嘛，糾正一系列長(zhǎng)期積累的問(wèn)題是一個(gè)困難而持久的過(guò)程，GCN構(gòu)架對(duì)過(guò)去問(wèn)題的修正不可能一蹴而就，但它畢竟邁出了堅(jiān)實(shí)的第一步，因此，我們應(yīng)該給予它充足的時(shí)間。

但好景不長(zhǎng)，就在Tahiti構(gòu)架出現(xiàn)2個(gè)月之后，與之同期開(kāi)始研發(fā)并同樣源自GCN（Graphic Core Next）體系，擁有近似邏輯結(jié)構(gòu)和不同資源搭配比例的Pitcairn出現(xiàn)在了人們的視野中。在與這個(gè)同族小兄弟的對(duì)比中，Tahiti的圖形性能及其規(guī)模性能延伸率表現(xiàn)似乎并不盡如人意，Tahiti構(gòu)架的次級(jí)旗艦HD7950在大多數(shù)場(chǎng)合都無(wú)法與基于Pitcairn的HD7870拉開(kāi)與規(guī)模相符的差距，無(wú)論單元效率還是每瓦特效率，HD7800都表現(xiàn)的十分強(qiáng)大，甚至直接對(duì)HD7950這樣一個(gè)更高級(jí)別的存在造成了明顯的沖擊。Tahiti諸多改進(jìn)帶來(lái)的閃光，正在隨著Pitcairn的到來(lái)而逐漸變得暗淡。

Pitcairn的實(shí)際表現(xiàn)更是在想我們確鑿無(wú)疑的說(shuō)明這一個(gè)可怕的事實(shí)——GCN構(gòu)架的性能和效率，明顯不應(yīng)該被延伸到Tahiti這樣一個(gè)較低的程度。事實(shí)上GCN構(gòu)架本身就存在相當(dāng)優(yōu)秀的邏輯結(jié)構(gòu)設(shè)計(jì)，而這種邏輯結(jié)構(gòu)設(shè)計(jì)卻并沒(méi)有在Tahiti身上得到體現(xiàn)。換句話(huà)說(shuō)，Tahiti本身在改進(jìn)諸多過(guò)去錯(cuò)誤的同時(shí)，本身又帶來(lái)了新的問(wèn)題，而Pitcairn的表現(xiàn)則告訴我們這些問(wèn)題本來(lái)是可以避免的……

難道這就是AMD工程師要表達(dá)給我們的“靈魂的力量”么？不僅我，相信屏幕前的諸位同樣不會(huì)相信也無(wú)法接受這一點(diǎn)。那么，究竟Tahiti與Pitcairn在深層構(gòu)架性能層面有著怎樣的異同？Tahiti遺失了哪些Pitcairn乃至整個(gè)GCN構(gòu)架應(yīng)該具備的特質(zhì)呢？在今天的GPU煉金實(shí)驗(yàn)室中，我們將會(huì)以直接面向底層的測(cè)試方式以及分析，來(lái)為你還原真正的HD7900以及HD7800，并為你解答心中的困惑。

與設(shè)計(jì)師的靈魂的再次對(duì)話(huà)

● 與設(shè)計(jì)師的靈魂的再次對(duì)話(huà)　

我們?cè)?jīng)提到過(guò)，每一款GPU芯片都是辛勤汗水的結(jié)晶，它們凝聚著設(shè)計(jì)者靈魂的力量。透過(guò)GPU芯片的特性以及表現(xiàn)的全面了解，我們可以從不同角度體會(huì)到設(shè)計(jì)師在設(shè)計(jì)芯片時(shí)的想法以及希望表達(dá)的意圖。

要想掌握Tahiti以及Pitcairn在邏輯結(jié)構(gòu)上的差異所帶來(lái)的影響，我們必須避開(kāi)圖形過(guò)程其他步驟所帶來(lái)的各種干擾，收集到“純凈”的Tahiti以及Pitcairn構(gòu)架的底層性能，只有這樣才能直達(dá)AMD工程師的內(nèi)心深處。

圖形處理的本質(zhì)其實(shí)就是GPU各單元對(duì)各種數(shù)學(xué)過(guò)程進(jìn)行執(zhí)行的集合，常規(guī)的圖形化測(cè)試方法之所以無(wú)法避開(kāi)各種干擾，是因?yàn)樗鼈兇蠖嗑心嘤凇皥D形化”的形式當(dāng)中，無(wú)論測(cè)試過(guò)程還是結(jié)果都包含在了一個(gè)完整的圖形化處理和輸出過(guò)程中。比如說(shuō)要測(cè)試材質(zhì)填充率，我們必須經(jīng)歷完整的幾何處理、光柵化、像素處理、材質(zhì)填充以及輸出過(guò)程，這讓常規(guī)圖形測(cè)試的幾何關(guān)聯(lián)達(dá)到了對(duì)結(jié)果來(lái)說(shuō)無(wú)法忽略的地步。所以，只要繞開(kāi)這層幾何關(guān)聯(lián)，直接測(cè)試構(gòu)架底層單元執(zhí)行對(duì)應(yīng)數(shù)學(xué)過(guò)程的能力，就可以避開(kāi)其他單元以及圖形化本身對(duì)測(cè)試的干擾了。

GPCBenchmark是一款基于Open CL的GPU通用性能測(cè)試軟件，它不僅使用最為通用的函數(shù)庫(kù)及API接口進(jìn)行編寫(xiě)，并未對(duì)任何構(gòu)架進(jìn)行針對(duì)性的優(yōu)化，所有測(cè)試更基于從圖形過(guò)程以及通用計(jì)算過(guò)程中抽離出來(lái)的數(shù)學(xué)過(guò)程，能夠進(jìn)行我們所期望獲得的，能夠繞開(kāi)幾何關(guān)聯(lián)和圖形化過(guò)程的特定底層硬件純執(zhí)行能力測(cè)試。通過(guò)該款軟件，我們不僅可以直接讀取許多底層構(gòu)架信息，更能獲得構(gòu)架最真實(shí)的特性。

有了合適的測(cè)試手段，我們便可以通過(guò)“純凈”的構(gòu)架底層性能來(lái)面對(duì)和對(duì)比構(gòu)架內(nèi)部甚至不同構(gòu)架之間的諸多有用信息，比如吞吐能力、shader應(yīng)對(duì)能力或者材質(zhì)處理能力等等，并由此定性的推定出構(gòu)架的單元復(fù)用率以及效率狀況，進(jìn)而對(duì)性能表現(xiàn)進(jìn)行更深層次的解讀。

我們?cè)?jīng)多次提到過(guò)，DirectX 11時(shí)代對(duì)于構(gòu)架效率的對(duì)比，實(shí)際上就是對(duì)構(gòu)架單元復(fù)用率的對(duì)比，因此今天我們關(guān)于Tahiti以及Pitcairn構(gòu)架效率的測(cè)試，同樣也要圍繞著與復(fù)用率相關(guān)的測(cè)試步驟，包括矩陣乘法、矩陣轉(zhuǎn)置、并行規(guī)約、亮度直方圖局域存儲(chǔ)器原子操作以及二維卷積。最終，我們同樣也會(huì)通過(guò)戰(zhàn)地3游戲來(lái)完成我們對(duì)構(gòu)架數(shù)學(xué)應(yīng)對(duì)能力，也就是背后的單元復(fù)用率測(cè)試的檢驗(yàn)。

測(cè)試平臺(tái)及測(cè)試項(xiàng)目簡(jiǎn)介

● 測(cè)試平臺(tái)及測(cè)試項(xiàng)目簡(jiǎn)介

性能測(cè)試使用的硬件平臺(tái)由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600內(nèi)存構(gòu)成。細(xì)節(jié)及軟件環(huán)境設(shè)定見(jiàn)下表：

測(cè) 試平臺(tái) 硬件
	中央處理器
	Intel Core i7-3960X
	（6核 / 12線(xiàn)程 / 100MHz*33 / 15MB L3 Cache ）
	散熱器
	Intel RTS2011LC
	（原廠(chǎng)水冷散熱器 / 選配件）
	內(nèi)存模組
	Samsung 黑武士 DDR3-1600 4GB
	（SPD:9-9-9-24-1T）
	主板
	ASUS Rampage IV Extreme
	（Intel X79 Chipset）
	硬盤(pán)
	Hitachi 1T
	（1TB / 7200RPM / 16M緩存 / 50GB NTFS系統(tǒng)）
	電源供應(yīng)器
	NERMAX 白金冰核 1500W
	（CSCI Platinum 80Plus / 1500W）
	顯示器
	DELL UltraSharp 3008WFP
	（30英寸LCD / 2560*1600分辨率）

為保證系統(tǒng)平臺(tái)具有最佳的穩(wěn)定性，此次硬件評(píng)測(cè)中所使用的操作系統(tǒng)均為Microsoft Windows 7 正版授權(quán)產(chǎn)品。使用Windows 7正版軟件能夠獲得最好的兼容性以及系統(tǒng)升級(jí)更新服務(wù)。

用戶(hù)在體驗(yàn)或購(gòu)買(mǎi)安裝Windows 7的操作系統(tǒng)時(shí)請(qǐng)認(rèn)準(zhǔn)所裝系統(tǒng)是否已經(jīng)獲得正版授權(quán)許可！未經(jīng)授權(quán)的非正版軟件將無(wú)法獲得包括更新等功能在內(nèi)的Windows 7服務(wù)。

操作系統(tǒng) 及驅(qū) 動(dòng)

	操作系統(tǒng)
	Microsoft Windows 7 Ultimate RTM SP1
	（64bit / 版本號(hào)7601）
	主板芯片組驅(qū)動(dòng)
	Intel Chipset Device Software for Win7
	（WHQL / 版本號(hào) 9.2.3.1022）

	AMD 顯卡驅(qū)動(dòng)
	AMD Catalsyt
	（Beta / 版本號(hào) 8.95.5 RC）
	桌面環(huán)境
	2560*1600_32bit 60Hz

我們采用GPCBenchmark 1.1以及戰(zhàn)地3進(jìn)行本次測(cè)試的數(shù)據(jù)收集，各項(xiàng)數(shù)值越高越好。為保證測(cè)試組別具有盡可能相同的外部存儲(chǔ)環(huán)境，我們決定將HD7950的顯存頻率調(diào)至與HD7970相同的5500MHz，HD7870與HD7850則運(yùn)行在相同的默認(rèn)公版顯存頻率上。在該環(huán)境下，HD7970/HD7950以及HD7870/HD7850將擁有完全相同的各自組別帶寬，之間的差異將只局限于CU單元的規(guī)模。

shader靈活度測(cè)試：矩陣乘法

● shader靈活度測(cè)試：矩陣乘法

矩陣乘法是線(xiàn)性代數(shù)的基本構(gòu)成之一，它是各種通用計(jì)算以及shader處理過(guò)程中非常常見(jiàn)的數(shù)學(xué)操作方式，矩陣乘法的過(guò)程可以將許多非常復(fù)雜的模型轉(zhuǎn)換成相對(duì)簡(jiǎn)單的表現(xiàn)形式，因此被廣泛應(yīng)用在了光柵化（坐標(biāo)變換）、光照（亮度直方操作）、陰影邊緣平滑（針對(duì)像素塊的切比雪夫不等式群）等幾乎所有圖形處理過(guò)程中。可以說(shuō)只要進(jìn)行圖形處理過(guò)程，GPU就必定會(huì)進(jìn)行大量的矩陣乘法操作。

矩陣乘法可以被解離成大量的存在一階或者多階弱關(guān)聯(lián)度的行列式運(yùn)算，并行化的處理這些行列式，同時(shí)為操作過(guò)程提供合理的緩沖空間來(lái)釋放臨時(shí)結(jié)果勢(shì)必會(huì)極大地加快矩陣乘法操作的效率，進(jìn)而加快整個(gè)圖形過(guò)程的進(jìn)度。因此，對(duì)于矩陣乘法效率的測(cè)試，不僅可以讓我們獲得構(gòu)架并行度以及緩沖資源情況的信息，更能在趨勢(shì)上反映GPU執(zhí)行shader尤其是靈活shader的執(zhí)行效率。所以，無(wú)論是之前已經(jīng)進(jìn)行過(guò)的HD7970/7950效能測(cè)試還是本次的GCN體系對(duì)比測(cè)試，我們都將矩陣乘法測(cè)試作為構(gòu)架延展測(cè)試的第一個(gè)項(xiàng)目，通過(guò)它將Tahiti以及Pitcairn構(gòu)架的ALU團(tuán)簇部分剝離出來(lái)進(jìn)行專(zhuān)門(mén)的性能測(cè)試。

矩陣乘法需要構(gòu)架擁有良好的線(xiàn)程仲裁分配機(jī)制以及充足的緩沖體系，而這正是Tahiti構(gòu)架與Pitcairn，甚至是Tahiti構(gòu)架內(nèi)部最核心的差異。Tahiti與Pitcairn同樣擁有2組并行的ACE引擎，同樣的2組ACE引擎在HD7970上需要應(yīng)對(duì)32組CU共計(jì)2048個(gè)Vector ALU的需求，HD7950的運(yùn)算單元規(guī)模比HD7970縮減了12.5%，所以同樣的2組ACE引擎在一級(jí)線(xiàn)程隊(duì)列仲裁及管理壓力方面也要低于HD7970。HD7870及HD7850的ACE引擎與HD7900并無(wú)區(qū)別，但同樣的2組ACE引擎在Pitcairn中只需要管理20/16組CU，合計(jì)1280/1024個(gè)Vector ALU。不難看出，HD7800的CU可以輕松的獲得比HD7900更加充盈的線(xiàn)程塊供給，這對(duì)于提升單元復(fù)用率有著極大的貢獻(xiàn)。

測(cè)試結(jié)果支撐了我們的分析，盡管Pitcairn的運(yùn)算規(guī)模只有Tahiti的62.5%，但HD7800卻取得了超越HD7900的矩陣乘法性能，同時(shí)并完全沒(méi)有表現(xiàn)出HD7900資源匱乏從而重度依賴(lài)驅(qū)動(dòng)優(yōu)化所導(dǎo)致的矩陣操作性能起伏問(wèn)題。而在Tahiti構(gòu)架內(nèi)部，HD7950亦表現(xiàn)出了優(yōu)于HD7970的性能增長(zhǎng)趨勢(shì)。

shader靈活度測(cè)試：矩陣轉(zhuǎn)置

● shader靈活度測(cè)試：矩陣轉(zhuǎn)置

矩陣轉(zhuǎn)置同矩陣乘法一樣，也廣泛分布在包括坐標(biāo)變換等過(guò)程在內(nèi)的大量圖形處理過(guò)程中。矩陣轉(zhuǎn)置可以被理解成矩陣沿特定方向“翻轉(zhuǎn)”之后產(chǎn)生的鏡像，這導(dǎo)致了矩陣轉(zhuǎn)置操作會(huì)涉及到大量數(shù)據(jù)，比如稀疏矩陣的對(duì)角線(xiàn)數(shù)據(jù)等的臨時(shí)存儲(chǔ)，因此矩陣轉(zhuǎn)置操作對(duì)于體系的緩沖密度是相當(dāng)敏感的。

同矩陣乘法一樣，伴隨著頻率的不斷提升，HD7950的矩陣轉(zhuǎn)置性能提升速度較之HD7970要高出許多，兩者之間的性能差異在迅速的收窄甚至趨同。由于矩陣轉(zhuǎn)置的操作過(guò)程較之矩陣乘法更加“規(guī)整”，能夠產(chǎn)生瞬間高延遲的因素較少，因此矩陣轉(zhuǎn)置測(cè)試所得的趨勢(shì)也更加明顯和直觀。

由于矩陣轉(zhuǎn)置對(duì)緩沖體系的敏感，緩沖密度相同但總量更少的Pitcairn在這項(xiàng)測(cè)試中遇到了不小的問(wèn)題，不足以應(yīng)對(duì)測(cè)試需求的緩沖體系導(dǎo)致了大量的訪(fǎng)存過(guò)程，這直接拖累HD7800的矩陣轉(zhuǎn)置性能。這個(gè)過(guò)程在Tahiti中同樣存在，但擁有巨大顯存帶寬的HD7900系列成功的以更好的顯存性能應(yīng)對(duì)了緩沖溢出的問(wèn)題。sweet spot級(jí)的HD7800并不具備旗艦級(jí)的384bit顯存位寬，因此只能接受150G顯存帶寬帶來(lái)的測(cè)試結(jié)果。

shader吞吐能力測(cè)試：并行歸約

● shader吞吐能力測(cè)試：并行歸約

為了全面的反應(yīng)Tahiti構(gòu)架的特性，同時(shí)證明矩陣乘法以及矩陣轉(zhuǎn)置測(cè)試的結(jié)果與伴隨頻率抬升帶來(lái)的吞吐增加并無(wú)直接關(guān)系，我們進(jìn)一步收集了HD7950與HD7970在不同頻率下的并行歸約執(zhí)行能力的數(shù)據(jù)。

通俗的說(shuō)，歸約是一個(gè)以已知問(wèn)題解法來(lái)直接處理未知問(wèn)題的黑箱化數(shù)學(xué)方法。比如說(shuō)我們不知道2的4次方應(yīng)該怎樣計(jì)算，但我們知道2X2以及4X4如何計(jì)算，那我們就可以把應(yīng)用中所有的2的4次方操作轉(zhuǎn)變成2X2或者4X4來(lái)進(jìn)行處理。歸約操作的本質(zhì)，就是在已知問(wèn)題和未知問(wèn)題之間建立指向和聯(lián)系，將特定問(wèn)題轉(zhuǎn)化成已知問(wèn)題來(lái)進(jìn)行處理，而并行歸約操作則將這一過(guò)程并行化已達(dá)到加快處理速度的目的。

并行歸約操作考驗(yàn)的是構(gòu)架的并行吞吐能力，只要線(xiàn)程資源充足，體系應(yīng)該可以以最大化的方式來(lái)完成吞吐過(guò)程。從測(cè)試結(jié)果來(lái)看，Tahiti與Pitcairn構(gòu)架在這項(xiàng)測(cè)試中取得了相同的趨勢(shì)，彼此之間也基本上保持了與規(guī)模相符的成績(jī)差異。

CS等效性能測(cè)試：亮度直方圖

● CS等效性能測(cè)試：亮度直方圖

Compute Shader對(duì)于DirectX 11的重要性不言而喻，它擁有很多實(shí)用的應(yīng)用方式，快速繪制場(chǎng)景的亮度直方圖就是其中之一。無(wú)論DirectX還是Open CL，以通用計(jì)算方式來(lái)完成亮度直方圖繪制都需要體系擁有非常優(yōu)秀的ALU綜合性能。這其中不僅有吞吐能力，更有單元復(fù)用率所帶來(lái)的動(dòng)作效率。因此，我們決定繼續(xù)收集GPCBenchmark測(cè)試的亮度直方圖性能，借以了解緩沖密度以及單元復(fù)用率的差異對(duì)HD7950以及HD7970的圖形通用計(jì)算性能的影響。

原子操作能夠讓線(xiàn)程塊凝固并不可再分，因此對(duì)吞吐和快速執(zhí)行能夠起到很好的“保護(hù)”作用，而緩沖密度又決定了體系在局域存儲(chǔ)器內(nèi)完成原子操作的效率，因此亮度直方圖的局域存儲(chǔ)器原子操作能夠反映體系在吞吐和單元復(fù)用率兩方面因素共同作用下的實(shí)際執(zhí)行能力，進(jìn)而檢驗(yàn)體系是否具備良好的靈活shader以及Compute Shader的執(zhí)行能力。

在亮度直方圖的局域存儲(chǔ)器原子操作測(cè)試中，Tahiti與Pitcairn構(gòu)架，尤其是HD7950與HD7870的成績(jī)?cè)俅巍凹m纏”在了一起，雙方直到900MHz以上的核心頻率才算真正的分出了勝負(fù)，雖然HD7950憑借更好的緩沖密度和緩沖總量，不僅在高頻下甩開(kāi)了一直緊緊咬住自己的HD7870，甚至最終還戰(zhàn)勝了最高級(jí)的旗艦HD7970，但聯(lián)系到其比HD7800大得多的規(guī)模，我們實(shí)在不能稱(chēng)之為一場(chǎng)精彩的勝利。

Texture性能測(cè)試：二維卷積

● Texture性能測(cè)試：二維卷積

由于Tahiti和Pitcairn擁有相同的幾何端、光柵化單元和輸出端，CU單元的圍觀邏輯結(jié)構(gòu)也完全相同，因此CU的總規(guī)模就成了兩者最主要的區(qū)別。我們已經(jīng)通過(guò)測(cè)試了解了Tahiti構(gòu)架CU中ALU團(tuán)簇部分因線(xiàn)程和緩沖等效密度密度不同而產(chǎn)生的性能差異。接下來(lái)我們將要展開(kāi)的測(cè)試，將圍繞著CU中的另一個(gè)重要組成部分——Texture Array展開(kāi)。

我們?cè)谥暗奈恼轮刑岬竭^(guò)，在傳統(tǒng)手段中想要單純測(cè)試體系的TMU性能是相當(dāng)困難的事情。幸運(yùn)的是，TMU對(duì)材質(zhì)的諸多操作過(guò)程，包括抽離材質(zhì)的顏色信息，將之轉(zhuǎn)化成灰度數(shù)據(jù)，再將其與頂點(diǎn)數(shù)值進(jìn)行對(duì)照并輔以相關(guān)的操作等等，本質(zhì)上就是對(duì)像素?cái)?shù)據(jù)數(shù)組的一系列操作。因此GPCBenchmark對(duì)于二維卷積性能的測(cè)試，可以讓我們將TMU性能轉(zhuǎn)化成單純的TMU動(dòng)作能力以及與相關(guān)緩沖互動(dòng)能力的測(cè)試。

卷積過(guò)程的應(yīng)用領(lǐng)域極為廣泛，其在統(tǒng)計(jì)學(xué)、概率論、聲學(xué)研究、以及電子信號(hào)處理領(lǐng)域都有廣泛的涉及，任何一個(gè)存在于世界上受物理學(xué)支配的線(xiàn)性系統(tǒng)均包含卷積過(guò)程。用TMU單元對(duì)卷積過(guò)程進(jìn)行運(yùn)算，可以考驗(yàn)TMU處理數(shù)據(jù)類(lèi)型完全相同的材質(zhì)過(guò)程時(shí)的性能，同時(shí)還能避開(kāi)來(lái)自幾何、光柵化以及輸出過(guò)程的諸多干擾。

由于Tahiti構(gòu)架的Texture cache資源相當(dāng)豐富，再加上Texture Array的動(dòng)作方式遠(yuǎn)比ALU面對(duì)shader時(shí)要來(lái)的規(guī)整和平滑，所以HD7900的二維卷積性能相當(dāng)出色。作為sweet spot登場(chǎng)，Texture Array只有Tahiti一半的Pitcairn雖然因?yàn)榭偭坎蛔愣鋽�，但卻憑借更加充盈的線(xiàn)程分配資源獲得了更為“平滑”的性能延伸曲線(xiàn)。

單元復(fù)用率表象：戰(zhàn)地3游戲測(cè)試

● 單元復(fù)用率表象：戰(zhàn)地3游戲測(cè)試

我們對(duì)于構(gòu)架的底層延展測(cè)試，其本質(zhì)目的其實(shí)還是要向大家展現(xiàn)一款GPU對(duì)圖形過(guò)程的執(zhí)行能力。圖形能力是建立在一系列底層單元性能的基礎(chǔ)之上的，因此對(duì)于底層構(gòu)架的測(cè)試，將有助于我們理解現(xiàn)有的圖形測(cè)試的結(jié)果，并對(duì)該款構(gòu)架即將到來(lái)的產(chǎn)品進(jìn)行一定的預(yù)測(cè)。

我們選擇DirectX 11游戲戰(zhàn)地3作為圖形表現(xiàn)的測(cè)試對(duì)象�；诤�2引擎的戰(zhàn)地3擁有大量先進(jìn)的DirectX 11特效，它并沒(méi)有采用傳統(tǒng)游戲以及跨平臺(tái)游戲以高精度材質(zhì)來(lái)提升畫(huà)質(zhì)的方法，而是利用靈活復(fù)雜的各種shader，尤其是Compute Shader來(lái)快速表達(dá)更加真實(shí)的光照效果以及環(huán)境，借以達(dá)到直接提升環(huán)境真實(shí)度的目的。

戰(zhàn)地3的測(cè)試結(jié)果向我們說(shuō)明了許多問(wèn)題。以HD7950和HD7870為例，前者的運(yùn)算資源和材質(zhì)資源比后者大40%，同時(shí)擁有大出數(shù)十G的顯存帶寬和更好的緩沖總量，但其低落的線(xiàn)程密度和并不足夠的緩沖密度都極大地限制了它的單元復(fù)用率，進(jìn)而制約了其性能的延伸能力。從測(cè)試可以看出，只有當(dāng)頻率提升到一定地步之后，Tahiti構(gòu)架才會(huì)透過(guò)頻率換來(lái)的線(xiàn)程密度和緩沖帶寬的增長(zhǎng)獲得更好的單元復(fù)用率，進(jìn)而取得更好的圖形性能延伸性。

產(chǎn)品級(jí)的對(duì)決又會(huì)怎樣呢？

● Tahiti，Wicked Game

與之前我們所進(jìn)行的HD7970/7950底層構(gòu)架眼神測(cè)試相比，本篇測(cè)試無(wú)論從測(cè)試內(nèi)容還是結(jié)果的解讀方面來(lái)講都是有過(guò)之而無(wú)不及的。我們花費(fèi)大力氣進(jìn)行測(cè)試和數(shù)據(jù)收集，并將測(cè)試結(jié)果抽離出來(lái)加以解讀，其目的無(wú)非是想讓大家了解什么才是真正的Tahiti構(gòu)架。我們?cè)陂_(kāi)篇就已經(jīng)說(shuō)過(guò)，只有剝離測(cè)試中的其他干擾要素，直達(dá)構(gòu)架底層某個(gè)部件的真實(shí)性能，我們才能真正了解和理解一款圖形構(gòu)架�，F(xiàn)在，我們收集到了足夠的數(shù)據(jù)，但究竟應(yīng)該怎樣看待這些數(shù)據(jù)呢？

底層的性能測(cè)試，其最終目的還是在于反應(yīng)并解釋實(shí)際產(chǎn)品的種種表現(xiàn)。因此通過(guò)對(duì)默認(rèn)核心頻率下HD7950與HD7870的各項(xiàng)測(cè)試數(shù)據(jù)進(jìn)行收集，我們成功的獲得了產(chǎn)品級(jí)的底層構(gòu)架性能對(duì)比情況。從對(duì)比狀況來(lái)看，HD7950以及背后的Tahiti構(gòu)架被HD7870以及Pitcairn所壓迫不僅不冤，而且情況相當(dāng)不容樂(lè)觀。

在于單元復(fù)用率/shader靈活度相關(guān)的3項(xiàng)測(cè)試，包括矩陣乘法、矩陣轉(zhuǎn)置以及亮度直方圖的局域存儲(chǔ)器原子操作測(cè)試中，HD7950除了以我們?yōu)閷?duì)比HD7970而調(diào)節(jié)的264G顯存帶寬所換來(lái)的訪(fǎng)存優(yōu)勢(shì)完成了矩陣轉(zhuǎn)置的超越之外，另外兩項(xiàng)測(cè)試均敗給了默認(rèn)頻率的HD7870，尤其是對(duì)應(yīng)Compute Shader性能的亮度直方圖測(cè)試結(jié)果相當(dāng)值得關(guān)注。而可以等效規(guī)整Shader吞吐能力的并行規(guī)約測(cè)試中，默認(rèn)核心頻率的HD7950依舊敗給了HD7870�？梢哉f(shuō)與shader相關(guān)的所有測(cè)試，HD7950基本上都輸給了比他小3成的HD7870。

以產(chǎn)品而言，在這樣的底層測(cè)試結(jié)果下竟然還能取得10%的游戲性能領(lǐng)先，我們除了感慨巨大的材質(zhì)差異消弭了shader部分的領(lǐng)先之外，就只有替Tahiti構(gòu)架捏上一把汗了。

HD7900，一場(chǎng)危險(xiǎn)的游戲

● Tahiti is a Wicked Game

Pitcairn向我們展現(xiàn)了一個(gè)幾乎完美的GCN體系構(gòu)架，同時(shí)也將Tahiti的問(wèn)題一并擺在了我們的面前。相比于Tahiti，同樣基于GCN體系且擁有雙ACE的Pitcairn擁有高出許多的等效線(xiàn)程密度，單元復(fù)用率以及由此帶來(lái)的相當(dāng)不錯(cuò)的shader性能。它以小得多的規(guī)模和功耗，實(shí)現(xiàn)了遠(yuǎn)遠(yuǎn)超過(guò)Tahiti的性能密度和延展性。如果不是總規(guī)模限制帶來(lái)的材質(zhì)資源不足，HD7800的絕對(duì)性能甚至應(yīng)該可以完全追上甚至超越HD7970，因此能夠擁有現(xiàn)在這樣向上壓迫HD7950的表現(xiàn)，自然也就不足為奇了。

那么，我們的問(wèn)題就來(lái)了——既然Pitcairn無(wú)論運(yùn)算還是圖形效率都明顯要好于Tahiti，AMD為什么不以Pitcairn為基礎(chǔ)維持比例對(duì)其進(jìn)行放大，而是弄出了Tahiti這樣一個(gè)存在效率問(wèn)題，無(wú)論等效線(xiàn)程密度還是等效緩沖密度都不出眾的旗艦級(jí)構(gòu)架呢？今天這樣的測(cè)試結(jié)果我們可以收集到，AMD性能實(shí)驗(yàn)室同樣也可以收集到而且應(yīng)該做的更好，我們甚至敢斷言它們?cè)跇?gòu)架凝固之前的模擬階段就應(yīng)該已經(jīng)獲得了與我們測(cè)試類(lèi)似的結(jié)果，但它們卻為何沒(méi)有對(duì)Tahiti構(gòu)架提出任何有效的預(yù)警或者干預(yù)呢？

對(duì)HPC市場(chǎng)的渴望，D線(xiàn)，勝利工程，這三者以及更多其它問(wèn)題的共同作用，導(dǎo)致了今天我們所見(jiàn)到的Tahiti的狀態(tài)。

基于GPGPU應(yīng)用的HPC市場(chǎng)一直是AMD可望而不可及的，無(wú)論R600、R700、Evengreen還是Cayman，它們身上都有太多不適合HPC應(yīng)用的構(gòu)架級(jí)問(wèn)題。因此在Tahiti研制之初，AMD便致力于修補(bǔ)來(lái)自通用計(jì)算性能和效率層面的諸多既往設(shè)計(jì)缺陷。但這種認(rèn)知依舊沒(méi)有脫離AMD對(duì)原教旨GPGPU理解的失當(dāng)。AMD對(duì)HPC市場(chǎng)較為敏感的雙精度參數(shù)的盲從，將Tahiti拖入了晶體管消耗的漩渦之中。在D線(xiàn)的壓力下，AMD手上能夠支配的芯片面積以及晶體管數(shù)量并不富裕，這部分晶體管還要被拿來(lái)滿(mǎn)足更傾向于宣傳的DP吞吐數(shù)據(jù)，這直接導(dǎo)致了Tahiti構(gòu)架沒(méi)有了可以用來(lái)擴(kuò)充緩沖資源以及ACE等線(xiàn)程密度和并行度相關(guān)的資本，進(jìn)而造就了如今HD7900尤其是HD7970那無(wú)法令人滿(mǎn)意的單元復(fù)用率和絕對(duì)性能。

具體來(lái)說(shuō)，如果維持雙ACE以及目前的緩沖密度不變，Tahiti完全可以以1536個(gè)Vector ALU的規(guī)模來(lái)?yè)Q取更好的線(xiàn)程和緩沖密度，但這并不利于平衡吞吐尤其是DP吞吐與頻率/良率之間的關(guān)系，D線(xiàn)的橫亙又讓AMD失去了在維持2048 Vector ALU以及1/4 DP性能目標(biāo)的前提下實(shí)現(xiàn)四ACE并行以及使用更大容量緩沖的可能。所以，Tahiti只得在構(gòu)架上選擇優(yōu)先達(dá)成吞吐目標(biāo)，進(jìn)而也就只得接受較低的線(xiàn)程密度以及并不令人滿(mǎn)意的單元復(fù)用率了。

在此基礎(chǔ)上，AMD性能實(shí)驗(yàn)室并未對(duì)其所面對(duì)的各種搭配失當(dāng)?shù)膯?wèn)題作出必要的預(yù)警和干預(yù)，由于羅瑞德主推的勝利工程，包括Godfrey Cheng（All In Wonder顯卡之父，AMD性能實(shí)驗(yàn)室主管）在內(nèi)的諸多高管以及員工的離職影響了AMD性能實(shí)驗(yàn)室的運(yùn)作，這使得了AMD的構(gòu)架決策團(tuán)隊(duì)失去了重要的參考依據(jù)。于是，我們所見(jiàn)到的Tahiti也就成了今天的樣子，充滿(mǎn)了改進(jìn)以及對(duì)未來(lái)的美好憧憬，但卻帶來(lái)了更多全新的麻煩和錯(cuò)誤……

Wicked Game可以被翻譯成帶有“曖昧”意味的危險(xiǎn)游戲，用這個(gè)詞來(lái)形容Tahiti以及目前正在熱切宣傳本質(zhì)上其實(shí)并不出眾通用計(jì)算能力的AMD，應(yīng)該是比較恰當(dāng)?shù)�。Tahiti的圖形性能以及運(yùn)算性能都沒(méi)有想象中那樣優(yōu)秀，無(wú)論對(duì)于HPC市場(chǎng)還是民用顯示市場(chǎng)來(lái)說(shuō)，其并不算高的單元復(fù)用率以及效率都讓AMD目前的宣傳和運(yùn)作有了成為雙刃劍的可能。

對(duì)于底層構(gòu)架乃至公司運(yùn)作過(guò)程的剖析看似與常規(guī)用戶(hù)非常遙遠(yuǎn)，但正是這種剖析為我們提供了更多尋找優(yōu)秀的或者更加適合我們的顯卡產(chǎn)品的依據(jù)。以目前的情況來(lái)看，HD7800顯然對(duì)大多數(shù)人來(lái)說(shuō)都是更值得選擇的產(chǎn)品。Pitcairn提供的優(yōu)秀基礎(chǔ)令其擁有了GCN體系中最佳的性能密度和效率，它的性?xún)r(jià)比、性能規(guī)模比以及性能功耗比均遠(yuǎn)高于HD7900系列，其默認(rèn)絕對(duì)性能更是可以對(duì)HD7950造成極大的壓迫。不管這種壓迫因何而起，從產(chǎn)品的角度出發(fā)來(lái)看，HD7800都是一款更優(yōu)秀的顯卡。我們期待AMD能夠盡快將HD7800的售價(jià)調(diào)整到適宜它的位置，這不僅對(duì)消費(fèi)者更加有利，同時(shí)也可以帶來(lái)更好的芯片出貨量，是一個(gè)雙贏的優(yōu)秀選擇。

返回投影機(jī)頻道首頁(yè)