作為AMD在經(jīng)歷了5年坎坷摸索之后的作品,以第三代DirectX 11旗艦構(gòu)架登場的Tahiti承載了AMD工程師大量的汗水和期許。初登場時的Tahiti以驚艷構(gòu)架改進,幾乎蕩平了由Evengreen甚至R600所積累的諸多詬病,并博得了應有的掌聲和喝彩,雖然依舊有絕對性能不足等瑕疵,但它依舊讓我們感受到了AMD追求卓越圖形構(gòu)架設計以及探索的決心。
因為Tahiti所展現(xiàn)出來的決心和意志,我們變的寬容起來。我們可以忍受它看上去并不十分強大的絕對性能上限,我們接受了HD7970那令人印象深刻的噪音和并不算小的功耗,我們以為自己獲得或者即將獲得的是一個足夠盡力但還有一段不短的路需要走的GCN系列構(gòu)架。萬事開頭難嘛,糾正一系列長期積累的問題是一個困難而持久的過程,GCN構(gòu)架對過去問題的修正不可能一蹴而就,但它畢竟邁出了堅實的第一步,因此,我們應該給予它充足的時間。
但好景不長,就在Tahiti構(gòu)架出現(xiàn)2個月之后,與之同期開始研發(fā)并同樣源自GCN(Graphic Core Next)體系,擁有近似邏輯結(jié)構(gòu)和不同資源搭配比例的Pitcairn出現(xiàn)在了人們的視野中。在與這個同族小兄弟的對比中,Tahiti的圖形性能及其規(guī)模性能延伸率表現(xiàn)似乎并不盡如人意,Tahiti構(gòu)架的次級旗艦HD7950在大多數(shù)場合都無法與基于Pitcairn的HD7870拉開與規(guī)模相符的差距,無論單元效率還是每瓦特效率,HD7800都表現(xiàn)的十分強大,甚至直接對HD7950這樣一個更高級別的存在造成了明顯的沖擊。Tahiti諸多改進帶來的閃光,正在隨著Pitcairn的到來而逐漸變得暗淡。
Pitcairn的實際表現(xiàn)更是在想我們確鑿無疑的說明這一個可怕的事實——GCN構(gòu)架的性能和效率,明顯不應該被延伸到Tahiti這樣一個較低的程度。事實上GCN構(gòu)架本身就存在相當優(yōu)秀的邏輯結(jié)構(gòu)設計,而這種邏輯結(jié)構(gòu)設計卻并沒有在Tahiti身上得到體現(xiàn)。換句話說,Tahiti本身在改進諸多過去錯誤的同時,本身又帶來了新的問題,而Pitcairn的表現(xiàn)則告訴我們這些問題本來是可以避免的……
難道這就是AMD工程師要表達給我們的“靈魂的力量”么?不僅我,相信屏幕前的諸位同樣不會相信也無法接受這一點。那么,究竟Tahiti與Pitcairn在深層構(gòu)架性能層面有著怎樣的異同?Tahiti遺失了哪些Pitcairn乃至整個GCN構(gòu)架應該具備的特質(zhì)呢?在今天的GPU煉金實驗室中,我們將會以直接面向底層的測試方式以及分析,來為你還原真正的HD7900以及HD7800,并為你解答心中的困惑。
● 與設計師的靈魂的再次對話
我們曾經(jīng)提到過,每一款GPU芯片都是辛勤汗水的結(jié)晶,它們凝聚著設計者靈魂的力量。透過GPU芯片的特性以及表現(xiàn)的全面了解,我們可以從不同角度體會到設計師在設計芯片時的想法以及希望表達的意圖。
要想掌握Tahiti以及Pitcairn在邏輯結(jié)構(gòu)上的差異所帶來的影響,我們必須避開圖形過程其他步驟所帶來的各種干擾,收集到“純凈”的Tahiti以及Pitcairn構(gòu)架的底層性能,只有這樣才能直達AMD工程師的內(nèi)心深處。
圖形處理的本質(zhì)其實就是GPU各單元對各種數(shù)學過程進行執(zhí)行的集合,常規(guī)的圖形化測試方法之所以無法避開各種干擾,是因為它們大多拘泥于“圖形化”的形式當中,無論測試過程還是結(jié)果都包含在了一個完整的圖形化處理和輸出過程中。比如說要測試材質(zhì)填充率,我們必須經(jīng)歷完整的幾何處理、光柵化、像素處理、材質(zhì)填充以及輸出過程,這讓常規(guī)圖形測試的幾何關聯(lián)達到了對結(jié)果來說無法忽略的地步。所以,只要繞開這層幾何關聯(lián),直接測試構(gòu)架底層單元執(zhí)行對應數(shù)學過程的能力,就可以避開其他單元以及圖形化本身對測試的干擾了。
GPCBenchmark是一款基于Open CL的GPU通用性能測試軟件,它不僅使用最為通用的函數(shù)庫及API接口進行編寫,并未對任何構(gòu)架進行針對性的優(yōu)化,所有測試更基于從圖形過程以及通用計算過程中抽離出來的數(shù)學過程,能夠進行我們所期望獲得的,能夠繞開幾何關聯(lián)和圖形化過程的特定底層硬件純執(zhí)行能力測試。通過該款軟件,我們不僅可以直接讀取許多底層構(gòu)架信息,更能獲得構(gòu)架最真實的特性。
有了合適的測試手段,我們便可以通過“純凈”的構(gòu)架底層性能來面對和對比構(gòu)架內(nèi)部甚至不同構(gòu)架之間的諸多有用信息,比如吞吐能力、shader應對能力或者材質(zhì)處理能力等等,并由此定性的推定出構(gòu)架的單元復用率以及效率狀況,進而對性能表現(xiàn)進行更深層次的解讀。
我們曾經(jīng)多次提到過,DirectX 11時代對于構(gòu)架效率的對比,實際上就是對構(gòu)架單元復用率的對比,因此今天我們關于Tahiti以及Pitcairn構(gòu)架效率的測試,同樣也要圍繞著與復用率相關的測試步驟,包括矩陣乘法、矩陣轉(zhuǎn)置、并行規(guī)約、亮度直方圖局域存儲器原子操作以及二維卷積。最終,我們同樣也會通過戰(zhàn)地3游戲來完成我們對構(gòu)架數(shù)學應對能力,也就是背后的單元復用率測試的檢驗。
● 測試平臺及測試項目簡介
性能測試使用的硬件平臺由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600內(nèi)存構(gòu)成。細節(jié)及軟件 環(huán)境設定見下表:
測 試 平 臺 硬 件 | |
|
中央處理器 |
Intel Core i7-3960X | |
(6核 / 12線程 / 100MHz*33 / 15MB L3 Cache ) | |
|
散熱器 |
Intel RTS2011LC | |
(原廠水冷散熱器 / 選配件 ) | |
|
內(nèi)存模組 |
Samsung 黑武士 DDR3-1600 4GB | |
(SPD:9-9-9-24-1T) | |
|
主板 |
ASUS Rampage IV Extreme | |
(Intel X79 Chipset) | |
|
硬盤 |
Hitachi 1T | |
(1TB / 7200RPM / 16M 50GB NTFS | |
|
電源供應器 |
NERMAX 白金冰核 1500W | |
(CSCI Platinum 80Plus / 1500W) | |
|
顯示器 |
DELL UltraSharp 3008WFP | |
(30英寸LCD / 2560*1600分辨率) |
為保證系統(tǒng)平臺具有最佳的穩(wěn)定性,此次硬件評測中所使用的操作系統(tǒng)均為Microsoft Windows 7 正版授權(quán)產(chǎn)品。使用Windows 7正版軟件能夠獲得最好的兼容性以及系統(tǒng)升級更新服務。
用戶在體驗或購買安裝Windows 7的操作系統(tǒng)時請認準所裝系統(tǒng)是否已經(jīng)獲得正版授權(quán)許可!未經(jīng)授權(quán)的非正版軟件將無法獲得包括更新等功能在內(nèi)的Windows 7服務。
操 作 系 統(tǒng) 及 驅(qū) 動 | |
| |
操作系統(tǒng) | |
Microsoft Windows 7 Ultimate RTM SP1 | |
(64bit / 版本號7601) | |
|
主板芯片組驅(qū)動 |
Intel Chipset Device Software for Win7 | |
(WHQL / 版本號 9.2.3.1022) | |
| |
AMD 顯卡驅(qū)動 | |
AMD Catalsyt | |
(Beta / 版本號 8.95.5 RC) | |
|
|
2560*1600_32bit 60Hz |
我們采用GPCBenchmark 1.1以及戰(zhàn)地3進行本次測試的數(shù)據(jù)收集,各項數(shù)值越高越好。為保證測試組別具有盡可能相同的外部存儲環(huán)境,我們決定將HD7950的顯存頻率調(diào)至與HD7970相同的5500MHz,HD7870與HD7850則運行在相同的默認公版顯存頻率上。在該環(huán)境下,HD7970/HD7950以及HD7870/HD7850將擁有完全相同的各自組別帶寬,之間的差異將只局限于CU單元的規(guī)模。
● shader靈活度測試:矩陣乘法
矩陣乘法是線性代數(shù)的基本構(gòu)成之一,它是各種通用計算以及shader處理過程中非常常見的數(shù)學操作方式,矩陣乘法的過程可以將許多非常復雜的模型轉(zhuǎn)換成相對簡單的表現(xiàn)形式,因此被廣泛應用在了光柵化(坐標變換)、光照(亮度直方操作)、陰影邊緣平滑(針對像素塊的切比雪夫不等式群)等幾乎所有圖形處理過程中。可以說只要進行圖形處理過程,GPU就必定會進行大量的矩陣乘法操作。
矩陣乘法可以被解離成大量的存在一階或者多階弱關聯(lián)度的行列式運算,并行化的處理這些行列式,同時為操作過程提供合理的緩沖空間來釋放臨時結(jié)果勢必會極大地加快矩陣乘法操作的效率,進而加快整個圖形過程的進度。因此,對于矩陣乘法效率的測試,不僅可以讓我們獲得構(gòu)架并行度以及緩沖資源情況的信息,更能在趨勢上反映GPU執(zhí)行shader尤其是靈活shader的執(zhí)行效率。所以,無論是之前已經(jīng)進行過的HD7970/7950效能測試還是本次的GCN體系對比測試,我們都將矩陣乘法測試作為構(gòu)架延展測試的第一個項目,通過它將Tahiti以及Pitcairn構(gòu)架的ALU團簇部分剝離出來進行專門的性能測試。
矩陣乘法需要構(gòu)架擁有良好的線程仲裁分配機制以及充足的緩沖體系,而這正是Tahiti構(gòu)架與Pitcairn,甚至是Tahiti構(gòu)架內(nèi)部最核心的差異。Tahiti與Pitcairn同樣擁有2組并行的ACE引擎,同樣的2組ACE引擎在HD7970上需要應對32組CU共計2048個Vector ALU的需求,HD7950的運算單元規(guī)模比HD7970縮減了12.5%,所以同樣的2組ACE引擎在一級線程隊列仲裁及管理壓力方面也要低于HD7970。HD7870及HD7850的ACE引擎與HD7900并無區(qū)別,但同樣的2組ACE引擎在Pitcairn中只需要管理20/16組CU,合計1280/1024個Vector ALU。不難看出,HD7800的CU可以輕松的獲得比HD7900更加充盈的線程塊供給,這對于提升單元復用率有著極大的貢獻。
測試結(jié)果支撐了我們的分析,盡管Pitcairn的運算規(guī)模只有Tahiti的62.5%,但HD7800卻取得了超越HD7900的矩陣乘法性能,同時并完全沒有表現(xiàn)出HD7900資源匱乏從而重度依賴驅(qū)動優(yōu)化所導致的矩陣操作性能起伏問題。而在Tahiti構(gòu)架內(nèi)部,HD7950亦表現(xiàn)出了優(yōu)于HD7970的性能增長趨勢。
● shader靈活度測試:矩陣轉(zhuǎn)置
矩陣轉(zhuǎn)置同矩陣乘法一樣,也廣泛分布在包括坐標變換等過程在內(nèi)的大量圖形處理過程中。矩陣轉(zhuǎn)置可以被理解成矩陣沿特定方向“翻轉(zhuǎn)”之后產(chǎn)生的鏡像,這導致了矩陣轉(zhuǎn)置操作會涉及到大量數(shù)據(jù),比如稀疏矩陣的對角線數(shù)據(jù)等的臨時存儲,因此矩陣轉(zhuǎn)置操作對于體系的緩沖密度是相當敏感的。
同矩陣乘法一樣,伴隨著頻率的不斷提升,HD7950的矩陣轉(zhuǎn)置性能提升速度較之HD7970要高出許多,兩者之間的性能差異在迅速的收窄甚至趨同。由于矩陣轉(zhuǎn)置的操作過程較之矩陣乘法更加“規(guī)整”,能夠產(chǎn)生瞬間高延遲的因素較少,因此矩陣轉(zhuǎn)置測試所得的趨勢也更加明顯和直觀。
由于矩陣轉(zhuǎn)置對緩沖體系的敏感,緩沖密度相同但總量更少的Pitcairn在這項測試中遇到了不小的問題,不足以應對測試需求的緩沖體系導致了大量的訪存過程,這直接拖累HD7800的矩陣轉(zhuǎn)置性能。這個過程在Tahiti中同樣存在,但擁有巨大顯存帶寬的HD7900系列成功的以更好的顯存性能應對了緩沖溢出的問題。sweet spot級的HD7800并不具備旗艦級的384bit顯存位寬,因此只能接受150G顯存帶寬帶來的測試結(jié)果。
● shader吞吐能力測試:并行歸約
為了全面的反應Tahiti構(gòu)架的特性,同時證明矩陣乘法以及矩陣轉(zhuǎn)置測試的結(jié)果與伴隨頻率抬升帶來的吞吐增加并無直接關系,我們進一步收集了HD7950與HD7970在不同頻率下的并行歸約執(zhí)行能力的數(shù)據(jù)。
通俗的說,歸約是一個以已知問題解法來直接處理未知問題的黑箱化數(shù)學方法。比如說我們不知道2的4次方應該怎樣計算,但我們知道2X2以及4X4如何計算,那我們就可以把應用中所有的2的4次方操作轉(zhuǎn)變成2X2或者4X4來進行處理。歸約操作的本質(zhì),就是在已知問題和未知問題之間建立指向和聯(lián)系,將特定問題轉(zhuǎn)化成已知問題來進行處理,而并行歸約操作則將這一過程并行化已達到加快處理速度的目的。
并行歸約操作考驗的是構(gòu)架的并行吞吐能力,只要線程資源充足,體系應該可以以最大化的方式來完成吞吐過程。從測試結(jié)果來看,Tahiti與Pitcairn構(gòu)架在這項測試中取得了相同的趨勢,彼此之間也基本上保持了與規(guī)模相符的成績差異。
● CS等效性能測試:亮度直方圖
Compute Shader對于DirectX 11的重要性不言而喻,它擁有很多實用的應用方式,快速繪制場景的亮度直方圖就是其中之一。無論DirectX還是Open CL,以通用計算方式來完成亮度直方圖繪制都需要體系擁有非常優(yōu)秀的ALU綜合性能。這其中不僅有吞吐能力,更有單元復用率所帶來的動作效率。因此,我們決定繼續(xù)收集GPCBenchmark測試的亮度直方圖性能,借以了解緩沖密度以及單元復用率的差異對HD7950以及HD7970的圖形通用計算性能的影響。
原子操作能夠讓線程塊凝固并不可再分,因此對吞吐和快速執(zhí)行能夠起到很好的“保護”作用,而緩沖密度又決定了體系在局域存儲器內(nèi)完成原子操作的效率,因此亮度直方圖的局域存儲器原子操作能夠反映體系在吞吐和單元復用率兩方面因素共同作用下的實際執(zhí)行能力,進而檢驗體系是否具備良好的靈活shader以及Compute Shader的執(zhí)行能力。
在亮度直方圖的局域存儲器原子操作測試中,Tahiti與Pitcairn構(gòu)架,尤其是HD7950與HD7870的成績再次“糾纏”在了一起,雙方直到900MHz以上的核心頻率才算真正的分出了勝負,雖然HD7950憑借更好的緩沖密度和緩沖總量,不僅在高頻下甩開了一直緊緊咬住自己的HD7870,甚至最終還戰(zhàn)勝了最高級的旗艦HD7970,但聯(lián)系到其比HD7800大得多的規(guī)模,我們實在不能稱之為一場精彩的勝利。
● Texture性能測試:二維卷積
由于Tahiti和Pitcairn擁有相同的幾何端、光柵化單元和輸出端,CU單元的圍觀邏輯結(jié)構(gòu)也完全相同,因此CU的總規(guī)模就成了兩者最主要的區(qū)別。我們已經(jīng)通過測試了解了Tahiti構(gòu)架CU中ALU團簇部分因線程和緩沖等效密度密度不同而產(chǎn)生的性能差異。接下來我們將要展開的測試,將圍繞著CU中的另一個重要組成部分——Texture Array展開。
我們在之前的文章中提到過,在傳統(tǒng)手段中想要單純測試體系的TMU性能是相當困難的事情。幸運的是,TMU對材質(zhì)的諸多操作過程,包括抽離材質(zhì)的顏色信息,將之轉(zhuǎn)化成灰度數(shù)據(jù),再將其與頂點數(shù)值進行對照并輔以相關的操作等等,本質(zhì)上就是對像素數(shù)據(jù)數(shù)組的一系列操作。因此GPCBenchmark對于二維卷積性能的測試,可以讓我們將TMU性能轉(zhuǎn)化成單純的TMU動作能力以及與相關緩沖互動能力的測試。
卷積過程的應用領域極為廣泛,其在統(tǒng)計學、概率論、聲學研究、以及電子信號處理領域都有廣泛的涉及,任何一個存在于世界上受物理學支配的線性系統(tǒng)均包含卷積過程。用TMU單元對卷積過程進行運算,可以考驗TMU處理數(shù)據(jù)類型完全相同的材質(zhì)過程時的性能,同時還能避開來自幾何、光柵化以及輸出過程的諸多干擾。
由于Tahiti構(gòu)架的Texture cache資源相當豐富,再加上Texture Array的動作方式遠比ALU面對shader時要來的規(guī)整和平滑,所以HD7900的二維卷積性能相當出色。作為sweet spot登場,Texture Array只有Tahiti一半的Pitcairn雖然因為總量不足而落敗,但卻憑借更加充盈的線程分配資源獲得了更為“平滑”的性能延伸曲線。
● 單元復用率表象:戰(zhàn)地3游戲測試
我們對于構(gòu)架的底層延展測試,其本質(zhì)目的其實還是要向大家展現(xiàn)一款GPU對圖形過程的執(zhí)行能力。圖形能力是建立在一系列底層單元性能的基礎之上的,因此對于底層構(gòu)架的測試,將有助于我們理解現(xiàn)有的圖形測試的結(jié)果,并對該款構(gòu)架即將到來的產(chǎn)品進行一定的預測。
我們選擇DirectX 11游戲戰(zhàn)地3作為圖形表現(xiàn)的測試對象。基于寒霜2引擎的戰(zhàn)地3擁有大量先進的DirectX 11特效,它并沒有采用傳統(tǒng)游戲以及跨平臺游戲以高精度材質(zhì)來提升畫質(zhì)的方法,而是利用靈活復雜的各種shader,尤其是Compute Shader來快速表達更加真實的光照效果以及環(huán)境,借以達到直接提升環(huán)境真實度的目的。
戰(zhàn)地3的測試結(jié)果向我們說明了許多問題。以HD7950和HD7870為例,前者的運算資源和材質(zhì)資源比后者大40%,同時擁有大出數(shù)十G的顯存帶寬和更好的緩沖總量,但其低落的線程密度和并不足夠的緩沖密度都極大地限制了它的單元復用率,進而制約了其性能的延伸能力。從測試可以看出,只有當頻率提升到一定地步之后,Tahiti構(gòu)架才會透過頻率換來的線程密度和緩沖帶寬的增長獲得更好的單元復用率,進而取得更好的圖形性能延伸性。
● Tahiti,Wicked Game
與之前我們所進行的HD7970/7950底層構(gòu)架眼神測試相比,本篇測試無論從測試內(nèi)容還是結(jié)果的解讀方面來講都是有過之而無不及的。我們花費大力氣進行測試和數(shù)據(jù)收集,并將測試結(jié)果抽離出來加以解讀,其目的無非是想讓大家了解什么才是真正的Tahiti構(gòu)架。我們在開篇就已經(jīng)說過,只有剝離測試中的其他干擾要素,直達構(gòu)架底層某個部件的真實性能,我們才能真正了解和理解一款圖形構(gòu)架,F(xiàn)在,我們收集到了足夠的數(shù)據(jù),但究竟應該怎樣看待這些數(shù)據(jù)呢?
底層的性能測試,其最終目的還是在于反應并解釋實際產(chǎn)品的種種表現(xiàn)。因此通過對默認核心頻率下HD7950與HD7870的各項測試數(shù)據(jù)進行收集,我們成功的獲得了產(chǎn)品級的底層構(gòu)架性能對比情況。從對比狀況來看,HD7950以及背后的Tahiti構(gòu)架被HD7870以及Pitcairn所壓迫不僅不冤,而且情況相當不容樂觀。
在于單元復用率/shader靈活度相關的3項測試,包括矩陣乘法、矩陣轉(zhuǎn)置以及亮度直方圖的局域存儲器原子操作測試中,HD7950除了以我們?yōu)閷Ρ菻D7970而調(diào)節(jié)的264G顯存帶寬所換來的訪存優(yōu)勢完成了矩陣轉(zhuǎn)置的超越之外,另外兩項測試均敗給了默認頻率的HD7870,尤其是對應Compute Shader性能的亮度直方圖測試結(jié)果相當值得關注。而可以等效規(guī)整Shader吞吐能力的并行規(guī)約測試中,默認核心頻率的HD7950依舊敗給了HD7870?梢哉f與shader相關的所有測試,HD7950基本上都輸給了比他小3成的HD7870。
以產(chǎn)品而言,在這樣的底層測試結(jié)果下竟然還能取得10%的游戲性能領先,我們除了感慨巨大的材質(zhì)差異消弭了shader部分的領先之外,就只有替Tahiti構(gòu)架捏上一把汗了。
● Tahiti is a Wicked Game
Pitcairn向我們展現(xiàn)了一個幾乎完美的GCN體系構(gòu)架,同時也將Tahiti的問題一并擺在了我們的面前。相比于Tahiti,同樣基于GCN體系且擁有雙ACE的Pitcairn擁有高出許多的等效線程密度,單元復用率以及由此帶來的相當不錯的shader性能。它以小得多的規(guī)模和功耗,實現(xiàn)了遠遠超過Tahiti的性能密度和延展性。如果不是總規(guī)模限制帶來的材質(zhì)資源不足,HD7800的絕對性能甚至應該可以完全追上甚至超越HD7970,因此能夠擁有現(xiàn)在這樣向上壓迫HD7950的表現(xiàn),自然也就不足為奇了。
那么,我們的問題就來了——既然Pitcairn無論運算還是圖形效率都明顯要好于Tahiti,AMD為什么不以Pitcairn為基礎維持比例對其進行放大,而是弄出了Tahiti這樣一個存在效率問題,無論等效線程密度還是等效緩沖密度都不出眾的旗艦級構(gòu)架呢?今天這樣的測試結(jié)果我們可以收集到,AMD性能實驗室同樣也可以收集到而且應該做的更好,我們甚至敢斷言它們在構(gòu)架凝固之前的模擬階段就應該已經(jīng)獲得了與我們測試類似的結(jié)果,但它們卻為何沒有對Tahiti構(gòu)架提出任何有效的預警或者干預呢?
對HPC市場的渴望,D線,勝利工程,這三者以及更多其它問題的共同作用,導致了今天我們所見到的Tahiti的狀態(tài)。
基于GPGPU應用的HPC市場一直是AMD可望而不可及的,無論R600、R700、Evengreen還是Cayman,它們身上都有太多不適合HPC應用的構(gòu)架級問題。因此在Tahiti研制之初,AMD便致力于修補來自通用計算性能和效率層面的諸多既往設計缺陷。但這種認知依舊沒有脫離AMD對原教旨GPGPU理解的失當。AMD對HPC市場較為敏感的雙精度參數(shù)的盲從,將Tahiti拖入了晶體管消耗的漩渦之中。在D線的壓力下,AMD手上能夠支配的芯片面積以及晶體管數(shù)量并不富裕,這部分晶體管還要被拿來滿足更傾向于宣傳的DP吞吐數(shù)據(jù),這直接導致了Tahiti構(gòu)架沒有了可以用來擴充緩沖資源以及ACE等線程密度和并行度相關的資本,進而造就了如今HD7900尤其是HD7970那無法令人滿意的單元復用率和絕對性能。
具體來說,如果維持雙ACE以及目前的緩沖密度不變,Tahiti完全可以以1536個Vector ALU的規(guī)模來換取更好的線程和緩沖密度,但這并不利于平衡吞吐尤其是DP吞吐與頻率/良率之間的關系,D線的橫亙又讓AMD失去了在維持2048 Vector ALU以及1/4 DP性能目標的前提下實現(xiàn)四ACE并行以及使用更大容量緩沖的可能。所以,Tahiti只得在構(gòu)架上選擇優(yōu)先達成吞吐目標,進而也就只得接受較低的線程密度以及并不令人滿意的單元復用率了。
在此基礎上,AMD性能實驗室并未對其所面對的各種搭配失當?shù)膯栴}作出必要的預警和干預,由于羅瑞德主推的勝利工程,包括Godfrey Cheng(All In Wonder顯卡之父,AMD性能實驗室主管)在內(nèi)的諸多高管以及員工的離職影響了AMD性能實驗室的運作,這使得了AMD的構(gòu)架決策團隊失去了重要的參考依據(jù)。于是,我們所見到的Tahiti也就成了今天的樣子,充滿了改進以及對未來的美好憧憬,但卻帶來了更多全新的麻煩和錯誤……
Wicked Game可以被翻譯成帶有“曖昧”意味的危險游戲,用這個詞來形容Tahiti以及目前正在熱切宣傳本質(zhì)上其實并不出眾通用計算能力的AMD,應該是比較恰當?shù)。Tahiti的圖形性能以及運算性能都沒有想象中那樣優(yōu)秀,無論對于HPC市場還是民用顯示市場來說,其并不算高的單元復用率以及效率都讓AMD目前的宣傳和運作有了成為雙刃劍的可能。
對于底層構(gòu)架乃至公司運作過程的剖析看似與常規(guī)用戶非常遙遠,但正是這種剖析為我們提供了更多尋找優(yōu)秀的或者更加適合我們的顯卡產(chǎn)品的依據(jù)。以目前的情況來看,HD7800顯然對大多數(shù)人來說都是更值得選擇的產(chǎn)品。Pitcairn提供的優(yōu)秀基礎令其擁有了GCN體系中最佳的性能密度和效率,它的性價比、性能規(guī)模比以及性能功耗比均遠高于HD7900系列,其默認絕對性能更是可以對HD7950造成極大的壓迫。不管這種壓迫因何而起,從產(chǎn)品的角度出發(fā)來看,HD7800都是一款更優(yōu)秀的顯卡。我們期待AMD能夠盡快將HD7800的售價調(diào)整到適宜它的位置,這不僅對消費者更加有利,同時也可以帶來更好的芯片出貨量,是一個雙贏的優(yōu)秀選擇。