一個(gè) GPU 總需要一個(gè) CPU,但 CPU 的選擇已經(jīng)不再單一,GPU 的功能也不再“簡單”,曾經(jīng)穩(wěn)固的關(guān)系,不再是單純的合作。
四月份,英偉達(dá)發(fā)布了采用 Arm 架構(gòu)的首款數(shù)據(jù)中心 CPU Grace 引發(fā)廣泛關(guān)注。本月,外媒 Tomshardware 報(bào)道,像 CPU 一樣總需要一個(gè) CPU 的谷歌自研視頻編解碼處理單元 Argos VCU,預(yù)計(jì)可以替換 3000-4000 萬個(gè)英特爾 CPU。
依賴 CPU 的 GPU 和 VCU 為什么會(huì)有替代 CPU 的勢頭?芯片巨頭與互聯(lián)網(wǎng)巨頭間的競合關(guān)系,是如何加深的?
CPU 市場的雙重變化
回答 CPU 與其它依賴 CPU 處理器關(guān)系變化之前,不妨先了解 CPU 市場本身的變化。在很長一段時(shí)間,由于 CPU 的性能已經(jīng)足夠滿足包括 PC 在內(nèi)的各種應(yīng)用需求,再加上內(nèi)存和帶寬成為 CPU 性能提升的瓶頸。CPU 王者英特爾在提升 CPU 性能動(dòng)力不足,以及先進(jìn)制程工藝進(jìn)展不如預(yù)期的情況下,連續(xù)多代 CPU 性能提升幅度不大,被稱作“擠牙膏”。
英特爾在領(lǐng)先位置緩慢前進(jìn)的幾年間,AMD 憑借 Zen 架構(gòu)的迅速迭代以及臺(tái)積電先進(jìn)制造工藝的加持,性能迅速接近甚至超越英特爾酷睿和至強(qiáng) CPU 的性能。“AMD Yes”表達(dá)了消費(fèi)者對于 AMD 產(chǎn)品迅速提升的認(rèn)可。
英特爾和 AMD 的 x86 CPU 是 PC 時(shí)代的標(biāo)志,然而在性能提升陷入瓶頸,以及先進(jìn)半導(dǎo)體制程提升難度越來越大的背景下,兩家最具代表性的 CPU 公司表現(xiàn)相差甚遠(yuǎn),并且開始在市場份額上有所體現(xiàn)。
依舊有領(lǐng)先優(yōu)勢的英特爾感受到了老對手帶來的競爭壓力,因此無論是產(chǎn)品性能提升還是市場策略都更加積極。然而,英特爾在服務(wù)器 CPU 市場除了要面臨同為 x86 陣營 AMD 的競爭,Arm 陣營的公司也來勢洶洶。
Ampere 董事長兼首席執(zhí)行官 Renee James 說:“我們知道未來將與過去不同,因?yàn)檐浖h(huán)境變了,不再是關(guān)于 PC 和 PC 服務(wù)器的業(yè)務(wù),而是圍繞云和云邊緣。現(xiàn)在,需要另一種不同的微處理器。”
Ampere 基于 Arm Neoverse N1 內(nèi)核,推出了 80 核的 Altra CPU 和 128 核 Altra Max CPU,持續(xù)刷新服務(wù)器 CPU 核心數(shù)的紀(jì)錄,突出與 x86 CPU 相比更高的核數(shù)以及在云原生市場的優(yōu)勢。
同樣是強(qiáng)調(diào)差異化優(yōu)勢,英偉達(dá)的 Grace 主要是面向數(shù)據(jù)密集型 HPC 和 AI 應(yīng)用。英偉達(dá)首席執(zhí)行官黃仁勛稱基于 Grace 的系統(tǒng)與英偉達(dá) GPU 緊密結(jié)合,性能將比目前最先進(jìn)的 NVIDIA DGX 系統(tǒng)(在 x86 CPU 上運(yùn)行)高出 10 倍。
無論是 Ampere 還是英偉達(dá),其差異化高性能 CPU 的基礎(chǔ)都是 Arm。而 Arm 也在今年三月推出了面向未來十年的新一代架構(gòu) Armv9,Arm 希望將其架構(gòu)在智能終端的成功擴(kuò)展到高性能計(jì)算市場,包括邊緣、云端及 5G 等。基于 Armv9 架構(gòu)的 Neoverse N2 正是 Arm 向高性能市場拓展的關(guān)鍵產(chǎn)品。
整體看來,已經(jīng)在 PC 和服務(wù)器 CPU 市場大獲成功的 x86 陣營正開始一場激烈的競爭。此時(shí),面向云計(jì)算、AI 的 Arm 架構(gòu) CPU 迅速發(fā)展,要在新興市場分一杯羹。未來,RISC-V CPU 會(huì)以怎樣的方式參與到 CPU 市場的競爭,也讓人充滿期待。
異構(gòu)時(shí)代,定制 CPU 優(yōu)勢突顯
CPU 市場發(fā)生雙重變化的一個(gè)關(guān)鍵因素是市場需求,在市場的驅(qū)動(dòng)下,CPU 的價(jià)值也更多體現(xiàn)在異構(gòu)系統(tǒng)中。英偉達(dá)在今年四月發(fā)布 Grace CPU 的時(shí)候,也同時(shí)將其數(shù)據(jù)中心產(chǎn)品路線圖升級(jí)為 GPU+CPU+DPU 的三類芯片,逐年飛躍,一個(gè)架構(gòu)的策略。在這個(gè)新的策略中,GPU 和 DPU 性能的充分發(fā)揮依舊需要有 CPU 強(qiáng)大的性能,也就是說,CPU 計(jì)算和控制的基礎(chǔ)和核心作用沒有改變。
變的是新興應(yīng)用對于算力的大幅快速增長,異構(gòu)系統(tǒng)的性能是更重要的關(guān)注點(diǎn)。“目前市場上每年交付的 3000 萬臺(tái)數(shù)據(jù)中心服務(wù)器中,有 1/3 用于運(yùn)行軟件定義的數(shù)據(jù)中心堆棧,其負(fù)載的增長速度遠(yuǎn)遠(yuǎn)快于摩爾定律。除非我們找到加速的辦法,否則用于運(yùn)行應(yīng)用的算力將會(huì)越來越少。”黃仁勛說,“新時(shí)代的計(jì)算機(jī)需要新的芯片、新的系統(tǒng)架構(gòu)、新的網(wǎng)絡(luò)、新的軟件和工具。”
這也是英偉達(dá)推出 DPU,并且將 DPU 歸入其數(shù)據(jù)中心產(chǎn)品路線圖的原因。“現(xiàn)代超大規(guī)模云技術(shù)推動(dòng)數(shù)據(jù)中心從基礎(chǔ)上走向了新的架構(gòu),利用一種專門針對數(shù)據(jù)中心基礎(chǔ)架構(gòu)軟件而設(shè)計(jì)的新型處理器,來卸載和加速由虛擬化、網(wǎng)絡(luò)、存儲(chǔ)、安全和其它云原生 AI 服務(wù)產(chǎn)生的巨大計(jì)算負(fù)荷。BlueField DPU 正是為此而生。”黃仁勛此前表示。
CPU 與 GPU、VCU 的關(guān)系愈加“微妙”
異構(gòu)組合才能更好滿足未來市場的需求,這也已經(jīng)是業(yè)界共識(shí),從英特爾擁有 CPU+GPU+FPGA+AI 加速器的完整芯片組合,到英偉達(dá)宣布收購 Arm,再到 AMD 宣布收購賽靈思,芯片巨頭們都希望通過不同類型的芯片組合滿足云計(jì)算、AI 等計(jì)算更加密集應(yīng)用的需求。
在這種變化中,CPU 的選擇也會(huì)更加多樣。Computex 21 上,黃仁勛在回答提問時(shí)表示:“未來的世界非常多樣,當(dāng)然也會(huì)有不同的 CPU,包括 x86 架構(gòu)和 Arm 架構(gòu),大型 CPU 和小型 CPU,面向邊緣、數(shù)據(jù)中心、超算等 CPU,我們的策略是在我們服務(wù)的市場,選擇最合適的 CPU,我們會(huì)繼續(xù)支持 x86 CPU。”
面向特定的市場,并非所有 CPU 都合適。因此在不同的市場需要不同的 CPU,比如在筆記本電腦市場,英特爾的 x86 CPU 是不錯(cuò)的選擇,在 DGX 系統(tǒng)中,AMD 的 CPU 表現(xiàn)非常好。在 5G 基站中,基于 Arm 的 Marvell CPU 是一個(gè)理想選擇。在云計(jì)算市場,Ampere 的 CPU 性能出色。英偉達(dá)的 CPU 為的是解決 AI 推薦系統(tǒng)和自然語言理解這樣大型 AI 模型的計(jì)算挑戰(zhàn)。
“我相信未來既需要通用 CPU,也需要定制 CPU。支持 Arm 和 x86 對我們來說都是很好的戰(zhàn)略。”黃仁勛表示。
CPU 與 GPU、VCU 更加微妙的競合關(guān)系
既有自研的 Arm CPU,也支持 x86 CPU,讓英偉達(dá)與 CPU 巨頭間的競合關(guān)系中競爭的成分更高。在 PC 時(shí)代,芯片巨頭間的競爭,是 CPU 公司或者 GPU 公司之間的競爭,CPU 與 GPU 公司以合作為主旋律。
邁入 AI 時(shí)代,英偉達(dá)憑借其 GPU 硬件加上通用的軟件,成為了 AI 芯片公司的代表,在 AI 市場成為了英特爾強(qiáng)大的競爭對手。面向市場空間巨大的云計(jì)算和 5G 市場,英偉達(dá)的 GPU 依舊離不開英特爾和 AMD 的 CPU,但同時(shí)英偉達(dá)會(huì)更加注重 Arm 架構(gòu) CPU 的開發(fā),芯片巨頭間的競合關(guān)系進(jìn)一步加深。
這種關(guān)系變化更明顯的轉(zhuǎn)變在芯片巨頭與互聯(lián)網(wǎng)巨頭之間。比如文章開頭提到的谷歌 Argos VCU,多年來谷歌都使用英特爾 CPU 中的視頻編解碼引擎,但隨著視頻內(nèi)容越來越多,以及分辨率越來越高,谷歌需要性能更強(qiáng)但是功耗和成本更低的芯片。
定制的專用芯片性能往往會(huì)比通用芯片更強(qiáng),通過自研核心功能加上集成第三方 IP,能在規(guī)模應(yīng)用中實(shí)現(xiàn)優(yōu)勢。谷歌表示,與英特爾 Skylake 驅(qū)動(dòng)的服務(wù)器系統(tǒng)相比,其基于 VCU 的設(shè)備在性能、TCO(總體擁有成本)、計(jì)算效率方面實(shí)現(xiàn)了 7 倍(H.264)和高達(dá) 33 倍(VP9)的提升。
CPU、GPU 和配備 VCU 的系統(tǒng)離線雙通道單輸出 (SOT) 吞吐量
除了 VPU,谷歌也已經(jīng)通過自研的 TPU 減少了購買 CPU 和 GPU。谷歌與芯片巨頭們的關(guān)系,不再單純是緊密的合作伙伴,在特定市場也成為了競爭對手。
對于這種轉(zhuǎn)變,英特爾公司副總裁兼中國區(qū)總經(jīng)理王銳此前表示,“競爭對手可以在某一參數(shù)或者是在制程上縮短與我們的差距。但要打造整個(gè)架構(gòu),在計(jì)算和 AI 的各個(gè)方面都要能夠趕超英特爾,不是那么容易的事情。”
這是芯片巨頭應(yīng)對技術(shù)、市場變化的自信和底氣,當(dāng)然,芯片巨頭們也需要更多地考慮與自研芯片的互聯(lián)網(wǎng)巨頭們的關(guān)系。
不要忽略,無論是芯片巨頭們之間的競爭,還是芯片巨頭與互聯(lián)網(wǎng)巨頭們之間關(guān)系的變化,本質(zhì)上除了市場和應(yīng)用變化的驅(qū)動(dòng),還有成熟的芯片產(chǎn)業(yè)鏈,包括成熟的設(shè)計(jì)工具、IP、代工廠和封裝,很大程度降低了 GPU 公司設(shè)計(jì) CPU,以及互聯(lián)網(wǎng)巨頭設(shè)計(jì)定制芯片的門檻。
芯片行業(yè)的門檻還在進(jìn)一步降低,這還會(huì)帶來怎樣的變化?