OpenAI 轉(zhuǎn)向谷歌 TPU，解耦英偉達(dá)開啟 AI 專用算力芯片時(shí)代

ainet.cn 2025年07月01日

北京時(shí)間 2025 年 6 月 28 日，路透社報(bào)道，OpenAI 已開始租用谷歌的 TPU 為其 ChatGPT 及其他 AI 產(chǎn)品提供算力支持。此舉標(biāo)志著作為英偉達(dá) GPU 長期以來的最大采購商之一的 OpenAI，也開始在其 AI 大模型運(yùn)算中實(shí)質(zhì)性地大規(guī)模使用非英偉達(dá) GPU 算力。

早在去年 6 月，OpenAI 就傳出正在積極從谷歌 TPU 團(tuán)隊(duì)招募頂尖研發(fā)人才，自研 AI 專用芯片。而除 OpenAI 外，蘋果、Anthropic、Safe Superintelligence、Cohere 等公司也一直租用谷歌云的 TPU 用于 AI 大模型訓(xùn)練及推理。北美 AI 巨頭公司們的戰(zhàn)略轉(zhuǎn)向凸顯了 AI 行業(yè)更廣泛的變革趨勢(shì)：領(lǐng)先的大模型開發(fā)商都在積極探索英偉達(dá) GPU 之外的替代方案，尋求基礎(chǔ)設(shè)施多元化，擁抱以 TPU 為代表的 AI 專用芯片的新架構(gòu)方向。

OpenAI 轉(zhuǎn)向谷歌 TPU 的三重動(dòng)因

OpenAI 是當(dāng)下 AI 大模型浪潮的引爆者和代表者。長期以來，OpenAI 使用英偉達(dá) GPU 進(jìn)行 ChatGPT 模型訓(xùn)練(即通過大規(guī)模數(shù)據(jù)集和復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)，訓(xùn)練出一個(gè)具備強(qiáng)大學(xué)習(xí)和推理能力的深度神經(jīng)網(wǎng)絡(luò)模型)和推理工作負(fù)載(即讓已訓(xùn)練好的模型可以依據(jù)用戶需求實(shí)時(shí)生成預(yù)測)，OpenAI 既是英偉達(dá) GPU 最早被用于 AI 計(jì)算場景的天使客戶之一，也是英偉達(dá)GPU的長期最大采購商之一。

OpenAI 曾長期使用英偉達(dá) GPU 進(jìn)行 ChatGPT 模型訓(xùn)練

然而，隨著大模型計(jì)算需求和復(fù)雜度的指數(shù)級(jí)增長，傳統(tǒng) GPU 架構(gòu)芯片在用于大模型訓(xùn)練時(shí)的成本高、算力利用率低、能耗大的局限日益凸顯。不斷上漲的 GPU 計(jì)算成本和供應(yīng)限制，促使 OpenAI 探索替代性 AI 芯片方案。通過接入谷歌云(Google Cloud)對(duì)外開放的TPU資源(早年僅供谷歌內(nèi)部使用)，OpenAI 得以利用專為張量計(jì)算優(yōu)化的專用芯片，有望降低單次模型計(jì)算成本，并獲得獨(dú)特的性能表現(xiàn)。

OpenAI 的這一決策源于三方面因素的共同作用：

成本效益： TPU 專為深度學(xué)習(xí)的核心——大規(guī)模矩陣與張量運(yùn)算而打造。相較于通用 GPU，其單位功耗吞吐量高，片上內(nèi)存層級(jí)設(shè)計(jì)激進(jìn)，通常能為訓(xùn)練和推理實(shí)現(xiàn)更低的總體成本。

供應(yīng)鏈韌性： 算力供應(yīng)商多元化可降低風(fēng)險(xiǎn)，避免因英偉達(dá)面臨生產(chǎn)壓力、分配延遲、其他行業(yè)需求激增而導(dǎo)致的瓶頸，確保其研究實(shí)驗(yàn)和大規(guī)模部署所需算力可以不間斷。

軟件生態(tài)集成：谷歌TPU成熟的全棧軟件生態(tài)——包括與XLA編譯器緊密耦合的TensorFlow框架、TPU專用運(yùn)行時(shí)、性能分析工具以及谷歌云上的托管服務(wù)，可以極大簡化大型 AI 應(yīng)用的模型開發(fā)、調(diào)優(yōu)與部署流程，顯著降低工程負(fù)擔(dān)，縮短產(chǎn)品上線周期。

TPU 芯片：為 AI/ML 而生的架構(gòu)

GPU 最初設(shè)計(jì)用于圖形處理，尤其是實(shí)時(shí)渲染和圖像處理，因此對(duì)其中體面結(jié)構(gòu)的矩陣和向量運(yùn)算做了專門優(yōu)化，后來逐漸發(fā)展成為通用計(jì)算設(shè)備(GPGPU)。GPU 具有大量結(jié)構(gòu)較為簡單的并行處理單元，適合處理高度并行的任務(wù)，如圖形渲染和科學(xué)計(jì)算，因此被廣泛應(yīng)用于計(jì)算機(jī)圖形學(xué)、游戲開發(fā)、視頻編碼/解碼、深度學(xué)習(xí)訓(xùn)練和推理。

TPU 是谷歌專為加速機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計(jì)的專用芯片，特別是針對(duì)深度學(xué)習(xí)模型的訓(xùn)練和推理。TPU 針對(duì)張量運(yùn)算進(jìn)行了高度優(yōu)化，單個(gè)的脈動(dòng)陣列架構(gòu)吞吐量和處理效率相較 GPU 有了更大提升，特別適合于處理矩陣乘法等常見于神經(jīng)網(wǎng)絡(luò)的操作，主要用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的訓(xùn)練和推理，特別是使用 TensorFlow 框架的任務(wù)。

不同維度的計(jì)算單元

相較于傳統(tǒng) GPU 架構(gòu)，TPU 設(shè)計(jì)具有多項(xiàng)優(yōu)勢(shì)：

緊密集成的內(nèi)存與計(jì)算單元：每個(gè) TPU 核心集成了大容量、高帶寬的片上內(nèi)存，并與矩陣乘法單元緊密耦合，顯著降低了數(shù)據(jù)移動(dòng)延遲和功耗。

高效推理：這種緊密集成使得 TPU 能在更低能耗下實(shí)現(xiàn)持續(xù)的高吞吐量推理，這對(duì)于日處理數(shù)百萬請(qǐng)求的推理工作負(fù)載至關(guān)重要。

優(yōu)化的集群互聯(lián)：TPU 集群配備了精簡高效的互聯(lián)結(jié)構(gòu)，專為分布式模型訓(xùn)練固有的集體通信模式優(yōu)化，相較于傳統(tǒng)的 GPU 加速集群，可帶來更優(yōu)的擴(kuò)展性和資源利用效率。

AI 算力硬件競爭的關(guān)鍵轉(zhuǎn)折

OpenAI 采用谷歌 TPU，打破了英偉達(dá) GPU 在 AI 算力基礎(chǔ)設(shè)施領(lǐng)域霸主地位不可撼動(dòng)的觀念。長期占據(jù)主導(dǎo)地位的英偉達(dá)，如今面臨著來自作為主要終端用戶的 AI 大模型提供商們尋求算力利用率、成本控制與供應(yīng)靈活性替代方案的真實(shí)壓力。谷歌云則贏得了 OpenAI 這一標(biāo)桿客戶，進(jìn)一步印證了其觀點(diǎn)：在特定 AI 工作負(fù)載上，TPU 性能可媲美甚至超越 GPU。

與此同時(shí)，OpenAI 的這一舉措是 AI 硬件行業(yè)多元化浪潮的一部分，已有越來越多的世界頂尖科技公司在積極研發(fā)自己的 TPU 或類 TPU 架構(gòu)的 AI 專用芯片，并已得到了眾多領(lǐng)先 AI 大模型企業(yè)的廣泛采用：

早在 2019 年，英特爾就收購了來自以色列的 AI 芯片制造商 Habana Labs，并在2024年 4 月推出了專攻深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)推理的類 TPU 芯片 Gaudi 3;預(yù)計(jì)2025 年初，IBM Cloud 將率先部署英特爾 Gaudi 3 AI 加速器;

2023 年 7 月的 xAI 會(huì)議上，特斯拉以及 X(即 Twitter)的 CEO 馬斯克公開宣布了特斯拉正在自研芯片且一定不會(huì)將其稱為 GPU，暗示著特斯拉可能正在開發(fā)一種與傳統(tǒng) GPU 不同的芯片架構(gòu)，以滿足特斯拉的需求;

2023 年 11 月，微軟在其全球技術(shù)大會(huì) Ignite 上宣布推出專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片 Maia 100，預(yù)計(jì) 2026 年正式發(fā)布;

2023 年 11 月底，AWS 在其“AWS re:Invent 2023”大會(huì)發(fā)布了為生成式 AI 和機(jī)器學(xué)習(xí)訓(xùn)練設(shè)計(jì)的云端 AI 算力芯片 Trainium 2;2024 年底，AWS 與 Anthropic 官宣共同打造名為 Project Rainier 的 EC2 UltraCluster，將使用數(shù)十萬片 Trainium2 芯片;

2024 年 7 月 30 日，蘋果公司發(fā)布了研究論文表示，Apple使用了谷歌的 2048 片 TPUv5p 芯片及 8192 片 TPUv4 芯片——而非英偉達(dá)的 GPU 芯片，來訓(xùn)練其人工智能系統(tǒng)“蘋果智能”(Apple Intelligence)中的 AI 模型 Apple Foundation Model;

······

Amazon EC2 Trn2 — AWS Trainium2芯片驅(qū)動(dòng)的計(jì)算集群

北美人工智能和半導(dǎo)體圈正在發(fā)生的 AI 算力硬件的轉(zhuǎn)向，AI 芯片市場也進(jìn)入了更具競爭性的新階段。

國內(nèi)唯一全自研、已量產(chǎn) TPU 芯片的公司

核心創(chuàng)始團(tuán)隊(duì)組建于 2018 年，作為國內(nèi)唯一一家掌握 TPU 架構(gòu)AI 專用芯片核心技術(shù)并實(shí)現(xiàn)全自研 TPU 芯片量產(chǎn)的公司，中昊芯英的創(chuàng)始人及 CEO 楊龔軼凡曾作為谷歌 TPU 芯片核心研發(fā)者，深度參與過 TPU v2/3/4 的設(shè)計(jì)與研發(fā)工作。如今我們很欣慰地看到繼 Apple 之后，OpenAI 對(duì) TPU 的選擇，再一次成為了對(duì)TPU技術(shù)路線的有力驗(yàn)證。

TPU 為 AI 大模型而生的天然優(yōu)勢(shì)架構(gòu)，使其在面向 AI 計(jì)算場景時(shí)，在同等生產(chǎn)制程下相較于 GPU 可以擁有 3-5 倍的性能提升。以中昊芯英歷時(shí)近五年全自研的國內(nèi)首枚已量產(chǎn) TPU AI 芯片「剎那®」為例，「剎那®」在處理大規(guī)模 AI 模型運(yùn)算時(shí)與英偉達(dá)當(dāng)代的先進(jìn)芯片相比，計(jì)算性能可以超越其近 1.5 倍，在完成相同訓(xùn)練任務(wù)量時(shí)的能耗降低 30%，將價(jià)格、算力和能耗綜合測算，「剎那®」的單位算力成本僅為其 42%。

中昊芯英自研的中國首枚高性能 TPU 訓(xùn)練芯片「剎那®」

OpenAI 擁抱谷歌 TPU 也許并不意味著英偉達(dá) GPU 時(shí)代的終結(jié)，但它清晰地宣告了以 TPU 主導(dǎo)的 AI 專用算力基礎(chǔ)設(shè)施的時(shí)代已然到來。成本壓力、供應(yīng)鏈波動(dòng)以及模型規(guī)模的持續(xù)膨脹，必將使得效率因素比傳統(tǒng)供應(yīng)商優(yōu)勢(shì)更重要。在這種環(huán)境下，專用張量處理器——無論是來自谷歌、AWS 這樣的科技巨頭，還是中昊芯英、Cerebras、Groq 這樣的新興企業(yè)——將塑造大規(guī)模 AI 的下一篇章。

（來源：中昊芯英，本文圖片來自 theinformation.com）

標(biāo)簽：中昊芯英

我要反饋

相關(guān)鏈接

中昊芯英參編甲子光年《中國 AI 算力行業(yè)發(fā)展報(bào)告》

12月30日，備受業(yè)界關(guān)注的《中國AI算力行業(yè)發(fā)展報(bào)告》（以下簡稱「報(bào)告」）由甲子光年智庫正式發(fā)布。該報(bào)告為行業(yè)內(nèi)外提供了權(quán)威、全面、深入的發(fā)展洞察。其中，作為我國AI算力行業(yè)的... [詳情]

2025年07月01日中昊芯英

中昊芯英榮登2024“德勤中國高科技高成長50強(qiáng)” 榜單榜首，近三年收入增長率達(dá)3534%

近日，2024「德勤中國高科技高成長50強(qiáng)」（簡稱「中國50強(qiáng)」）榜單揭曉。中昊芯英憑借在人工智能領(lǐng)域的持續(xù)創(chuàng)新、高速成長及近三年收入增長率高達(dá)3534%榮登2024「中國50強(qiáng)」榜單榜首。... [詳情]

2025年07月01日中昊芯英

中昊芯英榮獲中國證券報(bào)首屆“科創(chuàng)金牛獎(jiǎng)”

6月14日，由中國證券報(bào)和上海市普陀區(qū)人民政府聯(lián)合主辦的“2025科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新大會(huì)暨第一屆科創(chuàng)金牛獎(jiǎng)?lì)C獎(jiǎng)典禮”在上海成功舉行。中昊芯英憑借在科技創(chuàng)新和成長前景等多... [詳情]

2025年07月01日中昊芯英