隨著大模型在人工智能領(lǐng)域的廣泛應(yīng)用,其背后的技術(shù)體系正變得愈發(fā)復(fù)雜與精細。從 Transformer 架構(gòu)的性能優(yōu)化,到多模態(tài)模型的交互設(shè)計,再到軟硬件協(xié)同的高效實現(xiàn),大模型系統(tǒng)的構(gòu)建已不僅是單一技術(shù)的堆疊,而是跨越算法、硬件和系統(tǒng)架構(gòu)的全方位整合。
11 月 14-15 日,由 CSDN 聯(lián)合高端 IT 咨詢與教育平臺 Boolan 舉辦的“2024 全球機器學(xué)習(xí)技術(shù)大會”特設(shè)了“大語言模型技術(shù)演進”分論壇,以這一復(fù)雜生態(tài)為切入點,深度探討了從模型設(shè)計到實際落地的核心技術(shù)實踐。
論壇上,來自百川智能、中國科學(xué)院自動化研究所、騰訊、智源、智譜、得物、快手、CodePlay、Lepton AI 等機構(gòu)與企業(yè)的多位重量級嘉賓帶來了 Transformer 效率優(yōu)化、合成指令優(yōu)化、多模態(tài)跨模態(tài)對齊等技術(shù)的最新研究成果,并深入剖析了提升推理效率的創(chuàng)新實踐,為行業(yè)提供了全新的思路與方向。
王炳寧:Transformer 效率優(yōu)化
在生成式 AI 浪潮中,Transformer 架構(gòu)被廣泛認為是這一技術(shù)發(fā)展的基石。針對這一主題,百川智能預(yù)訓(xùn)練負責(zé)人王炳寧在其分享中,以《Transformer 效率優(yōu)化》為題,深入剖析了 Transformer 技術(shù)的核心與優(yōu)化路徑。
王炳寧 百川智能預(yù)訓(xùn)練負責(zé)人
2017 年,Google 團隊提出了 Transformer 架構(gòu),憑借多頭注意力機制(Multi-Head Attention,MHA)和全局上下文建模能力,迅速成為自然語言處理(NLP)領(lǐng)域的主流選擇。相比 RNN,Transformer 在并行性和擴展性上展現(xiàn)出顯著優(yōu)勢,推動了諸如 GPT、LLama 和百川智能語言模型等大規(guī)模預(yù)訓(xùn)練模型的發(fā)展。
王炳寧表示,Transformer 的核心機制是 Attention,通過全局關(guān)注所有輸入序列,實現(xiàn)了顯著的效果提升。然而,Transformer 在引入全 Attention 機制的同時,也面臨以下挑戰(zhàn):
-
計算復(fù)雜度高:隨著序列長度增加,計算復(fù)雜度呈平方級增長,導(dǎo)致速度變慢。
-
內(nèi)存需求高:需要大量顯存存儲上下文數(shù)據(jù),頻繁的 I/O 操作成為瓶頸。
-
顯式位置編碼:需要通過顯式方法標記位置關(guān)系,無法像 RNN 自動擴展序列位置。
王炳寧指出,Transformer 的效率優(yōu)化需要從 Prefilling 階段和 Decoding 階段兩個方面進行。Prefilling 階段是指模型對輸入序列進行處理并生成特征表示,Decoding 是模型根據(jù)上下文逐步生成輸出。
在解碼階段,緩存(KV Cache)的作用尤為重要。它存儲了 Key 和 Value 矩陣,用于避免重復(fù)計算。然而,隨著序列長度增加,緩存數(shù)據(jù)頻繁在顯存和計算單元之間傳遞,導(dǎo)致顯著的 I/O 瓶頸(“IO-bound”問題)。這一瓶頸成為限制 Transformer 推理速度的核心問題。
針對 KV Cache 的 I/O 瓶頸,王炳寧分享了兩種優(yōu)化策略——GQA(Grouped Query Attention)和 MQA(Multi-Query Attention)。
-
GQA:通過減少緩存頭數(shù),例如將原始 32 個多頭減少為 4 個,大幅降低緩存大?。s 8 倍),提升 I/O 效率。
-
MQA:進一步簡化,僅使用一個頭存儲 Key 和 Value,同時支持多個查詢操作,顯著降低解碼階段的計算復(fù)雜度。
雖然 GQA 和 MQA 顯著加快了解碼速度,但它們或多或少會影響模型的效果。尤其是減少多頭數(shù)量后,注意力機制的表達能力下降,特別是在處理復(fù)雜上下文時,模型的預(yù)測精度可能會有所降低。為平衡緩存大小和任務(wù)效果,王炳寧表示 MLA(Multi-Latent Attention)提供了一種折中方案。在緩存階段,將 Key 和 Value 矩陣壓縮為單頭表示,減少顯存占用與 I/O 需求。在推理階段,動態(tài)擴展為多頭表示,恢復(fù)多頭注意力的表達能力,提升任務(wù)效果。
然而,MLA 對訓(xùn)練速度造成了一定影響,并且無法降低 Prefilling 階段的時間成本。王炳寧特別指出,盡管 MLA 等方法可以顯著優(yōu)化解碼階段,但在處理長序列輸入的Prefilling階段仍需更有效的解決方案。
在 Prefilling 階段,Transformer 需要對完整輸入序列進行全局建模,其計算復(fù)雜度呈平方級增長。為此,王炳寧分享了以下兩種優(yōu)化方法,一種是稀疏注意力(Sparse Attention),僅保留部分單詞間的交互,例如 BigBird 和 LongFormer 通過跳躍采樣或隨機選擇來降低計算量,二是局部注意力(Local Attention),限制模型只關(guān)注相鄰的 K 個單詞,減少無關(guān)上下文的計算開銷。
最后,王炳寧總結(jié)道,Transformer 的核心設(shè)計經(jīng)過七年的發(fā)展,仍是當前最優(yōu)的自然語言處理架構(gòu)。不過,所有的優(yōu)化都是有代價的,需要對效果和效率進行折中。
Michael Wong——釋放 AI 的潛能:應(yīng)對變幻莫測的 AI 硬件和軟件
釋放 AI 潛能不僅依賴技術(shù)的突破,也離不開工具、框架和編程語言的有效使用。在 CodePlay 副總裁 Michael Wong 的《釋放 AI 的潛能:應(yīng)對變幻莫測的 AI 硬件和軟件》演講中,他深入剖析了這一主題,闡述了 AI 領(lǐng)域的發(fā)展現(xiàn)狀和未來方向。
Michael Wong CodePlay 副總裁
Michael 提到,當前 AI 領(lǐng)域正經(jīng)歷前所未有的計算需求增長,全球硬件創(chuàng)新頻繁涌現(xiàn),特別是 GPU、TPU 和 FPGA 等專用 AI 硬件的大量普及,這些加速器正在推動 AI 性能的極大提升。盡管 NVIDIA 的硬件主導(dǎo)市場,但 Google、AMD、Intel、華為、百度、阿里等許多 AI 廠商正在開發(fā)自己的專用硬件,以擺脫對 NVIDIA 的依賴。這種競爭不僅帶來了硬件的多樣化,也促使軟件框架不斷進化。像 PyTorch、TensorFlow、JAX 和 PaddlePaddle 等框架,通過 CUDA 或 XLA 等底層庫,與不同硬件高效協(xié)作,為 AI 開發(fā)提供了強大支持。
在此背景下,AI 加速器的定義也被重新詮釋。Michael 表示,GPU 和 TPU 等硬件不再僅用于圖形處理,而是成為專門加速矩陣運算的利器,用于高效完成 AI 任務(wù)中的線性代數(shù)計算。性能優(yōu)化的實現(xiàn)則依賴于框架級工具,例如 XLA、IREE 等,它們通過高級編譯技術(shù)優(yōu)化 AI 模型,并支持跨平臺部署。
Michael 特別強調(diào)了 Python 作為 AI 開發(fā)語言的重要性。Python 因其易用性和廣泛的庫支持,成為 AI 研究的“普通話”。然而,由于 Python 的運行速度較慢,許多計算密集型任務(wù)被轉(zhuǎn)移到 C++ 等底層語言中執(zhí)行。種種原因驅(qū)使下,這導(dǎo)致 Chris Lattner 創(chuàng)建了新的 AI 語言 Mojo,結(jié)合 Python 的解釋性和 C++ 的性能優(yōu)化,并基于 MLIR 構(gòu)建,能夠調(diào)度多種硬件設(shè)備。Mojo 結(jié)合了一些類似Rust 的安全特性,例如默認不可變性和更高的代碼安全性。Mojo 不僅僅是為 AI 設(shè)計的一種語言,Michael 認為它甚至可能成為下一代系統(tǒng)語言,潛在取代 C++ 的地位。
隨后,Michael 進一步探討了邊緣 AI 的框架及其優(yōu)化。例如,ExecuTorch 和 TensorFlow Lite分別針對移動設(shè)備和嵌入式系統(tǒng)進行了特別設(shè)計,用以滿足資源受限場景的需求。同時,他指出,框架的互操作性至關(guān)重要,例如 ONNX 支持 AI 模型的互操作性和跨平臺部署。PolyBlocks 和 TVM 等編譯器也在優(yōu)化高維數(shù)據(jù)處理和端到端部署方面表現(xiàn)出色。
他還提到,硬件加速語言如 CUDA、ROCm 和 SYCL,以及圖形 API 如 Vulkan 和 OpenVX,在提升 AI 計算性能方面發(fā)揮了重要作用。新興技術(shù)如 Triton、IREE 和 MLIR 則通過增強跨平臺兼容性和優(yōu)化能力,正在塑造 AI 的未來。
Michael 展望了 AI 未來發(fā)展的幾個方向,包括量子加速、神經(jīng)形態(tài)計算、綠色計算和邊緣 AI等。他指出,AI 生態(tài)系統(tǒng)的標準化和互操作性將是推動創(chuàng)新的關(guān)鍵,而開發(fā)更易用的 AI 語言和生態(tài)系統(tǒng),將為研究者和開發(fā)者帶來更多機遇。最后,他鼓勵開發(fā)者采用最佳實踐,如結(jié)合多種優(yōu)化技術(shù)、利用硬件特定庫,以及在框架級和運行時層面進行性能調(diào)優(yōu)。
劉廣:Infinity Instruct: 合成指令技術(shù)的探索
本次大會上,智源基礎(chǔ)數(shù)據(jù)研究組負責(zé)人劉廣發(fā)表了《Infinity Instruct: 合成指令技術(shù)的探索》的主題演講。他指出,指令數(shù)據(jù)集的發(fā)展與模型技術(shù)相比進展相對滯后。研究表明,大模型性能的提升高度依賴于高質(zhì)量的數(shù)據(jù)。然而,人類生成數(shù)據(jù)可能會在 2028 年前達到“數(shù)據(jù)墻”的瓶頸,尤其是高質(zhì)量指令數(shù)據(jù)在生成速度和存量上都面臨嚴峻的限制。
劉廣 智源基礎(chǔ)數(shù)據(jù)研究組負責(zé)人
劉廣強調(diào),Infinity Instruct 項目正是為了解決這一難題而啟動。團隊整合了超過1億條現(xiàn)有開源數(shù)據(jù),構(gòu)建了一套兩級標簽體系,用于全面刻畫指令數(shù)據(jù)的深度與廣度。一級標簽覆蓋 26 個大類能力,例如數(shù)學(xué)計算、編程能力和自然語言處理;二級標簽則細化為超過 1.5 萬個任務(wù)類別,精準描述完成各類指令所需的知識與技能。這一標簽體系不僅提升了數(shù)據(jù)篩選的效率,還為數(shù)據(jù)分析與優(yōu)化提供了科學(xué)的依據(jù)。
在數(shù)據(jù)篩選過程中,Infinity Instruct 團隊通過統(tǒng)一格式、去重和質(zhì)量過濾等步驟,從 1 億多條數(shù)據(jù)中篩選出 740 萬條高質(zhì)量基礎(chǔ)能力指令數(shù)據(jù)。此外,他們還基于模型能力缺陷的診斷,補充生成了約 150 萬條復(fù)雜對話指令數(shù)據(jù)。這些數(shù)據(jù)涵蓋數(shù)學(xué)、代碼和通用知識領(lǐng)域,成為支持多任務(wù)模型訓(xùn)練的重要基礎(chǔ)。
Infinity Instruct 當前也對指令數(shù)據(jù)的質(zhì)量提出了明確的定義,強調(diào)廣度和深度的重要性。廣度要求數(shù)據(jù)能夠覆蓋用戶可能提出的所有問題,包括日常對話、學(xué)術(shù)推理和復(fù)雜問題解決等不同場景;深度則指數(shù)據(jù)在知識和能力上的綜合性,尤其是應(yīng)對多維度復(fù)雜任務(wù)的能力。劉廣表示,相比現(xiàn)有僅基于數(shù)據(jù)來源或任務(wù)類型分類的局限,Infinity Instruct 通過兩級標簽體系實現(xiàn)了對數(shù)據(jù)的系統(tǒng)優(yōu)化,不僅能夠更全面地覆蓋長尾任務(wù),還能確保模型能夠應(yīng)對復(fù)雜問題的挑戰(zhàn)。
在提升模型能力方面,Infinity Instruct 采用了先進的合成技術(shù)。團隊以高質(zhì)量的種子數(shù)據(jù)為基礎(chǔ),通過進化算法優(yōu)化模型的泛化能力,并針對小規(guī)模測試中發(fā)現(xiàn)的能力缺陷生成相應(yīng)數(shù)據(jù)。合成過程經(jīng)過多輪迭代,每輪結(jié)合驗證結(jié)果對生成策略進行調(diào)整,從而確保數(shù)據(jù)的多樣性和精準性。
數(shù)學(xué)推理領(lǐng)域的 Infinity Math 項目進一步推動了合成技術(shù)的發(fā)展。該團隊通過形式化表達,將自然語言描述的數(shù)學(xué)問題轉(zhuǎn)化為通用模板,并利用程序化解法生成數(shù)值精確的數(shù)據(jù)。這種方式允許在固定模板下,通過變量替換生成無限擴展的數(shù)據(jù),大幅豐富了模型訓(xùn)練所需的數(shù)據(jù)池。
劉廣還提到,高質(zhì)量數(shù)據(jù)不僅在知識廣度和任務(wù)復(fù)雜性上提出了挑戰(zhàn),同時涉及與人類偏好的對齊問題?,F(xiàn)有偏好體系通常使用固定權(quán)重評分,忽略了不同任務(wù)在偏好權(quán)重上的差異。例如,在數(shù)學(xué)推理任務(wù)中,“正確性”的權(quán)重遠高于“連貫性”,而在創(chuàng)意寫作中,“連貫性”或“冗余性”的權(quán)重則更為重要。針對這一問題,Infinity Instruct 提出了任務(wù)粒度的偏好建模方法,為不同任務(wù)分配不同的權(quán)重分布,幫助模型更好地理解人類偏好的復(fù)雜性。通過獎勵模型和任務(wù)權(quán)重學(xué)習(xí),該方法顯著提升了模型在多任務(wù)場景下的表現(xiàn)。
現(xiàn)如今,隨著多模態(tài)任務(wù)需求的增長,單一模態(tài)數(shù)據(jù)難以滿足模型在圖片、視頻和文本多形態(tài)融合上的需求。為此,團隊開發(fā)了 Infinity-MM 數(shù)據(jù)集,這一千萬級規(guī)模的數(shù)據(jù)集整合了圖片與文本指令數(shù)據(jù),并通過先進的合成技術(shù)生成了大約800K條多輪對話訓(xùn)練指令。這些數(shù)據(jù)顯著提升了多模態(tài)模型的推理能力,使其在多個任務(wù)評測中超越了現(xiàn)有開源數(shù)據(jù)集的表現(xiàn)。
吳凌翔:多模態(tài)大模型的實踐與思考
自 ChatGPT 問世以來,對話系統(tǒng)發(fā)生了巨大變革。在當今智能算法的支持下,機器不僅能理解人類語言的意圖,還能通過高效的人機交互完成特定任務(wù)或給出回應(yīng)。人類的學(xué)習(xí)和交流過程涉及豐富的多模態(tài)信息,如何有效利用這些信息,中國科學(xué)院自動化研究所副研究員、武漢人工智能研究院算法總監(jiān)吳凌翔以“紫東太初多模態(tài)大模型”為例進行了深入分享。
吳凌翔 中國科學(xué)院自動化研究所副研究員、武漢人工智能研究院算法總監(jiān)
吳凌翔表示,于 2021 年發(fā)布的紫東太初 1.0 多模態(tài)大模型首次引入了多任務(wù)多模態(tài)自監(jiān)督學(xué)習(xí)框架,涵蓋從 Token 級、模態(tài)級到樣本級的學(xué)習(xí)方法,成功打造了一個能夠處理文本、圖像和聲音的三模態(tài)大模型。隨著技術(shù)的演進,紫東太初 2.0 版進一步發(fā)展了全模態(tài)多任務(wù)統(tǒng)一生成式學(xué)習(xí)架構(gòu),采用全模態(tài)分組對齊、分組解碼及聯(lián)合解碼的技術(shù),實現(xiàn)了全模態(tài)的低成本協(xié)同優(yōu)化學(xué)習(xí),此版本還新增了信號、3D、視頻等模態(tài),增強了模型處理和解析信息的能力。
除此之外,吳凌翔分享了團隊在多模態(tài)大模型方面的幾項創(chuàng)新成果:
-
首先是可變形視覺 Transformer 模型,它通過預(yù)測每個局部塊的空間位置和大小,克服了傳統(tǒng)固定滑塊導(dǎo)致的語義結(jié)構(gòu)不完整的問題。
-
其次是對比掩碼自監(jiān)督模型,該模型對圖像進行動態(tài)掩碼,突破學(xué)習(xí)性能弱表征單一的瓶頸,并大幅度提升收斂效率。
-
此外,還有數(shù)據(jù)魯棒自監(jiān)督模型,它通過對圖像提取目標框,挖掘場景-目標之間的潛在關(guān)系,擺脫以單目標為中心的圖像束縛,突破學(xué)習(xí)算法通用性差的問題。
-
在視覺與語言結(jié)合的研究方面,該團隊致力于語言引導(dǎo)的多任務(wù)統(tǒng)一編碼,旨在通過語言指導(dǎo)提升模型對多模態(tài)信息的局部感知能力。
-
同時,還開發(fā)了視覺-文本雙指代統(tǒng)一大模型,該模型具備定位、分割、計數(shù)和區(qū)域描述等能力,能夠高效壓縮高分辨率視覺編碼,減少計算復(fù)雜度,并通過設(shè)計視覺提示分支增強模型的視覺查詢功能。
如今“紫東太初多模態(tài)大模型”在智慧政務(wù)、智能客服、智慧交通、智慧金融等多個領(lǐng)域得到廣泛應(yīng)用。
不過,吳凌翔指出,盡管當前多任務(wù)泛化型 AI 系統(tǒng)已在多個任務(wù)上表現(xiàn)優(yōu)異,但要實現(xiàn)真正的通用 AI 仍需克服諸多挑戰(zhàn),比如提高能效比、解決實際應(yīng)用場景中的復(fù)雜問題等。未來,吳凌翔表示,具身智能、腦科學(xué)與 AI 的融合以及跨學(xué)科合作等方向都具有探索的機會。
魚哲:生成式 AI 落地對架構(gòu)帶來的挑戰(zhàn)與機遇
在《生成式 AI 落地對架構(gòu)帶來的挑戰(zhàn)與機遇》的演講中,Lepton AI 創(chuàng)始成員魚哲深入探討了生成式 AI 的核心目標和挑戰(zhàn)。他指出,AI 可以被視為一種旨在模仿和增強人類智能的技術(shù)體系,使機器能夠完成通常需要人類智慧才能完成的任務(wù),包括但不限于學(xué)習(xí)、推理、問題解決、知識表示和規(guī)劃等。
魚哲 Lepton AI 創(chuàng)始成員
在生成式 AI 的落地過程中,有兩個關(guān)鍵點值得特別關(guān)注:一是最大化機會(Maximize the chances),通過多種方法提升機器完成任務(wù)的可能性。在此過程中,魚哲引入“顆粒度”(Granularity)的概念,用來衡量操作模型的細致程度。例如,高顆粒度場景需要高度精細的指導(dǎo),如代碼生成;而低顆粒度場景對細節(jié)的要求較低。二是選擇任務(wù)(Choose the goal),為 AI 分配適合的任務(wù)時必須考慮“責(zé)任度”(Accountability)。在高責(zé)任度場景下(如醫(yī)療診斷或金融咨詢),準確性至關(guān)重要,任何錯誤都可能帶來嚴重后果。
基于“顆粒度”和“責(zé)任度”兩個維度,魚哲將 AI 的應(yīng)用場景劃分為四個象限,揭示了不同應(yīng)用場景的需求和挑戰(zhàn):
1. 第一象限:高顆粒度 + 高責(zé)任度
典型應(yīng)用:醫(yī)療診斷、企業(yè)生產(chǎn)中的關(guān)鍵任務(wù)。
這些場景中,任何錯誤都可能導(dǎo)致嚴重后果??蛻絷P(guān)注的首要因素是模型的選擇(Choice of Models),他們往往希望盡快嘗試各種不同模型以應(yīng)對模型更新迭代的快速變化。其次是生成速度(Speed of Generation),因為速度直接影響應(yīng)用效果;最后才是生成成本(Cost of Generation),這通常在高責(zé)任度場景中不是首要考慮。
2. 第二象限:低顆粒度 + 高責(zé)任度
典型應(yīng)用:通用搜索、語音生成、語音識別等比較標準化的場景。
在這些場景中,AI 應(yīng)用的操作復(fù)雜度較低,但對結(jié)果可靠性的要求極高。生成速度和生成成本是客戶最為關(guān)注的因素。魚哲提到,例如 Eleven Labs 的語音生成,其生成成本在市場中備受關(guān)注,尤其是在需要實時響應(yīng)的場景中。
3. 第三象限:低顆粒度 + 低責(zé)任度
典型應(yīng)用:藝術(shù)創(chuàng)作、娛樂內(nèi)容生成。
這類應(yīng)用對結(jié)果準確性要求較低,用戶對偏差具有較高容忍度。AI 在此主要用于提升娛樂性和創(chuàng)造力。企業(yè)在這一象限往往處于嘗試不同模型的階段,其次才會關(guān)注生成成本和速度。
4. 第四象限:高顆粒度 + 低責(zé)任度
典型應(yīng)用:虛擬角色互動。
這些場景需要頻繁交互和調(diào)整,但對結(jié)果的精準度要求較低。例如,與游戲中的虛擬角色互動,用戶可以多次嘗試直到獲得滿意的結(jié)果??蛻絷P(guān)注的重點依次是模型選擇、生成速度和生成成本。在這個象限中,模型仍處于快速推陳出新的階段。
結(jié)合以上生成式 AI 落地的機遇與挑戰(zhàn),魚哲總結(jié)了硅谷許多成功 AI 初創(chuàng)企業(yè)的共同特征:
1. 領(lǐng)域知識(Domain Know-how):對應(yīng)用場景和用戶需求有深刻理解。
2. 數(shù)據(jù)積累(Data):擁有豐富的行業(yè)數(shù)據(jù),為模型訓(xùn)練和優(yōu)化提供基礎(chǔ)。
3. 快速上市(Time to Market):能夠迅速響應(yīng)市場需求并快速迭代產(chǎn)品。
4. 基礎(chǔ)設(shè)施(Infrastructure):以穩(wěn)健的基礎(chǔ)設(shè)施支撐產(chǎn)品擴展和升級。
魚哲認為,這些要素是生成式 AI 在激烈競爭中取得成功的關(guān)鍵,也是推動技術(shù)落地和行業(yè)變革的重要動力。
孟令公:大模型推理性能提升實踐
隨著大模型規(guī)模的不斷增大,如何高效進行推理成為亟待解決的問題。得物機器學(xué)習(xí)高級專家孟令公在《大模型推理性能優(yōu)化與實踐》主題演講中指出,許多公司在訓(xùn)練并部署大模型后,需要專用的大模型推理引擎來加速推理過程。用戶發(fā)送請求時,首先傳遞給應(yīng)用程序,而應(yīng)用程序會調(diào)用大模型推理引擎觸發(fā)推理邏輯。推理引擎的核心目標是提升推理速度和吞吐量,同時兼容多種大模型(如 Llama 系列、千問系列等)和硬件(如 GPU、CPU、NPU)。
孟令公 得物機器學(xué)習(xí)高級專家
孟令公分享道,大模型推理引擎的核心模塊包括調(diào)度器、KV Cache管理、Prefill階段和Decode階段,這些模塊是性能優(yōu)化的關(guān)鍵。
KV Cache的引入使得每個推理請求能夠維護歷史Key-Value緩存,以支持前向傳播和自回歸生成。通過緩存先前時間步的鍵和值,可以避免在每個時間步重復(fù)計算先前的注意力內(nèi)容,從而大幅提升生成效率。然而,隨著生成 Token 數(shù)量的增加,KV Cache 的顯存占用不斷增大。孟令公指出,頻繁的申請與釋放可能導(dǎo)致顯存碎片化,這類似于傳統(tǒng)內(nèi)存管理中的問題。
為了解決這一問題,VLLM推理引擎在實踐中引入了Paged Attention技術(shù)作為解決方案。Paged Attention是一種受操作系統(tǒng)虛擬內(nèi)存和分頁啟發(fā)的算法,通過將注意力的鍵和值緩存分成固定大小的頁,并以非連續(xù)方式存儲,從而高效管理顯存,減少碎片,提高吞吐量。此外,該技術(shù)支持多序列共享內(nèi)存,例如在并行采樣時共享提示詞緩存,進一步降低顯存開銷并提升性能。由于采用了Paged Attention,vLLM的吞吐量比 Hugging Face高8.5倍至15倍。
此外,孟令公表示,在多輪對話場景中,大模型推理常面臨上下文高重復(fù)性的問題。用戶的每次請求中往往包含大量重復(fù)的 Prompt 內(nèi)容,而這些重復(fù)部分的重復(fù)計算會導(dǎo)致資源浪費和響應(yīng)延遲的增加。為了解決這個問題,SGLang推理引擎還引入了一種名為Radix Attention的方法來優(yōu)化顯存管理。Radix Attention通過對重復(fù)Prompt 部分的高效緩存管理,在高并發(fā)場景下保持了更低的響應(yīng)延遲。這種優(yōu)化特別適合多輪對話、少樣本學(xué)習(xí)等場景,因為這些場景中輸入內(nèi)容的重復(fù)性較高,通過緩存復(fù)用可以極大提升GPU資源的利用效率。
推理引擎的優(yōu)化不僅依賴于緩存管理,還需要在推理過程中的兩個關(guān)鍵階段——Prefill和Decode——進行優(yōu)化。
-
Prefill階段:引擎對輸入Prompt進行批量計算,該階段具有并行計算的特點,能夠充分利用GPU資源。通過Chunk Prefill技術(shù),將長Prompt拆分為若干固定長度的小塊(如512個Token)逐塊處理,可以避免GPU 資源長時間被單個請求占用。此外,Prefill階段與Decode階段可以并行處理,從而進一步提高QPS。
-
Decode 階段:自回歸地逐個生成新的Token。由于生成的每個Token依賴于之前的輸出,因此Decode階段通常是串行的,效率受限。優(yōu)化Decode的關(guān)鍵在于Batching和Speculative Decoding。通過Batching將多個Decode 請求合并成批次提交GPU進行處理,可以提高利用率,避免單個請求導(dǎo)致的資源閑置。Speculative Decoding 則通過引入較小的草稿模型快速生成候選Token序列,再利用目標大模型驗證其準確性,從而降低響應(yīng)延遲。
在部署大模型時,多業(yè)務(wù)場景下的資源消耗也是一個挑戰(zhàn)。孟令公提到,得物采用了多LoRA技術(shù)以節(jié)省大模型部署成本。LoRA方法將大模型的參數(shù)矩陣拆分為兩個低秩矩陣,僅對其進行微調(diào)生成參數(shù)文件。在實際部署中,可以加載多個 LoRA文件并復(fù)用基礎(chǔ)大模型,從而在一塊顯卡上同時支持多個業(yè)務(wù)場景,對推理速度和吞吐量的影響幾乎可以忽略。
此外,模型層的優(yōu)化也是性能提升的重要方向。例如,通過 AWQ(Accurate Weight Quantization)和 GPTQ(Generalized Post-training Quantization)對模型進行量化,可以在保持性能的同時減少模型體積和計算量。而底層庫的優(yōu)化,如使用 PyTorch2.0 的 Torch Compile 和 NVIDIA 的 CUDA Graph 技術(shù),則進一步提升了 GPU 性能。
彭厚文:騰訊混元多模態(tài)技術(shù)實踐與思考
多模態(tài)技術(shù)已成為生成式 AI 中不可避開的重要領(lǐng)域,其核心在于通過對不同模態(tài)數(shù)據(jù)的理解和協(xié)同處理,實現(xiàn)跨模態(tài)信息的融合與生成。在本次大會上,騰訊混元多模態(tài)模型技術(shù)專家彭厚文帶來了《騰訊混元多模態(tài)大模型技術(shù)實踐與思考》的主題演講。彭厚文透露,騰訊混元團隊目前正專注于文本、圖像、視頻、音頻四個模態(tài)生成技術(shù)的研發(fā)。
騰訊混元多模態(tài)模型負責(zé)人 彭厚文
其中,彭厚文以圖視生文為例,詳細介紹了騰訊混元團隊在這一維度的最新進展與技術(shù)細節(jié)。他表示,騰訊混元的多模態(tài)圖視生文模型主要包括三大的部分:
視覺編碼器:采用 Vision Transformer (ViT),不僅能處理圖片,還能處理視頻,通過參數(shù)復(fù)用來理解多張圖片或多幀視頻。
視覺-語言適配器:作為連接視覺和語言模型的橋梁,幫助模型理解不同模態(tài)間的關(guān)系。
大語言模型:作為信息處理的中樞,采用 MoE 架構(gòu),以增強模型的擴展性和處理多模態(tài)數(shù)據(jù)的能力。
在整個預(yù)訓(xùn)練階段,彭厚文指出,騰訊混元大模型的數(shù)據(jù)來源非常豐富,包含圖片、文本、視頻、多圖及網(wǎng)頁端等多種數(shù)據(jù)源。同時,采用多階段預(yù)訓(xùn)練策略,針對不同模態(tài),采用不同數(shù)據(jù)進行訓(xùn)練,逐步提升模型性能。
在后訓(xùn)練階段,主要涉及精調(diào),構(gòu)建高質(zhì)量的指令數(shù)據(jù),涵蓋基礎(chǔ)識別、OCR、圖表、數(shù)學(xué)、代碼等多個領(lǐng)域,通過細致分類確保模型覆蓋廣泛的應(yīng)用場景。在數(shù)據(jù)處理維度,則主要使用包括預(yù)處理、篩選、去重、泛化等步驟,以確保數(shù)據(jù)的質(zhì)量和多樣性。
在研發(fā)多模態(tài)大模型的過程中,彭厚文結(jié)合騰訊混元的實踐經(jīng)驗,分享了幾個維度的技術(shù)思考:
數(shù)據(jù)。數(shù)據(jù)的質(zhì)量比數(shù)量更重要,數(shù)據(jù)的多樣性也至關(guān)重要。然而,高質(zhì)量的數(shù)據(jù)難以獲取,因此需要合成大量高質(zhì)量的數(shù)據(jù),包括對真實數(shù)據(jù)的改寫、擴充和思維鏈的合成。為了覆蓋更多復(fù)雜的指令,通過合成方法使指令數(shù)據(jù)分布更接近用戶的真實需求。在整個研發(fā)過程中,還需要構(gòu)建高效的自動化數(shù)據(jù)獲取和處理鏈路,提升研發(fā)效率。
模型結(jié)構(gòu)。騰訊混元團隊主要采用了 MoE 架構(gòu)作為多模態(tài)的基座,其中主要原因是,在相同的訓(xùn)練成本下,MoE 性能優(yōu)于稠密模型,且具有更好的擴展性,能夠融合多種模態(tài)。
模型訓(xùn)練:目前多模態(tài)大模型的訓(xùn)練大多是分階段訓(xùn)練,即不同模塊分階段訓(xùn)練,從低分辨率到高分辨率,從較高質(zhì)量數(shù)據(jù)到更高質(zhì)量數(shù)據(jù),提高訓(xùn)練效率。
模型推理。彭厚文表示,模型推理最重要的目標是減少延時,增加并發(fā)。在推理優(yōu)化方面,為了提高多模態(tài)模型的推理效率,引入了 KV Cache 壓縮。同時,還采用引入量化技術(shù)、Prefilling 等技術(shù),來提升推理速度和效率,縮短用戶體感的首次響應(yīng)時間。
強化學(xué)習(xí)中的偏好對齊:在強化學(xué)習(xí)中,目前有兩種主要的方法,一種是離線的強化學(xué)習(xí),一種是在線的強化學(xué)習(xí)。離線的強化學(xué)習(xí)訓(xùn)練更加穩(wěn)定,但方法泛化性較弱;在線的強化學(xué)習(xí)泛化性更強,因此大多數(shù)情況下會采用在線的強化學(xué)習(xí)。彭厚文表示,在線的強化學(xué)習(xí)中,準確、及時、精確的獎勵反饋對于驅(qū)動大模型能力的提升非常關(guān)鍵。
模型評測:如今行業(yè)廣泛關(guān)注并使用公開Benchmark進行評測,但 Benchmark 評測存在一定程度的偏差,與真實用戶場景不同。因此,混元大模型不僅關(guān)注 Benchmark 評測,還會采用真實用戶進行 AB 測試,覆蓋不同場景和維度,確保模型對齊真實用戶需求。
目前,騰訊混元多模態(tài)大模型已在騰訊內(nèi)部 700 多個業(yè)務(wù)場景中廣泛應(yīng)用,包括廣告理解、短視頻多模態(tài)理解、搜索、內(nèi)容審核等領(lǐng)域。面向未來,彭厚文表示,騰訊混元團隊將從兩個維度進一步推進多模態(tài)大模型的發(fā)展:
-
廣度:繼續(xù)研發(fā)全模態(tài)大模型,覆蓋更多模態(tài),設(shè)計統(tǒng)一的多模態(tài)模型架構(gòu)。
-
深度:提升模型的智能和可靠性,探索智能的邊界,實現(xiàn)模型自我進化。
圓桌對話:大模型系統(tǒng)技術(shù)實踐
在最后的圓桌對話環(huán)節(jié)中,智源基礎(chǔ)數(shù)據(jù)研究組負責(zé)人劉廣、智譜 AI CodeGeeX 高級算法工程師張少博、快手科技快意大模型知識增強研發(fā)負責(zé)人毛航宇、Dify 首席架構(gòu)師姜勇,在 Boolan 首席咨詢師李沫南的主持下,圍繞“大模型系統(tǒng)技術(shù)實踐”展開了深入分享,涵蓋了系統(tǒng)能力劃分、開發(fā)工具鏈的不足以及大模型的實際應(yīng)用方向等核心議題。
張少博在分享中提到,大模型系統(tǒng)能力的設(shè)計應(yīng)注重功能的可重復(fù)性與工程化特質(zhì)。那些不需要頻繁調(diào)整、不會對系統(tǒng)或數(shù)據(jù)造成不可逆影響的操作,適合被集成到系統(tǒng)底層,以此提升效率和穩(wěn)定性。與此同時,用戶的自定義需求則應(yīng)交由開發(fā)者靈活處理。例如,在智譜清言平臺,涉及到內(nèi)容生成、定制化操作以及代碼插件(如代碼生成或解釋功能)的場景,可以將這些操作封裝成標準化的工程模塊。這種方法不僅能優(yōu)化開發(fā)流程,還能確保操作的統(tǒng)一性和可靠性,為系統(tǒng)建設(shè)提供了可行的方向。
劉廣則從數(shù)據(jù)處理的角度分析了大模型現(xiàn)有開發(fā)工具鏈中面臨的痛點。他指出,大模型開發(fā)正在經(jīng)歷從以人為中心向以模型為中心轉(zhuǎn)變的過程,數(shù)據(jù)標注逐漸由人工向自動化過渡。然而,目前缺乏系統(tǒng)化的解決方案來高效管理大規(guī)模數(shù)據(jù)標注和模型驗證。盡管一些基于工作流的工具能夠輔助完成初步任務(wù),但當這些工具需要與數(shù)據(jù)庫、工作流、大模型和多模態(tài)模型結(jié)合進行多集群部署和推理時,數(shù)據(jù)處理流程的復(fù)雜性顯著增加。這種系統(tǒng)化的缺失,不僅對效率造成影響,還在數(shù)據(jù)一致性管理上形成了阻礙。
毛航宇圍繞大模型的應(yīng)用場景提出了深入見解。他認為,大模型雖在多個領(lǐng)域表現(xiàn)出強大潛力,但應(yīng)用場景的選擇應(yīng)基于模型當前的實際能力,如理解、生成、推理和決策等。在此基礎(chǔ)上,可以按照 ToC(面向消費者)和 ToB(面向企業(yè))的方向進一步細分應(yīng)用領(lǐng)域,明確大模型適合覆蓋的場景。不過,他指出,盡管近年來關(guān)于大模型編程的討論備受關(guān)注,但能夠?qū)嶋H落地的商業(yè)編程工具并不多,主要原因在于編程任務(wù)超出了當前模型的能力范圍,譬如定義變量時可以選擇無數(shù)個名稱(如a、b、ab等),這導(dǎo)致代碼非常容易出現(xiàn)幻覺時,倘若代碼量達到數(shù)千行,找到潛在的 Bug 將變得極其困難。相比之下,AI Agent 具備較高的適配性,因為任務(wù)中的參數(shù)和 API 使用通常是事先明確的,具有較高的結(jié)構(gòu)化特點,是大語言模型最有潛力的應(yīng)用方式之一。
姜勇則持有不同的看法。他表示,在現(xiàn)代編程實踐中,代碼自動補全等工具已成為開發(fā)者的重要助手,而大模型可以在已有代碼基礎(chǔ)上,根據(jù)明確需求生成代碼片段,大幅提升開發(fā)效率。同時,大模型也可以進一步在企業(yè)知識庫管理方面具有獨特優(yōu)勢。例如,會議記錄的自動整理和歸檔可以顯著提升企業(yè)的信息管理效率,幫助企業(yè)在數(shù)字化轉(zhuǎn)型過程中更高效地管理大量文檔。此外,他還指出,人們對大模型的期望有時過于苛刻,追求其輸出的絕對正確性。事實上,許多應(yīng)用場景并不需要 100% 準確率。如果大模型能將工作量減少 60%,已是非常有價值的突破。大模型的真正意義在于提升效率,即使不能完全解決問題,顯著減輕人工負擔也是一個巨大的進步。
(來源CSDN)