大語言模型技術(shù)演進與啟示！

ainet.cn 2025年01月03日

隨著大模型在人工智能領(lǐng)域的廣泛應(yīng)用，其背后的技術(shù)體系正變得愈發(fā)復(fù)雜與精細。從 Transformer 架構(gòu)的性能優(yōu)化，到多模態(tài)模型的交互設(shè)計，再到軟硬件協(xié)同的高效實現(xiàn)，大模型系統(tǒng)的構(gòu)建已不僅是單一技術(shù)的堆疊，而是跨越算法、硬件和系統(tǒng)架構(gòu)的全方位整合。

11 月 14-15 日，由 CSDN 聯(lián)合高端 IT 咨詢與教育平臺 Boolan 舉辦的“2024 全球機器學(xué)習(xí)技術(shù)大會”特設(shè)了“大語言模型技術(shù)演進”分論壇，以這一復(fù)雜生態(tài)為切入點，深度探討了從模型設(shè)計到實際落地的核心技術(shù)實踐。

論壇上，來自百川智能、中國科學(xué)院自動化研究所、騰訊、智源、智譜、得物、快手、CodePlay、Lepton AI 等機構(gòu)與企業(yè)的多位重量級嘉賓帶來了 Transformer 效率優(yōu)化、合成指令優(yōu)化、多模態(tài)跨模態(tài)對齊等技術(shù)的最新研究成果，并深入剖析了提升推理效率的創(chuàng)新實踐，為行業(yè)提供了全新的思路與方向。

王炳寧：Transformer 效率優(yōu)化

在生成式 AI 浪潮中，Transformer 架構(gòu)被廣泛認為是這一技術(shù)發(fā)展的基石。針對這一主題，百川智能預(yù)訓(xùn)練負責(zé)人王炳寧在其分享中，以《Transformer 效率優(yōu)化》為題，深入剖析了 Transformer 技術(shù)的核心與優(yōu)化路徑。

王炳寧百川智能預(yù)訓(xùn)練負責(zé)人

2017 年，Google 團隊提出了 Transformer 架構(gòu)，憑借多頭注意力機制（Multi-Head Attention，MHA）和全局上下文建模能力，迅速成為自然語言處理（NLP）領(lǐng)域的主流選擇。相比 RNN，Transformer 在并行性和擴展性上展現(xiàn)出顯著優(yōu)勢，推動了諸如 GPT、LLama 和百川智能語言模型等大規(guī)模預(yù)訓(xùn)練模型的發(fā)展。

王炳寧表示，Transformer 的核心機制是 Attention，通過全局關(guān)注所有輸入序列，實現(xiàn)了顯著的效果提升。然而，Transformer 在引入全 Attention 機制的同時，也面臨以下挑戰(zhàn)：

計算復(fù)雜度高：隨著序列長度增加，計算復(fù)雜度呈平方級增長，導(dǎo)致速度變慢。
內(nèi)存需求高：需要大量顯存存儲上下文數(shù)據(jù)，頻繁的 I/O 操作成為瓶頸。
顯式位置編碼：需要通過顯式方法標記位置關(guān)系，無法像 RNN 自動擴展序列位置。

王炳寧指出，Transformer 的效率優(yōu)化需要從 Prefilling 階段和 Decoding 階段兩個方面進行。Prefilling 階段是指模型對輸入序列進行處理并生成特征表示，Decoding 是模型根據(jù)上下文逐步生成輸出。

在解碼階段，緩存（KV Cache）的作用尤為重要。它存儲了 Key 和 Value 矩陣，用于避免重復(fù)計算。然而，隨著序列長度增加，緩存數(shù)據(jù)頻繁在顯存和計算單元之間傳遞，導(dǎo)致顯著的 I/O 瓶頸（“IO-bound”問題）。這一瓶頸成為限制 Transformer 推理速度的核心問題。

針對 KV Cache 的 I/O 瓶頸，王炳寧分享了兩種優(yōu)化策略——GQA（Grouped Query Attention）和 MQA（Multi-Query Attention）。

GQA：通過減少緩存頭數(shù)，例如將原始 32 個多頭減少為 4 個，大幅降低緩存大?。s 8 倍），提升 I/O 效率。
MQA：進一步簡化，僅使用一個頭存儲 Key 和 Value，同時支持多個查詢操作，顯著降低解碼階段的計算復(fù)雜度。

雖然 GQA 和 MQA 顯著加快了解碼速度，但它們或多或少會影響模型的效果。尤其是減少多頭數(shù)量后，注意力機制的表達能力下降，特別是在處理復(fù)雜上下文時，模型的預(yù)測精度可能會有所降低。為平衡緩存大小和任務(wù)效果，王炳寧表示 MLA（Multi-Latent Attention）提供了一種折中方案。在緩存階段，將 Key 和 Value 矩陣壓縮為單頭表示，減少顯存占用與 I/O 需求。在推理階段，動態(tài)擴展為多頭表示，恢復(fù)多頭注意力的表達能力，提升任務(wù)效果。

然而，MLA 對訓(xùn)練速度造成了一定影響，并且無法降低 Prefilling 階段的時間成本。王炳寧特別指出，盡管 MLA 等方法可以顯著優(yōu)化解碼階段，但在處理長序列輸入的Prefilling階段仍需更有效的解決方案。

在 Prefilling 階段，Transformer 需要對完整輸入序列進行全局建模，其計算復(fù)雜度呈平方級增長。為此，王炳寧分享了以下兩種優(yōu)化方法，一種是稀疏注意力（Sparse Attention），僅保留部分單詞間的交互，例如 BigBird 和 LongFormer 通過跳躍采樣或隨機選擇來降低計算量，二是局部注意力（Local Attention），限制模型只關(guān)注相鄰的 K 個單詞，減少無關(guān)上下文的計算開銷。

最后，王炳寧總結(jié)道，Transformer 的核心設(shè)計經(jīng)過七年的發(fā)展，仍是當前最優(yōu)的自然語言處理架構(gòu)。不過，所有的優(yōu)化都是有代價的，需要對效果和效率進行折中。

Michael Wong——釋放 AI 的潛能：應(yīng)對變幻莫測的 AI 硬件和軟件

釋放 AI 潛能不僅依賴技術(shù)的突破，也離不開工具、框架和編程語言的有效使用。在 CodePlay 副總裁 Michael Wong 的《釋放 AI 的潛能：應(yīng)對變幻莫測的 AI 硬件和軟件》演講中，他深入剖析了這一主題，闡述了 AI 領(lǐng)域的發(fā)展現(xiàn)狀和未來方向。

Michael Wong CodePlay 副總裁

Michael 提到，當前 AI 領(lǐng)域正經(jīng)歷前所未有的計算需求增長，全球硬件創(chuàng)新頻繁涌現(xiàn)，特別是 GPU、TPU 和 FPGA 等專用 AI 硬件的大量普及，這些加速器正在推動 AI 性能的極大提升。盡管 NVIDIA 的硬件主導(dǎo)市場，但 Google、AMD、Intel、華為、百度、阿里等許多 AI 廠商正在開發(fā)自己的專用硬件，以擺脫對 NVIDIA 的依賴。這種競爭不僅帶來了硬件的多樣化，也促使軟件框架不斷進化。像 PyTorch、TensorFlow、JAX 和 PaddlePaddle 等框架，通過 CUDA 或 XLA 等底層庫，與不同硬件高效協(xié)作，為 AI 開發(fā)提供了強大支持。

在此背景下，AI 加速器的定義也被重新詮釋。Michael 表示，GPU 和 TPU 等硬件不再僅用于圖形處理，而是成為專門加速矩陣運算的利器，用于高效完成 AI 任務(wù)中的線性代數(shù)計算。性能優(yōu)化的實現(xiàn)則依賴于框架級工具，例如 XLA、IREE 等，它們通過高級編譯技術(shù)優(yōu)化 AI 模型，并支持跨平臺部署。

Michael 特別強調(diào)了 Python 作為 AI 開發(fā)語言的重要性。Python 因其易用性和廣泛的庫支持，成為 AI 研究的“普通話”。然而，由于 Python 的運行速度較慢，許多計算密集型任務(wù)被轉(zhuǎn)移到 C++ 等底層語言中執(zhí)行。種種原因驅(qū)使下，這導(dǎo)致 Chris Lattner 創(chuàng)建了新的 AI 語言 Mojo，結(jié)合 Python 的解釋性和 C++ 的性能優(yōu)化，并基于 MLIR 構(gòu)建，能夠調(diào)度多種硬件設(shè)備。Mojo 結(jié)合了一些類似Rust 的安全特性，例如默認不可變性和更高的代碼安全性。Mojo 不僅僅是為 AI 設(shè)計的一種語言，Michael 認為它甚至可能成為下一代系統(tǒng)語言，潛在取代 C++ 的地位。

隨后，Michael 進一步探討了邊緣 AI 的框架及其優(yōu)化。例如，ExecuTorch 和 TensorFlow Lite分別針對移動設(shè)備和嵌入式系統(tǒng)進行了特別設(shè)計，用以滿足資源受限場景的需求。同時，他指出，框架的互操作性至關(guān)重要，例如 ONNX 支持 AI 模型的互操作性和跨平臺部署。PolyBlocks 和 TVM 等編譯器也在優(yōu)化高維數(shù)據(jù)處理和端到端部署方面表現(xiàn)出色。

他還提到，硬件加速語言如 CUDA、ROCm 和 SYCL，以及圖形 API 如 Vulkan 和 OpenVX，在提升 AI 計算性能方面發(fā)揮了重要作用。新興技術(shù)如 Triton、IREE 和 MLIR 則通過增強跨平臺兼容性和優(yōu)化能力，正在塑造 AI 的未來。

Michael 展望了 AI 未來發(fā)展的幾個方向，包括量子加速、神經(jīng)形態(tài)計算、綠色計算和邊緣 AI等。他指出，AI 生態(tài)系統(tǒng)的標準化和互操作性將是推動創(chuàng)新的關(guān)鍵，而開發(fā)更易用的 AI 語言和生態(tài)系統(tǒng)，將為研究者和開發(fā)者帶來更多機遇。最后，他鼓勵開發(fā)者采用最佳實踐，如結(jié)合多種優(yōu)化技術(shù)、利用硬件特定庫，以及在框架級和運行時層面進行性能調(diào)優(yōu)。

劉廣：Infinity Instruct: 合成指令技術(shù)的探索

本次大會上，智源基礎(chǔ)數(shù)據(jù)研究組負責(zé)人劉廣發(fā)表了《Infinity Instruct: 合成指令技術(shù)的探索》的主題演講。他指出，指令數(shù)據(jù)集的發(fā)展與模型技術(shù)相比進展相對滯后。研究表明，大模型性能的提升高度依賴于高質(zhì)量的數(shù)據(jù)。然而，人類生成數(shù)據(jù)可能會在 2028 年前達到“數(shù)據(jù)墻”的瓶頸，尤其是高質(zhì)量指令數(shù)據(jù)在生成速度和存量上都面臨嚴峻的限制。

劉廣智源基礎(chǔ)數(shù)據(jù)研究組負責(zé)人

劉廣強調(diào)，Infinity Instruct 項目正是為了解決這一難題而啟動。團隊整合了超過1億條現(xiàn)有開源數(shù)據(jù)，構(gòu)建了一套兩級標簽體系，用于全面刻畫指令數(shù)據(jù)的深度與廣度。一級標簽覆蓋 26 個大類能力，例如數(shù)學(xué)計算、編程能力和自然語言處理；二級標簽則細化為超過 1.5 萬個任務(wù)類別，精準描述完成各類指令所需的知識與技能。這一標簽體系不僅提升了數(shù)據(jù)篩選的效率，還為數(shù)據(jù)分析與優(yōu)化提供了科學(xué)的依據(jù)。

在數(shù)據(jù)篩選過程中，Infinity Instruct 團隊通過統(tǒng)一格式、去重和質(zhì)量過濾等步驟，從 1 億多條數(shù)據(jù)中篩選出 740 萬條高質(zhì)量基礎(chǔ)能力指令數(shù)據(jù)。此外，他們還基于模型能力缺陷的診斷，補充生成了約 150 萬條復(fù)雜對話指令數(shù)據(jù)。這些數(shù)據(jù)涵蓋數(shù)學(xué)、代碼和通用知識領(lǐng)域，成為支持多任務(wù)模型訓(xùn)練的重要基礎(chǔ)。

Infinity Instruct 當前也對指令數(shù)據(jù)的質(zhì)量提出了明確的定義，強調(diào)廣度和深度的重要性。廣度要求數(shù)據(jù)能夠覆蓋用戶可能提出的所有問題，包括日常對話、學(xué)術(shù)推理和復(fù)雜問題解決等不同場景；深度則指數(shù)據(jù)在知識和能力上的綜合性，尤其是應(yīng)對多維度復(fù)雜任務(wù)的能力。劉廣表示，相比現(xiàn)有僅基于數(shù)據(jù)來源或任務(wù)類型分類的局限，Infinity Instruct 通過兩級標簽體系實現(xiàn)了對數(shù)據(jù)的系統(tǒng)優(yōu)化，不僅能夠更全面地覆蓋長尾任務(wù)，還能確保模型能夠應(yīng)對復(fù)雜問題的挑戰(zhàn)。

在提升模型能力方面，Infinity Instruct 采用了先進的合成技術(shù)。團隊以高質(zhì)量的種子數(shù)據(jù)為基礎(chǔ)，通過進化算法優(yōu)化模型的泛化能力，并針對小規(guī)模測試中發(fā)現(xiàn)的能力缺陷生成相應(yīng)數(shù)據(jù)。合成過程經(jīng)過多輪迭代，每輪結(jié)合驗證結(jié)果對生成策略進行調(diào)整，從而確保數(shù)據(jù)的多樣性和精準性。

數(shù)學(xué)推理領(lǐng)域的 Infinity Math 項目進一步推動了合成技術(shù)的發(fā)展。該團隊通過形式化表達，將自然語言描述的數(shù)學(xué)問題轉(zhuǎn)化為通用模板，并利用程序化解法生成數(shù)值精確的數(shù)據(jù)。這種方式允許在固定模板下，通過變量替換生成無限擴展的數(shù)據(jù)，大幅豐富了模型訓(xùn)練所需的數(shù)據(jù)池。

劉廣還提到，高質(zhì)量數(shù)據(jù)不僅在知識廣度和任務(wù)復(fù)雜性上提出了挑戰(zhàn)，同時涉及與人類偏好的對齊問題?，F(xiàn)有偏好體系通常使用固定權(quán)重評分，忽略了不同任務(wù)在偏好權(quán)重上的差異。例如，在數(shù)學(xué)推理任務(wù)中，“正確性”的權(quán)重遠高于“連貫性”，而在創(chuàng)意寫作中，“連貫性”或“冗余性”的權(quán)重則更為重要。針對這一問題，Infinity Instruct 提出了任務(wù)粒度的偏好建模方法，為不同任務(wù)分配不同的權(quán)重分布，幫助模型更好地理解人類偏好的復(fù)雜性。通過獎勵模型和任務(wù)權(quán)重學(xué)習(xí)，該方法顯著提升了模型在多任務(wù)場景下的表現(xiàn)。

現(xiàn)如今，隨著多模態(tài)任務(wù)需求的增長，單一模態(tài)數(shù)據(jù)難以滿足模型在圖片、視頻和文本多形態(tài)融合上的需求。為此，團隊開發(fā)了 Infinity-MM 數(shù)據(jù)集，這一千萬級規(guī)模的數(shù)據(jù)集整合了圖片與文本指令數(shù)據(jù)，并通過先進的合成技術(shù)生成了大約800K條多輪對話訓(xùn)練指令。這些數(shù)據(jù)顯著提升了多模態(tài)模型的推理能力，使其在多個任務(wù)評測中超越了現(xiàn)有開源數(shù)據(jù)集的表現(xiàn)。

吳凌翔：多模態(tài)大模型的實踐與思考

自 ChatGPT 問世以來，對話系統(tǒng)發(fā)生了巨大變革。在當今智能算法的支持下，機器不僅能理解人類語言的意圖，還能通過高效的人機交互完成特定任務(wù)或給出回應(yīng)。人類的學(xué)習(xí)和交流過程涉及豐富的多模態(tài)信息，如何有效利用這些信息，中國科學(xué)院自動化研究所副研究員、武漢人工智能研究院算法總監(jiān)吳凌翔以“紫東太初多模態(tài)大模型”為例進行了深入分享。

吳凌翔中國科學(xué)院自動化研究所副研究員、武漢人工智能研究院算法總監(jiān)

吳凌翔表示，于 2021 年發(fā)布的紫東太初 1.0 多模態(tài)大模型首次引入了多任務(wù)多模態(tài)自監(jiān)督學(xué)習(xí)框架，涵蓋從 Token 級、模態(tài)級到樣本級的學(xué)習(xí)方法，成功打造了一個能夠處理文本、圖像和聲音的三模態(tài)大模型。隨著技術(shù)的演進，紫東太初 2.0 版進一步發(fā)展了全模態(tài)多任務(wù)統(tǒng)一生成式學(xué)習(xí)架構(gòu)，采用全模態(tài)分組對齊、分組解碼及聯(lián)合解碼的技術(shù)，實現(xiàn)了全模態(tài)的低成本協(xié)同優(yōu)化學(xué)習(xí)，此版本還新增了信號、3D、視頻等模態(tài)，增強了模型處理和解析信息的能力。

除此之外，吳凌翔分享了團隊在多模態(tài)大模型方面的幾項創(chuàng)新成果：

首先是可變形視覺 Transformer 模型，它通過預(yù)測每個局部塊的空間位置和大小，克服了傳統(tǒng)固定滑塊導(dǎo)致的語義結(jié)構(gòu)不完整的問題。
其次是對比掩碼自監(jiān)督模型，該模型對圖像進行動態(tài)掩碼，突破學(xué)習(xí)性能弱表征單一的瓶頸，并大幅度提升收斂效率。
此外，還有數(shù)據(jù)魯棒自監(jiān)督模型，它通過對圖像提取目標框，挖掘場景-目標之間的潛在關(guān)系，擺脫以單目標為中心的圖像束縛，突破學(xué)習(xí)算法通用性差的問題。
在視覺與語言結(jié)合的研究方面，該團隊致力于語言引導(dǎo)的多任務(wù)統(tǒng)一編碼，旨在通過語言指導(dǎo)提升模型對多模態(tài)信息的局部感知能力。
同時，還開發(fā)了視覺-文本雙指代統(tǒng)一大模型，該模型具備定位、分割、計數(shù)和區(qū)域描述等能力，能夠高效壓縮高分辨率視覺編碼，減少計算復(fù)雜度，并通過設(shè)計視覺提示分支增強模型的視覺查詢功能。

如今“紫東太初多模態(tài)大模型”在智慧政務(wù)、智能客服、智慧交通、智慧金融等多個領(lǐng)域得到廣泛應(yīng)用。

不過，吳凌翔指出，盡管當前多任務(wù)泛化型 AI 系統(tǒng)已在多個任務(wù)上表現(xiàn)優(yōu)異，但要實現(xiàn)真正的通用 AI 仍需克服諸多挑戰(zhàn)，比如提高能效比、解決實際應(yīng)用場景中的復(fù)雜問題等。未來，吳凌翔表示，具身智能、腦科學(xué)與 AI 的融合以及跨學(xué)科合作等方向都具有探索的機會。

魚哲：生成式 AI 落地對架構(gòu)帶來的挑戰(zhàn)與機遇

在《生成式 AI 落地對架構(gòu)帶來的挑戰(zhàn)與機遇》的演講中，Lepton AI 創(chuàng)始成員魚哲深入探討了生成式 AI 的核心目標和挑戰(zhàn)。他指出，AI 可以被視為一種旨在模仿和增強人類智能的技術(shù)體系，使機器能夠完成通常需要人類智慧才能完成的任務(wù)，包括但不限于學(xué)習(xí)、推理、問題解決、知識表示和規(guī)劃等。

魚哲 Lepton AI 創(chuàng)始成員

在生成式 AI 的落地過程中，有兩個關(guān)鍵點值得特別關(guān)注：一是最大化機會（Maximize the chances），通過多種方法提升機器完成任務(wù)的可能性。在此過程中，魚哲引入“顆粒度”（Granularity）的概念，用來衡量操作模型的細致程度。例如，高顆粒度場景需要高度精細的指導(dǎo)，如代碼生成；而低顆粒度場景對細節(jié)的要求較低。二是選擇任務(wù)（Choose the goal），為 AI 分配適合的任務(wù)時必須考慮“責(zé)任度”（Accountability）。在高責(zé)任度場景下（如醫(yī)療診斷或金融咨詢），準確性至關(guān)重要，任何錯誤都可能帶來嚴重后果。

基于“顆粒度”和“責(zé)任度”兩個維度，魚哲將 AI 的應(yīng)用場景劃分為四個象限，揭示了不同應(yīng)用場景的需求和挑戰(zhàn)：

1. 第一象限：高顆粒度 + 高責(zé)任度

典型應(yīng)用：醫(yī)療診斷、企業(yè)生產(chǎn)中的關(guān)鍵任務(wù)。

這些場景中，任何錯誤都可能導(dǎo)致嚴重后果?？蛻絷P(guān)注的首要因素是模型的選擇（Choice of Models），他們往往希望盡快嘗試各種不同模型以應(yīng)對模型更新迭代的快速變化。其次是生成速度（Speed of Generation），因為速度直接影響應(yīng)用效果；最后才是生成成本（Cost of Generation），這通常在高責(zé)任度場景中不是首要考慮。

2. 第二象限：低顆粒度 + 高責(zé)任度

典型應(yīng)用：通用搜索、語音生成、語音識別等比較標準化的場景。

在這些場景中，AI 應(yīng)用的操作復(fù)雜度較低，但對結(jié)果可靠性的要求極高。生成速度和生成成本是客戶最為關(guān)注的因素。魚哲提到，例如 Eleven Labs 的語音生成，其生成成本在市場中備受關(guān)注，尤其是在需要實時響應(yīng)的場景中。

3. 第三象限：低顆粒度 + 低責(zé)任度

典型應(yīng)用：藝術(shù)創(chuàng)作、娛樂內(nèi)容生成。

這類應(yīng)用對結(jié)果準確性要求較低，用戶對偏差具有較高容忍度。AI 在此主要用于提升娛樂性和創(chuàng)造力。企業(yè)在這一象限往往處于嘗試不同模型的階段，其次才會關(guān)注生成成本和速度。

4. 第四象限：高顆粒度 + 低責(zé)任度

典型應(yīng)用：虛擬角色互動。

這些場景需要頻繁交互和調(diào)整，但對結(jié)果的精準度要求較低。例如，與游戲中的虛擬角色互動，用戶可以多次嘗試直到獲得滿意的結(jié)果?？蛻絷P(guān)注的重點依次是模型選擇、生成速度和生成成本。在這個象限中，模型仍處于快速推陳出新的階段。

結(jié)合以上生成式 AI 落地的機遇與挑戰(zhàn)，魚哲總結(jié)了硅谷許多成功 AI 初創(chuàng)企業(yè)的共同特征：

1. 領(lǐng)域知識（Domain Know-how）：對應(yīng)用場景和用戶需求有深刻理解。

2. 數(shù)據(jù)積累（Data）：擁有豐富的行業(yè)數(shù)據(jù)，為模型訓(xùn)練和優(yōu)化提供基礎(chǔ)。

3. 快速上市（Time to Market）：能夠迅速響應(yīng)市場需求并快速迭代產(chǎn)品。

4. 基礎(chǔ)設(shè)施（Infrastructure）：以穩(wěn)健的基礎(chǔ)設(shè)施支撐產(chǎn)品擴展和升級。

魚哲認為，這些要素是生成式 AI 在激烈競爭中取得成功的關(guān)鍵，也是推動技術(shù)落地和行業(yè)變革的重要動力。

孟令公：大模型推理性能提升實踐

隨著大模型規(guī)模的不斷增大，如何高效進行推理成為亟待解決的問題。得物機器學(xué)習(xí)高級專家孟令公在《大模型推理性能優(yōu)化與實踐》主題演講中指出，許多公司在訓(xùn)練并部署大模型后，需要專用的大模型推理引擎來加速推理過程。用戶發(fā)送請求時，首先傳遞給應(yīng)用程序，而應(yīng)用程序會調(diào)用大模型推理引擎觸發(fā)推理邏輯。推理引擎的核心目標是提升推理速度和吞吐量，同時兼容多種大模型（如 Llama 系列、千問系列等）和硬件（如 GPU、CPU、NPU）。

孟令公得物機器學(xué)習(xí)高級專家

孟令公分享道，大模型推理引擎的核心模塊包括調(diào)度器、KV Cache管理、Prefill階段和Decode階段，這些模塊是性能優(yōu)化的關(guān)鍵。

KV Cache的引入使得每個推理請求能夠維護歷史Key-Value緩存，以支持前向傳播和自回歸生成。通過緩存先前時間步的鍵和值，可以避免在每個時間步重復(fù)計算先前的注意力內(nèi)容，從而大幅提升生成效率。然而，隨著生成 Token 數(shù)量的增加，KV Cache 的顯存占用不斷增大。孟令公指出，頻繁的申請與釋放可能導(dǎo)致顯存碎片化，這類似于傳統(tǒng)內(nèi)存管理中的問題。

為了解決這一問題，VLLM推理引擎在實踐中引入了Paged Attention技術(shù)作為解決方案。Paged Attention是一種受操作系統(tǒng)虛擬內(nèi)存和分頁啟發(fā)的算法，通過將注意力的鍵和值緩存分成固定大小的頁，并以非連續(xù)方式存儲，從而高效管理顯存，減少碎片，提高吞吐量。此外，該技術(shù)支持多序列共享內(nèi)存，例如在并行采樣時共享提示詞緩存，進一步降低顯存開銷并提升性能。由于采用了Paged Attention，vLLM的吞吐量比 Hugging Face高8.5倍至15倍。

此外，孟令公表示，在多輪對話場景中，大模型推理常面臨上下文高重復(fù)性的問題。用戶的每次請求中往往包含大量重復(fù)的 Prompt 內(nèi)容，而這些重復(fù)部分的重復(fù)計算會導(dǎo)致資源浪費和響應(yīng)延遲的增加。為了解決這個問題，SGLang推理引擎還引入了一種名為Radix Attention的方法來優(yōu)化顯存管理。Radix Attention通過對重復(fù)Prompt 部分的高效緩存管理，在高并發(fā)場景下保持了更低的響應(yīng)延遲。這種優(yōu)化特別適合多輪對話、少樣本學(xué)習(xí)等場景，因為這些場景中輸入內(nèi)容的重復(fù)性較高，通過緩存復(fù)用可以極大提升GPU資源的利用效率。

推理引擎的優(yōu)化不僅依賴于緩存管理，還需要在推理過程中的兩個關(guān)鍵階段——Prefill和Decode——進行優(yōu)化。

Prefill階段：引擎對輸入Prompt進行批量計算，該階段具有并行計算的特點，能夠充分利用GPU資源。通過Chunk Prefill技術(shù)，將長Prompt拆分為若干固定長度的小塊（如512個Token）逐塊處理，可以避免GPU 資源長時間被單個請求占用。此外，Prefill階段與Decode階段可以并行處理，從而進一步提高QPS。
Decode 階段：自回歸地逐個生成新的Token。由于生成的每個Token依賴于之前的輸出，因此Decode階段通常是串行的，效率受限。優(yōu)化Decode的關(guān)鍵在于Batching和Speculative Decoding。通過Batching將多個Decode 請求合并成批次提交GPU進行處理，可以提高利用率，避免單個請求導(dǎo)致的資源閑置。Speculative Decoding 則通過引入較小的草稿模型快速生成候選Token序列，再利用目標大模型驗證其準確性，從而降低響應(yīng)延遲。

在部署大模型時，多業(yè)務(wù)場景下的資源消耗也是一個挑戰(zhàn)。孟令公提到，得物采用了多LoRA技術(shù)以節(jié)省大模型部署成本。LoRA方法將大模型的參數(shù)矩陣拆分為兩個低秩矩陣，僅對其進行微調(diào)生成參數(shù)文件。在實際部署中，可以加載多個 LoRA文件并復(fù)用基礎(chǔ)大模型，從而在一塊顯卡上同時支持多個業(yè)務(wù)場景，對推理速度和吞吐量的影響幾乎可以忽略。

此外，模型層的優(yōu)化也是性能提升的重要方向。例如，通過 AWQ（Accurate Weight Quantization）和 GPTQ（Generalized Post-training Quantization）對模型進行量化，可以在保持性能的同時減少模型體積和計算量。而底層庫的優(yōu)化，如使用 PyTorch2.0 的 Torch Compile 和 NVIDIA 的 CUDA Graph 技術(shù)，則進一步提升了 GPU 性能。

彭厚文：騰訊混元多模態(tài)技術(shù)實踐與思考

多模態(tài)技術(shù)已成為生成式 AI 中不可避開的重要領(lǐng)域，其核心在于通過對不同模態(tài)數(shù)據(jù)的理解和協(xié)同處理，實現(xiàn)跨模態(tài)信息的融合與生成。在本次大會上，騰訊混元多模態(tài)模型技術(shù)專家彭厚文帶來了《騰訊混元多模態(tài)大模型技術(shù)實踐與思考》的主題演講。彭厚文透露，騰訊混元團隊目前正專注于文本、圖像、視頻、音頻四個模態(tài)生成技術(shù)的研發(fā)。

騰訊混元多模態(tài)模型負責(zé)人彭厚文

其中，彭厚文以圖視生文為例，詳細介紹了騰訊混元團隊在這一維度的最新進展與技術(shù)細節(jié)。他表示，騰訊混元的多模態(tài)圖視生文模型主要包括三大的部分：

視覺編碼器：采用 Vision Transformer (ViT)，不僅能處理圖片，還能處理視頻，通過參數(shù)復(fù)用來理解多張圖片或多幀視頻。

視覺-語言適配器：作為連接視覺和語言模型的橋梁，幫助模型理解不同模態(tài)間的關(guān)系。

大語言模型：作為信息處理的中樞，采用 MoE 架構(gòu)，以增強模型的擴展性和處理多模態(tài)數(shù)據(jù)的能力。

在整個預(yù)訓(xùn)練階段，彭厚文指出，騰訊混元大模型的數(shù)據(jù)來源非常豐富，包含圖片、文本、視頻、多圖及網(wǎng)頁端等多種數(shù)據(jù)源。同時，采用多階段預(yù)訓(xùn)練策略，針對不同模態(tài)，采用不同數(shù)據(jù)進行訓(xùn)練，逐步提升模型性能。

在后訓(xùn)練階段，主要涉及精調(diào)，構(gòu)建高質(zhì)量的指令數(shù)據(jù)，涵蓋基礎(chǔ)識別、OCR、圖表、數(shù)學(xué)、代碼等多個領(lǐng)域，通過細致分類確保模型覆蓋廣泛的應(yīng)用場景。在數(shù)據(jù)處理維度，則主要使用包括預(yù)處理、篩選、去重、泛化等步驟，以確保數(shù)據(jù)的質(zhì)量和多樣性。

在研發(fā)多模態(tài)大模型的過程中，彭厚文結(jié)合騰訊混元的實踐經(jīng)驗，分享了幾個維度的技術(shù)思考：

數(shù)據(jù)。數(shù)據(jù)的質(zhì)量比數(shù)量更重要，數(shù)據(jù)的多樣性也至關(guān)重要。然而，高質(zhì)量的數(shù)據(jù)難以獲取，因此需要合成大量高質(zhì)量的數(shù)據(jù)，包括對真實數(shù)據(jù)的改寫、擴充和思維鏈的合成。為了覆蓋更多復(fù)雜的指令，通過合成方法使指令數(shù)據(jù)分布更接近用戶的真實需求。在整個研發(fā)過程中，還需要構(gòu)建高效的自動化數(shù)據(jù)獲取和處理鏈路，提升研發(fā)效率。

模型結(jié)構(gòu)。騰訊混元團隊主要采用了 MoE 架構(gòu)作為多模態(tài)的基座，其中主要原因是，在相同的訓(xùn)練成本下，MoE 性能優(yōu)于稠密模型，且具有更好的擴展性，能夠融合多種模態(tài)。

模型訓(xùn)練：目前多模態(tài)大模型的訓(xùn)練大多是分階段訓(xùn)練，即不同模塊分階段訓(xùn)練，從低分辨率到高分辨率，從較高質(zhì)量數(shù)據(jù)到更高質(zhì)量數(shù)據(jù)，提高訓(xùn)練效率。

模型推理。彭厚文表示，模型推理最重要的目標是減少延時，增加并發(fā)。在推理優(yōu)化方面，為了提高多模態(tài)模型的推理效率，引入了 KV Cache 壓縮。同時，還采用引入量化技術(shù)、Prefilling 等技術(shù)，來提升推理速度和效率，縮短用戶體感的首次響應(yīng)時間。

強化學(xué)習(xí)中的偏好對齊：在強化學(xué)習(xí)中，目前有兩種主要的方法，一種是離線的強化學(xué)習(xí)，一種是在線的強化學(xué)習(xí)。離線的強化學(xué)習(xí)訓(xùn)練更加穩(wěn)定，但方法泛化性較弱；在線的強化學(xué)習(xí)泛化性更強，因此大多數(shù)情況下會采用在線的強化學(xué)習(xí)。彭厚文表示，在線的強化學(xué)習(xí)中，準確、及時、精確的獎勵反饋對于驅(qū)動大模型能力的提升非常關(guān)鍵。

模型評測：如今行業(yè)廣泛關(guān)注并使用公開Benchmark進行評測，但 Benchmark 評測存在一定程度的偏差，與真實用戶場景不同。因此，混元大模型不僅關(guān)注 Benchmark 評測，還會采用真實用戶進行 AB 測試，覆蓋不同場景和維度，確保模型對齊真實用戶需求。

目前，騰訊混元多模態(tài)大模型已在騰訊內(nèi)部 700 多個業(yè)務(wù)場景中廣泛應(yīng)用，包括廣告理解、短視頻多模態(tài)理解、搜索、內(nèi)容審核等領(lǐng)域。面向未來，彭厚文表示，騰訊混元團隊將從兩個維度進一步推進多模態(tài)大模型的發(fā)展：

廣度：繼續(xù)研發(fā)全模態(tài)大模型，覆蓋更多模態(tài)，設(shè)計統(tǒng)一的多模態(tài)模型架構(gòu)。
深度：提升模型的智能和可靠性，探索智能的邊界，實現(xiàn)模型自我進化。

圓桌對話：大模型系統(tǒng)技術(shù)實踐

在最后的圓桌對話環(huán)節(jié)中，智源基礎(chǔ)數(shù)據(jù)研究組負責(zé)人劉廣、智譜 AI CodeGeeX 高級算法工程師張少博、快手科技快意大模型知識增強研發(fā)負責(zé)人毛航宇、Dify 首席架構(gòu)師姜勇，在 Boolan 首席咨詢師李沫南的主持下，圍繞“大模型系統(tǒng)技術(shù)實踐”展開了深入分享，涵蓋了系統(tǒng)能力劃分、開發(fā)工具鏈的不足以及大模型的實際應(yīng)用方向等核心議題。

張少博在分享中提到，大模型系統(tǒng)能力的設(shè)計應(yīng)注重功能的可重復(fù)性與工程化特質(zhì)。那些不需要頻繁調(diào)整、不會對系統(tǒng)或數(shù)據(jù)造成不可逆影響的操作，適合被集成到系統(tǒng)底層，以此提升效率和穩(wěn)定性。與此同時，用戶的自定義需求則應(yīng)交由開發(fā)者靈活處理。例如，在智譜清言平臺，涉及到內(nèi)容生成、定制化操作以及代碼插件（如代碼生成或解釋功能）的場景，可以將這些操作封裝成標準化的工程模塊。這種方法不僅能優(yōu)化開發(fā)流程，還能確保操作的統(tǒng)一性和可靠性，為系統(tǒng)建設(shè)提供了可行的方向。

劉廣則從數(shù)據(jù)處理的角度分析了大模型現(xiàn)有開發(fā)工具鏈中面臨的痛點。他指出，大模型開發(fā)正在經(jīng)歷從以人為中心向以模型為中心轉(zhuǎn)變的過程，數(shù)據(jù)標注逐漸由人工向自動化過渡。然而，目前缺乏系統(tǒng)化的解決方案來高效管理大規(guī)模數(shù)據(jù)標注和模型驗證。盡管一些基于工作流的工具能夠輔助完成初步任務(wù)，但當這些工具需要與數(shù)據(jù)庫、工作流、大模型和多模態(tài)模型結(jié)合進行多集群部署和推理時，數(shù)據(jù)處理流程的復(fù)雜性顯著增加。這種系統(tǒng)化的缺失，不僅對效率造成影響，還在數(shù)據(jù)一致性管理上形成了阻礙。

毛航宇圍繞大模型的應(yīng)用場景提出了深入見解。他認為，大模型雖在多個領(lǐng)域表現(xiàn)出強大潛力，但應(yīng)用場景的選擇應(yīng)基于模型當前的實際能力，如理解、生成、推理和決策等。在此基礎(chǔ)上，可以按照 ToC（面向消費者）和 ToB（面向企業(yè)）的方向進一步細分應(yīng)用領(lǐng)域，明確大模型適合覆蓋的場景。不過，他指出，盡管近年來關(guān)于大模型編程的討論備受關(guān)注，但能夠?qū)嶋H落地的商業(yè)編程工具并不多，主要原因在于編程任務(wù)超出了當前模型的能力范圍，譬如定義變量時可以選擇無數(shù)個名稱（如a、b、ab等），這導(dǎo)致代碼非常容易出現(xiàn)幻覺時，倘若代碼量達到數(shù)千行，找到潛在的 Bug 將變得極其困難。相比之下，AI Agent 具備較高的適配性，因為任務(wù)中的參數(shù)和 API 使用通常是事先明確的，具有較高的結(jié)構(gòu)化特點，是大語言模型最有潛力的應(yīng)用方式之一。

姜勇則持有不同的看法。他表示，在現(xiàn)代編程實踐中，代碼自動補全等工具已成為開發(fā)者的重要助手，而大模型可以在已有代碼基礎(chǔ)上，根據(jù)明確需求生成代碼片段，大幅提升開發(fā)效率。同時，大模型也可以進一步在企業(yè)知識庫管理方面具有獨特優(yōu)勢。例如，會議記錄的自動整理和歸檔可以顯著提升企業(yè)的信息管理效率，幫助企業(yè)在數(shù)字化轉(zhuǎn)型過程中更高效地管理大量文檔。此外，他還指出，人們對大模型的期望有時過于苛刻，追求其輸出的絕對正確性。事實上，許多應(yīng)用場景并不需要 100% 準確率。如果大模型能將工作量減少 60%，已是非常有價值的突破。大模型的真正意義在于提升效率，即使不能完全解決問題，顯著減輕人工負擔也是一個巨大的進步。

（來源CSDN）

標簽：大語言模型

我要反饋