1月27日一早,DeepSeek在中國區(qū)和美國區(qū)蘋果App Store免費榜上同時沖到了下載量第一,超過原先霸榜的ChatGPT,這也是國產(chǎn)應用首次實現(xiàn)這一成就。而半個月前(1月11日),DeepSeek的App才剛剛上線iOS和安卓的應用市場。
當天晚些時候,DeepSeek應用程序開始出現(xiàn)宕機。公司稱其服務受到了大規(guī)模惡意攻擊,因此將暫時限制新用戶注冊。當晚開盤的美國科技股則集體大跌——費城半導體指數(shù)(SOX)下跌9.2%,創(chuàng)下2020年3月以來的最大跌幅。其中英偉達股價下跌近17%,市值蒸發(fā)近6000億美元,規(guī)模創(chuàng)美股史上最大。此外,博通、臺積電、ASML、Google和微軟也分別跌了17.4%、13%、7%、4%和2.14%。就連WTI原油盤中也一度下挫3%,因為有交易員認為,如果大模型的訓練和推理不再需要那么多算力,那么數(shù)據(jù)中心的電力需求也會減少,自然也不需要那么多石油來發(fā)電。
▲DeepSeek稱DeepSeek-R1模型在各項能力上追平OpenAI o1。
DeepSeek是一家位于杭州的大模型公司,2023年才創(chuàng)立。2024年年中之前,這家公司并沒有引起市場多少關注。但2024年最后一個月,它密集發(fā)布了多個模型。其中圣誕節(jié)后發(fā)布的名為DeepSeek-V3(以下簡稱「V3」)的模型,宣稱在性能上「相當于」業(yè)界領先的閉源模型GPT-4o與Claude-3.5-Sonnet,「優(yōu)于」最好的開源模型Meta的Llama 3,且總訓練成本僅為557.6萬美元,這個數(shù)字只有(據(jù)估計投資超過5億美元)前者的1%;臨近2025年農(nóng)歷春節(jié)的1月20日,它又發(fā)布了一個名為DeepSeek-R1(以下簡稱「R1」)的模型,同樣的,DeepSeek在論文中聲稱R1模型「在一系列任務上實現(xiàn)了與OpenAI o1相當?shù)男阅堋埂?/p>
1月29日,彭博社引述要求不具名的知情人士報道,稱微軟的安全研究人員在2024年秋季發(fā)現(xiàn)DeepSeek的員工使用OpenAI的API竊取了大量數(shù)據(jù),言下之意是這些數(shù)據(jù)可能被用來訓練V3或R1模型。然而OpenAI明確規(guī)定不允許其他公司使用其模型生成的數(shù)據(jù)訓練模型,2023年年中,字節(jié)跳動就曾因類似行為與OpenAI發(fā)生摩擦。目前DeepSeek暫未對此言論發(fā)表回復。
麻煩不止于此,同日意大利當局要求 DeepSeek 提供有關該公司如何處理用戶數(shù)據(jù)的信息,DeepSeek將有20天時間來準備答復,目前DeepSeek已從意大利地區(qū)蘋果和Google的應用商店下架了應用。
外界對于DeepSeek仍存在大量質(zhì)疑,比如其模型是否只是美國先進模型的蒸餾模型、其創(chuàng)新是否真的重要,以及美國科技股是否反應過度。這些問題DeepSeek其實在技術報告中基本都回答了。
1. DeepSeek引起的全球技術圈恐慌是如何形成的?
1月27日的市場震蕩比DeepSeek在模型論文中發(fā)表的驚人數(shù)據(jù)晚了差不多一個月。直到2025達沃斯論壇(1月20日至24日)上,雖然已有不少人談起DeepSeek,但意見也多為保守或充滿質(zhì)疑的。比如DeepMind首席執(zhí)行官Demis Hassabis就在達沃斯聲稱,DeepSeek的模型的確有些「出人意料」,但他表示「對DeepSeek模型的工作原理并不確定,包括它在多大程度上依賴其他美國公司模型的結果」。
在這種懷疑「V3是個蒸餾模型——蒸餾了美國的前沿模型」的觀點之外,另外一種不愿相信DeepSeek成果的聲音代表來自Scale AI的首席執(zhí)行官Alexandr Wang。他在接受CNBC采訪時聲稱,DeepSeek擁有5萬塊英偉達最先進的AI芯片H100,言下之意是DeepSeek違反了美國的芯片禁運政策,才取得了模型突破。由于芯片管制,2022年秋季起,英偉達就不再向中國市場提供其最高端的AI芯片H100,取而代之的產(chǎn)品是內(nèi)存和帶寬都更受限的H800——性能僅為H100的一半。
然而與此同時,Meta員工在匿名網(wǎng)站稱,DeepSeek僅用1%的投入就實現(xiàn)了超越Llama 3的性能這件事,已經(jīng)使公司AI團隊陷入恐慌,特別是考慮到公司正在訓練的下一代模型Llama 4的預期投入比Llama 3還要貴好幾倍。技術媒體The Information緊接著報道稱,Meta成立了4個專門研究小組來研究DeepSeek的工作原理,并基于此來改進Llama。在V3發(fā)布之前,Llama是全球能力最強的開源模型,直到V3發(fā)布后取而代之。
如果只有V3的效率,DeepSeek可能并不能引起足夠注意。1月20日發(fā)布的R1模型為DeepSeek的熱度添了重要的一把火——這是一個類o1的推理模型,并且即刻就能在應用程序中體驗到。與ChatGPT等其他聊天機器人的不同之處在于,DeepSeek的同名聊天機器人在回應用戶提問時,會將思維鏈條(Chain of Thought,CoT)完全展示出來,其作為機器人認真揣摩用戶需求、試圖將用戶所有說出口或隱晦表達的情緒都安慰到位的「內(nèi)心活動」激發(fā)了大量用戶的熱情。商業(yè)的本質(zhì)在于創(chuàng)造稀缺,無論在人類成員還是AI成員中,共情能力都是稀缺品。
▲DeepSeek在自言自語時更有「人味」。
CoT是類o1模型都在發(fā)展的一項能力,人類差不多也是如此進行推理的。然而這類思考過程同時也是各人工智能公司想要保密的重要數(shù)據(jù)資產(chǎn)。如果你在ChatGPT中詢問它的o1模型是如何思考的,幾次之后,OpenAI可能就會發(fā)郵件給你警告要撤銷你的賬號了。
風險投資機構Andreessen Horowitz (a16z)的創(chuàng)始人安德森(Marc Andreessen)對R1的描述是「人工智能的Sputnik時刻」,Sputnik是蘇聯(lián)于1957年首次發(fā)射的人造衛(wèi)星。另外一些人則稱DeepSeek這一系列模型的發(fā)布是美國AI界的「珍珠港事件」。意思是作為全球人工智能領域的技術高地,美國正在失去自己所建構的AI商業(yè)模式和技術護城河。
2. DeepSeek-V3到底取得了怎樣的突破?
DeepSeek的突破來自于兩個層面:低成本和推理能力。其中,V3的突破主要在于訓練成本和計算效率,R1開辟了訓練推理模型的新路徑。
具體來說,V3的采用了優(yōu)于傳統(tǒng)MoE(專家模型)架構的DeepSeekMoE架構,以及優(yōu)于傳統(tǒng)多頭注意力(MHA)的DeepSeekMLA(多頭潛在注意力)。
● DeepSeekMoE(Mixture of Experts,混合專家)
傳統(tǒng)稠密模型,比如GPT-3.5,在訓練和推理過程中激活全部參數(shù)。然而事實上,并非模型的每個部分都是當前任務所必需的。因此,MoE的理念是將模型區(qū)分為多個「專家」,推理時只激活對任務必要的專家。GPT-4也是一個MoE模型,據(jù)說有超過1.67萬億個參數(shù),其中大部分參數(shù)分布在16個專家模塊(如FFN層)中,每次完成特定任務時,大約一到兩個專家會被激活,所以大大降低了計算量。DeepSeek的V3擁有6710億參數(shù),其中活躍專家中的參數(shù)總和為370億。
DeepSeek在V3模型論文中稱,相較于傳統(tǒng)MoE,DeepSeekMoE使用了「更細粒度」的專家,使專家更加專門化,單個專家僅數(shù)十億參數(shù),提升了任務適配性;同時,DeepSeekMoE將一些專家隔離為「共享專家」,用于減輕專家之間的知識冗余,從而使V3模型在激活相同數(shù)量專家和參數(shù)的情況下表現(xiàn)更好。
● DeepSeekMLA(Multi-Head Latent Attention,多頭潛在注意力)
多頭注意力(Multi-Head Attention,MHA)是生成式AI計算的核心機制,它讓模型可以同時關注用戶輸入的不同層面,并行處理這些不同維度的信息,再將其整合起來完成響應。這一并行處理過程與圖像處理中的并行計算類似,因此過去用于圖形處理的GPU(Graphics Processing Unit)成了AI計算的理想硬件平臺。
不過這一過程同時會產(chǎn)生大量緩存,限制了推理效率。DeepSeekMLA找到了一種對其中的緩存數(shù)據(jù)進行聯(lián)合壓縮的方法,從而大大減少推理期間的內(nèi)存使用,保證高效推理。DeepSeek在論文中稱,得益于這些創(chuàng)新,其V2模型(V3模型的上一代)在單節(jié)點搭載8塊H800 GPU的情況下,實現(xiàn)了超過每秒5萬個token的生成吞吐量,是上一代模型最大生成吞吐量的5.76倍。
● MTP(Multi-Token Prediction,多tokens預測)
傳統(tǒng)大模型回答用戶需求時只預測下一個token,V3通過MTP技術同時預測下2個token。這里的關鍵是第二個預測token的準確性問題(即「接受率」,預測的token能被最終采用的比例)。DeepSeek評估稱,在不同生成主題中,其模型所生成的第二個token的接受率達到了85%至90%。這種高接受率意味著V3能夠以接近傳統(tǒng)單token預測模式兩倍的速度來生成文本。
● FP8:低精度訓練
FP8的意思是8位浮點(floating-point),數(shù)字越高,意味著計算精度越高,但與此同時計算速度會降低。DeepSeek使用了FP8數(shù)據(jù)格式來訓練V3,并在模型計算的不同環(huán)節(jié)實現(xiàn)了數(shù)據(jù)在FP8、BF16、FP32等不同精度下的靈活和交替使用,即一種混合精度框架。在參數(shù)通信的部分過程,DeepSeek也做到了FP8精度的傳輸。通過這一過程,DeepSeek實現(xiàn)了加速訓練和減少GPU內(nèi)存使用,并「首次在超大規(guī)模模型上驗證了FP8混合精度訓練框架的有效性」。
DeepSeekMoE + DeepSeekMLA架構早在DeepSeek開發(fā)V2模型時期就已開拓,V2模型驗證了這一組合可以在保持性能的前提下兼顧高效訓練與推理,V3不過是在此基礎上進行了多項改進。真正使得V3模型在能力上超越Llama 3的,是另一項創(chuàng)新——自我獎勵。
● 后訓練(post-training):自我獎勵
在進行了不到兩個月的預訓練、花費了266.4萬個GPU小時后,DeepSeek又用0.5萬個GPU小時對V3進行了一種以「自我獎勵」和蒸餾為主的后訓練。
強化學習的典型案例是AlphaGo,通過為模型提供圍棋規(guī)則,并告訴它怎樣算是贏得比賽,然后模型就會自己找到滿足這一切目標的路徑。不過這種機器學習方式中的最大難題是如何設置獎勵函數(shù),數(shù)學、編程、圍棋等推理能力要求高的領域通常具有明確的答案,邊界分明,然而除此之外的其他生活領域卻未必如此。OpenAI的o1模型發(fā)布之后,外界充滿了對其究竟對強化學習過程設置獎勵函數(shù)的好奇。OpenAI不再open后,DeepSeek在其論文中表明了它是如何給V3模型設置獎勵函數(shù)的——直接將V3模型自身作為獎勵生成模型,自己決定是否獎勵自己。
DeepSeek將V3的判斷能力與GPT-4 o和Claude-3.5的判斷能力進行了比較,稱V3的性能與GPT-4o-0806和Claude-3.5-Sonnet-1022的最佳版本相當,并且,V3的判斷能力還可以通過投票技術來增強。因此,DeepSeek將V3的評價和多次投票結果作為「獎勵函數(shù)」,為開放式問題提供自我獎勵。
▲DeepSeek認為,有判斷能力的基礎模型本身就是足夠好的獎勵模型。
「LLM(大語言模型)本身就是一款多功能處理器,能夠?qū)碜圆煌瑘鼍暗姆墙Y構化信息轉(zhuǎn)化為獎勵,最終促進LLMs的自我完善?!笵eepSeek在發(fā)表V3模型的論文中稱,意思是如果一個大模型足夠優(yōu)秀、有判斷力,那么它應該像優(yōu)秀的人類一樣,足夠用來對AI的回答作出評價。這一過程是V3模型超越Llama 3的關鍵。
3. 為什么DeepSeek做到了這種低成本,其他廠商尤其美國廠商沒有做到?
「資源的詛咒」一詞用在這個時候再合適不過了。相較于中國廠商,美國大模型公司們都有多得多的現(xiàn)金和算力為其大模型開發(fā)開路,英偉達也在不斷推出算力更強大同時也更昂貴的芯片滿足這些大廠的需要。大模型的Scaling Law(縮放定律)早就從模型本身向上延伸至了資金環(huán)節(jié)。不少大模型廠商——不止國內(nèi),都因預訓練的昂貴在去年下半年退出游戲。
對那些資源豐富的大廠而言,阻力最小的方法是大肆招聘、支付高薪以及向英偉達支付高昂費用。而DeepSeek-V系列的幾乎所有創(chuàng)新都與適應帶寬受限的H800芯片有關。
4. DeepSeek-V3是個蒸餾模型嗎?
V3的訓練成本公布之后,外界對它的最大質(zhì)疑就是它可能是個從其他先進模型那里蒸餾出來的模型。
在V3、R1模型的相關論文中,DeepSeek的確都在結尾強調(diào)了在蒸餾技術上的探索。比如在V3模型中,DeepSeek就使用了從DeepSeek-R1系列模型中提取的推理能力——R1作為教師模型生成了80萬訓練樣本進行訓練?!笍腄eepSeek R1系列模型中提取推理CoT(思維鏈),并將其納入標準LLMs(大語言模型),特別是DeepSeek-V3。我們的流水線將R1的驗證和反思模式優(yōu)雅地整合到了DeepSeek-V3中,顯著提高了其推理性能?!笵eepSeek在論文中稱。
除了將從R1系列模型中提取的80萬思維鏈樣本用以訓練V3,DeepSeek還進一步探索了將這些數(shù)據(jù)應用于阿里巴巴旗下的Qwen2.5系列模型后的效果。DeepSeek在論文中稱,經(jīng)過這種后訓練的Qwen系列模型(DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B)效果「明顯優(yōu)于之前的版本,并與o1-mini相當」。「我們證明了較大模型的推理模式可以被提取到較小的模型中」,DeepSeek稱,這為大模型的「后訓練」優(yōu)化提供了一個有希望的新方向。
不過,這些嘗試并不意味著DeepSeek的低成本模型V3本身是個蒸餾模型。根據(jù)其論文中的說法,V3的上一代模型V2使用了8.1萬億個token數(shù)據(jù)訓練,V3模型的預訓練數(shù)據(jù)擴展到了14.8萬億。論文顯示,V3總共使用了約280萬GPU小時(包括266.4萬小時預訓練、11.9萬小時上下文長度訓練和0.5萬小時后訓練),完成了約39.7億億次浮點運算。這個計算量與訓練14.8萬億token的數(shù)據(jù)集的理論需求相符。也就是說,按照DeepSeek的DeepSeekMoE+DeepSeekMLA架構、用FP8的低精度訓練和傳輸數(shù)據(jù)、一次預測多個token,DeepSeek的確可以做到不到600萬美元的成本。這是個合理數(shù)字。
5. 相較于DeepSeek-V3,DeepSeek-R1進步在哪里?
V3模型和R1系列模型都是基于V3模型的更基礎版本V3-Base開發(fā)的。相較于V3(類4o)模型,R1(類o1)系列模型進行了更多自我評估、自我獎勵式的強化學習作為后訓練。
在R1之前,業(yè)界大模型普遍依賴于RLHF(基于人類反饋的強化學習),這一強化學習模式使用了大量由人類撰寫的高質(zhì)量問答以了解「什么才是好的答案」,幫助模型在獎勵不明確的情況下知道如何作困難的選擇。正是這項技術的使用使得GPT-3進化成了更通人性的GPT-3.5,制造了2022年年底ChatGPT上線時的驚喜體驗。不過,GPT的不再進步也意味著這一模式已經(jīng)到達瓶頸。
R1系列模型放棄了RLHF中的HF(human feedback,人類反饋)部分,只留下純粹的RL(強化學習)。在其首代版本R1-Zero中,DeepSeek相當激進地啟動了如下強化學習過程:為模型設置兩個獎勵函數(shù),一個用于獎勵「結果正確」的答案(使用外部工具驗證答案的最終正確性),另一個獎勵「思考過程正確」的答案(通過一個小型驗證模型評估推理步驟的邏輯連貫性);鼓勵模型一次嘗試幾個不同的答案,然后根據(jù)兩個獎勵函數(shù)對它們進行評分。
▲DeepSeek稱,R系列模型在強化學習中涌現(xiàn)出了「反思」能力。
DeepSeek發(fā)現(xiàn),由此進入強化學習過程的R1-Zero生成的答案可讀性較差,語言也常常中英混合,但隨著訓練時間增加,R1-Zero能不斷「自我進化」,開始出現(xiàn)諸如「反思」這樣的復雜行為,并探索解決問題的替代方法。這些行為都未曾被明確編程。
DeepSeek稱,這種「啊哈時刻」出現(xiàn)在模型訓練的中間階段。在此階段,DeepSeek-R1-Zero通過重新評估其初始方法來學習分配更多的思考時間?!高@一刻彰顯了強化學習的力量和美妙——只要提供正確的激勵,模型會自主開發(fā)高級解決問題的策略?!笵eepSeek稱,經(jīng)過數(shù)千個這樣的「純強化學習」步驟,DeepSeek-R1-Zero在推理基準測試中的性能就與OpenAI-o1-0912的性能相匹配了。
DeepSeek在論文中說,「這是第一個驗證LLMs的推理能力可以純粹通過RL(強化學習)來激勵,而不需要SFT(supervised fine-tuning,基于監(jiān)督的微調(diào))的開放研究。」
不過,由于純強化學習訓練中模型過度聚焦答案正確性,忽視了語言流暢性等基礎能力,導致生成文本中英混雜。為此DeepSeek又新增了冷啟動階段——用數(shù)千條鏈式思考(CoT)數(shù)據(jù)先微調(diào)V3-Base模型,這些數(shù)據(jù)包含規(guī)范的語言表達和多步推理示例,使模型初步掌握邏輯連貫的生成能力;再啟動強化學習流程,生成了大約60萬個推理相關的樣本和大約20萬個與推理無關的樣本,將這80萬個樣本數(shù)據(jù)再次用于微調(diào)V3-Base后,就得到了R1——前面提到,DeepSeek還用這80萬個以思維鏈為主的數(shù)據(jù)微調(diào)了阿里巴巴的Qwen系列開源模型,結果表明其推理能力也提升了。
6. DeepSeek徹底解決推理問題了嗎?是否意味著AGI不需要新范式?
DeepSeek在V3模型上的創(chuàng)新都是工程上的,其突破的更大意義在于改變大模型的既有商業(yè)模式以及美國對華的芯片制裁——V3的大量創(chuàng)新都與為克服使用H800而不是H100所帶來的內(nèi)存帶寬不足有關。為此,DeepSeek甚至繞過了英偉達的編程工具CUDA,對每塊H800芯片上132個處理單元中的20個進行了重新編程,以專門用于管理跨芯片通信。
相較而言,R1在純強化學習上的探索至少達到了與OpenAI o1相當?shù)乃?,o1背后的技術是否與R1相同的問題目前未知,OpenAI沒有公開過其o1模型的強化學習方案。不同大模型公司在強化學習中設置獎勵函數(shù)的方式從來都千差萬別。
不過,還不能說R1徹底解決了推理問題,至少只要基于o1的代操作AI——Operator還不能像人一樣自如操作各種電子設備,就不能說這種水平的AI就是通用人工智能了。目前,Operator理論上可以根據(jù)用戶要求執(zhí)行鼠標和鍵盤允許的所有操作:只要用戶口頭交代一下,它就可以幫用戶訂外賣或查找旅游路線;遇到問題或者操作出錯時,它能利用強化學習帶來的推理能力自我糾錯;實在無法解決問題時,它會將控制權交還給用戶——就像自動駕駛一樣,AI遇到無法決策的困境時會將方向盤交還給人類司機。也和自動駕駛一樣,這種「接管率」將是觀察基于強化學習的AI是否在進步的指標之一。
7. DeepSeek的成果會如何影響AI產(chǎn)業(yè)的未來?
美國科技股1月27日的表現(xiàn)已經(jīng)初步表明了DeepSeek接連發(fā)布的幾個模型對市場的影響力大小和范圍。
DeepSeek的低成本模型發(fā)布之際,美國總統(tǒng)特朗普剛剛宣布一個總額達5000億美元的AI基礎設施項目,OpenAI、軟銀等都已承諾參與其中。稍早前,微軟已經(jīng)表示2025年將在AI基礎設施上投入800億美元,Meta的扎克伯格則計劃在2025年為其人工智能戰(zhàn)略投資600億至650億美元。DeepSeek的低成本模型使人們開始懷疑這些規(guī)模驚人的投資是否是種浪費,如果只用數(shù)百萬美元,而不是數(shù)億元,就能訓練一個4o等級的模型,那大模型對于GPU芯片的需求可能只是當下的1/10甚至1/100。
英偉達的股價因此跌得最厲害,不過長遠看,受沖擊最大的不一定是英偉達,而會是其他自研大模型并根據(jù)模型調(diào)用建立商業(yè)模式的公司,OpenAI、Anthropic、月之暗面、字節(jié)跳動等都屬于這一范圍。推理成本上,OpenAI o1每百萬輸入和百萬輸出token分別收取15美元和60美元,而DeepSeek R1同樣輸入與輸出的價格分別只要0.55美元和2.19美元,差不多只是前者的3%。此前,OpenAI向使用其最先進模型o1的用戶收取每月200美元的訂閱費,而且仍然處于虧損狀態(tài)并打算提價,DeepSeek R1的出現(xiàn)可能令ChatGPT的提價計劃泡湯。
此外,一大批中國大模型公司比如字節(jié)跳動和月之暗面2024年花在用戶增長上的廣告費可能會打水漂。數(shù)據(jù)監(jiān)測公司Sensor Tower的數(shù)據(jù)顯示,自今年1月11日上線以來,DeepSeek App的累計下載量已超過300萬次,其中,80%的下載量集中在1月20日至1月26日的一周內(nèi)。如果保持這種增速,DeepSeek不久就會進入有千萬用戶的AI應用陣營。
股價大跌近17%后,英偉達在一份聲明中稱,DeepSeek的成果證明了市場對英偉達芯片的需求會更多(而不是更少)。這一說法有一定道理,因為當模型訓練和推理都變得更便宜、只需要消耗更少算力,人工智能的商業(yè)化可以進展更快,比如,R1的小型版本能夠在普通家庭電腦上運行,這將有助于推動AI應用的普及與民主化——像蘋果這樣為大模型提供終端設備的公司會是贏家。1月27日的美國科技股大跌中,蘋果也是僅有的兩家沒有下跌的技術公司,另一家是擁有云計算業(yè)務的亞馬遜,它同樣在自研大模型上落后,但擁有無論什么模型都需要的云計算生意。
相較于訓練環(huán)節(jié),進入商業(yè)化后的推理環(huán)節(jié)會消耗更多倍的算力。而且,更有效的使用計算的方法并不意味著更多的算力沒有用。不過短期內(nèi),向英偉達大手筆下單的技術公司們會變得更謹慎。
當然,最大的贏家還是消費者。
8. 為什么幻方——一家量化投資公司——要大力投資人工智能?
DeepSeek由梁文峰于2023年12月創(chuàng)立,在此之前,他于2015年成立了名為「幻方量化」(High-Flyer)的量化對沖基金,該基金通過AI分析金融數(shù)據(jù)從而作出交易決策。2019 年,幻方量化成為國內(nèi)首個募資超過1000億元的的量化對沖基金。
雖然一直有聲音認為金融市場就像變幻莫測的天氣一樣無法預測,這些人可能正確,但1980年代以來,不斷有數(shù)學家和計算機科學家希望為價格建模,并據(jù)此賺到錢。1988年至2018年的30年間,美國量化投資巨頭文藝復興科技創(chuàng)造了39.1%的年化復合收益率,遠超過巴菲特、索羅斯等傳統(tǒng)靠人來決定何時下注的投資大師。
這些量化基金并不追求預測金融市場下一刻的價格,而是專注于尋找發(fā)現(xiàn)市場中存在特定的價格模式。比如「24小時效應」模式:周一的價格變化常常是周五趨勢的延續(xù),而這個趨勢到了周二就會反轉(zhuǎn)(24小時效應);「周末效應」:如果市場在周五展現(xiàn)出清晰的上升趨勢,那么周五收盤前買入再到下周一一早賣出,也大概率會賺錢;再比如有的資產(chǎn)一旦第一天升值了,它第二天大概率會繼續(xù)升值,反之亦然。這些有預測能力的金融信號就此成為量化基金們用以指導投資的交易因子(indicators),雖然潛在盈利空間沒那么大,只要交易頻率夠高(與價值投資倡導的剛好相反),量化基金們就能吃到市場的肥尾。
大模型擅長從大規(guī)模數(shù)據(jù)中尋找模式,這種能力正對熱衷從金融數(shù)據(jù)中尋找交易因子的量化基金的胃口?;梅搅炕膊焕?。DeepSeek目前尚未推出相應的金融投資大模型,不過這只是時間問題。(作者:吳洋洋)
(來源:新皮層NewNewThing)