【冰質財經】20241231(二)-OpenAI發表2025年預計的新產品

作者:納蘭雪敏



OpenAI的CEO Sam Altman在台北時間凌晨3點半,發表2025年OPENAI預計推出的新產品,目前市場在基礎建設陸續到位後,進入AI Agents時代,AI Agents 是為了解決特定問題或完成特定任務而設計的,比如自動客服系統(回答客戶問題),自動交易程式(進行金融交易),能完全不依賴人類直接操作就能最終成為有效的AI Agents大幅替代人類。

OpenAI才剛發表最先進的LLM模型語言o3,LLM 是 Large Language Model 的縮寫,意思是大型語言模型。這是一種專門用於自然語言處理(NLP)的人工智慧模型,訓練方式主要基於龐大的文本資料庫,以深度學習技術為基礎技術。

這次發表最受市場關注的是grown up mode(成人模式),目前OpenAI針對許多帶有色情生成的文本生成內容甚至色情詞彙都具有警示功能,部分甚至禁止生成。

聖誕節時Sam Altman發表了一篇希望網友提供OpenAI可以推出哪些產品,網友Pliny the Liberator當時提到希望刪除一些過濾內容的限制。

2025年OpenAI針對AGI也希望進一步完善內容,以及帶來更好的GPT-4o,GPT-4o是現在OpenAI最通用的產品,AGI 是 人工通用智慧(Artificial General Intelligence)的縮寫,AGI 能夠像人類一樣執行任何智力任務的人工智慧系統,具備學習、推理、解決問題、理解語言和適應新環境的能力。

但目前最通用化的產品而言OpenAI的Sora可以自動生成影像,但費用不便宜,目前都是以點數來購買然後依據不同的影片生成畫質來計費,每個月訂閱的基本用戶只能使用720p來生成影片,並且只能生成5秒的影片,大約10個5秒的720p影片。

OpenAI的先行者優勢正在逐漸被吞噬,因為後發的LLM都可以透過學習前面的AI模型來快速跟進,特別中國在OpenAI發布任何軟體以後,只要半年中國的LLM都可以完成差不多的產品,這代表在消費級產品,OpenAI可能沒有任何優勢。

但因為中國模型語言目前推廣海外受到國家主權與資訊安全限制的狀況明顯,未來AI可能變成一種主權各自持有的狀況,類似於汽車,現在汽車產業已經逐漸變保護主義的戰場,中國汽車強大的競爭力使得美國、歐洲難以競爭,擁有最強大競爭力的Tesla進入中國以後也是遭到中國汽車品牌夾殺,但仍然佔據中國2024年上半年錢十名榜單中的2名,以Model3與Y兩大主力佔據榜單。

DeepSeek彎道超車

中國LLM訓練成本可能僅有OpenAI的5%,最主要AI訓練模型可以透過模型自己產生的資料再進行訓練,不過大如果全部都是來自模型自己生成的資料,容易形成知識封閉,模型無法有效應用在真實情境或多樣化的輸入。因此通常會搭配真實世界的標註資料,或透過半監督式學習和自我蒸餾(self-distillation)等技術,讓模型產生的資料作為輔助訓練,並不會只單純依靠模型輸出來進行訓練。整體而言,這樣做可以擴充資料量,但仍須留意資料品質與多元性,才不會使模型後續表現受限於它自己生成的內容。

自我蒸餾(self-distillation)是指一種機器學習技術,讓同一個模型同時扮演「老師」與「學生」的角色。在這種架構中,已完成初步訓練的模型(老師模型)先進行推論並產生結果,接著用這些結果當作標準答案,再去優化尚在訓練中的模型(學生模型)。

這種方法可以讓學生模型學到老師模型的暗示或機制,不需要另外建立更大型或更複雜的外部教師模型。很多研究都顯示,透過自我蒸餾可以在不增加大量標註資料或模型參數的情況下,進一步提升模型的準確度與泛化能力。

2024年Sora與o1都看到中國企業馬上在半年內跟上,主要因為中國許多相關AI專家也從美國本地學校畢業,甚至都在美國公司工作過,甚至OpenAI的創辦團對之一的成員Andrej Karpathy看到DeepSeek-v3只用了280萬小時的GPU算力,訓練出比Llama-3 405B更好的模型,而Llama-3 405B用了3080万小时GPU,依照這個數據換算只用了不到10%的算力就完成了同樣的LLM。

DeepSeek甚至在MMLU、DROP、Codeforces、AIME這些AI評測基準上打敗GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B的性能,外國網友受到中國晶片封鎖令,仍然有這樣的表現非常驚人,而且因為DeepSeek的出現,會產生類似於中國汽車的效應,導致歐美等AI大廠必須降價競爭,對消費者更加有利。

雖然數據集同樣使用15兆,但DeepSeek的出現其實證明了NVDA等算力需求可能被下修,對於硬體公司而言並非好事。

MLA

中國的DeepSeek利用MLA與MoE兩種技術,多頭潛在注意力(Multi-Head Attention, 簡稱 MHA 或 MLA)指的是像 Transformer 這種模型中常用的注意力機制。多頭潛在注意力的核心概念是將輸入資料同時投影到多個不同的空間,讓模型在計算注意力權重時能觀察到多元的「上下文」或「關聯」面向。這樣做可以讓模型同時關注到不同維度或不同粒度的語意、結構,使整體表現更佳。多頭潛在注意力在自然語言處理、影像辨識等多種任務中都相當常見,因為它可以有效增強模型對序列或特徵之間關係的理解能力。

混合專家(Mixture of Experts, 簡稱 MoE)是深度學習模型中,透過一組專家子模型(experts)來同時進行推論,再由一個門控網路(gating network)來決定哪些專家子模型更適合回答目前的輸入資料。這種方法類似「專業分工」,每個專家子模型各擅長不同領域、不同類型的特徵或模式。當一筆新輸入到來時,門控網路會根據輸入特徵選擇最合適的專家子模型,再將結果彙整後輸出。這種設計可以提高整體模型的表現與效率,也能讓模型在參數量大幅增加時,透過「多人分工」達到高效學習。

MLA透過將原本多頭注意力機制中的Key與Value壓縮成一個潛在向量,在推理過程中只需要緩存這個潛在向量,而不需要完整的Key與Value矩陣,能大幅降低記憶體佔用量。模型在處理大量輸入時,緩存空間負擔會變得更小,也能讓推理速度更快。整體而言,這樣的設計在大型模型的推理階段非常關鍵,可以有效提升執行效率並降低硬體需求。

在實作上,可以透過一個小型的「壓縮網路」來整合所有頭的Key與Value,例如先把每個注意力頭所對應的Key與Value疊合或串接起來,再用一個維度縮減或聚合的網路將它們轉換到更小的潛在空間。

舉例來說,假設每個注意力頭產生的Key與Value維度都很高,可以先把它們串接後輸入一個小的前饋網路(Feed-Forward Network),或是一個輕量的自注意力模組,再透過這個網路得到單一的壓縮向量。這個壓縮向量會盡量保留原本Key與Value中最重要的資訊,但維度遠小於原本的總和。

在推理階段,只需要對這個壓縮後的向量進行後續的注意力計算,省去了儲存或計算完整Key與Value矩陣的負擔,記憶體用量就能有效下降。這種作法能在不顯著犧牲模型效能的情況下,達到更高的推理效率。

如果直接把所有頭的Key與Value都保留在推理過程中,整體的記憶體需求會非常高。透過一個簡單的前饋網路將Key與Value壓縮成一個維度(latent_dim)相對較小的向量,再進行後續處理。推理時,只需要儲存這個壓縮後的資料,就能大幅降低記憶體用量。實務上,你還可能會搭配其他機制(例如注意力權重的近似或儲存策略),以在保持性能的同時進一步提升效率。

V3在混合專家(MoE)上做了關鍵的改良,最主要是透過動態調整機制來解決傳統MoE在大規模數據處理時容易出現的負載不均衡問題,避免出現「路由崩潰」的狀況。傳統MoE常常因為部分專家負載過高、其他專家卻相對空閒,導致系統難以有效地分配任務,也無法充分利用硬體資源。

路由崩潰是指混合專家(MoE)架構中,路由機制無法有效地將輸入任務分配給各個專家,導致系統出現任務積壓或資源閒置的情況,最終使得整個模型無法正常工作。傳統的MoE在面對大規模數據處理時,如果負載不均衡(某些專家負荷過重、其他專家卻幾乎空閒),就有可能造成路由機制陷入混亂,也就是「路由崩潰」。當路由崩潰發生時,模型無法妥善利用可用的運算資源,訓練與推理效能大幅降低,甚至造成系統無法持續進行運算。

V3新增一種動態分配策略會即時監測每個專家的實際負載,根據任務複雜度、專家能力等多因素來分配工作,並藉由動態的負載閾值讓系統能隨時調整各專家的任務量。這種方法不僅解決了路由崩潰的風險,也讓模型能在多專家架構下更高效地運作。

至於如果擁有10萬張H100,就算硬體資源再強大,能否開發出與o3一樣強大的模型,仍然取決於多重因素,包含演算法、資料品質與數量、模型設計與參數調整,以及工程團隊的實務經驗。雖然充裕的硬體可在大規模訓練中提供強大的運算能力,但若在資料與模型設計上沒有做好,最終成果未必能達到ChatGPT-o3那種水準。

張貼留言

2 留言

自然寫道…
真的很驚訝
大陸的能力比美國還強.
讓人懷疑OPENAI實力.....

OPENAI 技術真的尖端嘛!!?
全球資金應該湧向大陸相關公司股票才對啊
板主寫道…
不一樣的,OpenAI的o3目前數據仍是最強的模型。

DeepSeek的特別在於開源以及用了很低的算力成本就達到4o,4o並不是OpenAI最先進的LLM。

另外OpenAI跟DeepSeek都沒有上市,並無法比較市場對於他們的看好程度,而且從技術上來說,DeepSeek有使用到OpenAI的內容來訓練,如果使用這種方法訓練就代表他們的模型永遠都無法超越o3。

DeepSeek震撼在於用很便宜的成本達到先行者花了很多錢才完成的模型水準!