AI的重要消息 | Headline news of AI

作者:納蘭雪敏

2025/4/28(一)
ChatGPT中提供商品推薦,目前OpenAI並未從該服務中獲得任何的收入或分潤。

2025/4/28(一)
阿里巴巴週一發布並開源通義千問 3.0(Qwen3)系列模型,並稱在數學和程式設計等多個方面均可與 DeepSeek 的性能相媲美。與其他主流模式相比,Qwen3 也顯著降低部署成本。阿里表示,Qwen3 無縫整合兩種思考模式,支援 119 種語言,方便 Agent 呼叫。Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比,表現出極具競爭力。

被稱為「專家混合」(MoE,Mixture-of-Experts)模型的 Qwen3-30B-A3B 的活化參數數量是 QwQ-32B 的 10%,表現更勝一籌,甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct。

2025/4/17(四)
OpenAI 發布新款 AI 模型 o3 和 o4-mini,模仿人類解決複雜程式設計和視覺任務的推理。
發布開源 AI agent CodeX CLI,用於協助使用者執行程式設計任務,進而改善市場競爭力。
最新 AI 模型能“在思考過程中利用圖像資訊”,理解圖表和和素描。

OpenAI 洽談以約 30 億美元收購 AI 程式設計新創公司 Windsurf。 

2025/4/16(三)
今天凌晨 1 點,GoogleDeepMind 將 Veo2 整合到 GeminiApp 應用程式中,全面開放使用。 Veo2 可以最高生成 8 秒 720P 電影級影片,在運鏡、文本語義還原、物理模擬、動作一致性等方面非常優秀,同時支援圖片轉視頻功能。根據 Google 公佈的測試數據顯示,Veo2 在用戶偏好和提示還原方面已經超過了 Sora、可靈 1.5、MetaMovieGen 和 Minimax。今天開始開發人員可以在 GoogleAIStudio 中透過 API 使用 Veo2。 

2025/4/15(二)
可靈 AI 在「靈感成真」2.0 模型發表會上宣布,基座模型再次升級,面向全球正式發布可靈 2.0 影片生成模型及可圖 2.0 影像生成模型。可靈 2.0 模型在動態品質、語意回應、畫面美學等維度,維持全球領先;可圖 2.0 模型在指令遵循、電影質感及藝術風格表現等方面顯著提升。 

OpenAI 最新推出的 GPT-4.1 Nano 模型,GPT-4.5 將被完全取代,三個月後將不再提供。
包含了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三個多模態模型,它們都具備 100 萬個 token 的上下文窗口,不過目前僅可透過 OpenAI 的 API 取用,尚未在 ChatGPT 上提供。

GPT-4.1 的價格為每百萬輸入 token 2 美元,每百萬輸出 token 8 美元。GPT-4.1 mini 為每百萬輸入 token 0.40 美元,每百萬輸出 token 1.60 美元。GPT-4.1 nano 則為每百萬輸入 token 0.10 美元,每百萬輸出 token 0.40 美元。

「知識截止日期」為 2024 年 6 月,而 100 萬 token 的上下文窗口雖大,但目前的 AI 模型對於如何從大量的輸入中找到關鍵資訊依然不是太擅長,因此輸入愈多可靠性和準確性都可能有所下降。OpenAI 並表示,相較於思考模型的 GPT-4o,GPT-4.1 也更加傾向於「字面化」解讀輸入,因此有時需要用戶登供更具體、更明確的提示文了。

2025/3/28(五)
從群核科技獲悉,公司近日發布的空間理解開源模式 SpatialLM 登上全球最大 AI 開源社群 HuggingFace 趨勢榜第二位。目前名單前三家分別為 Deepseek、群核科技 SpatialLM、通義千問 Qwen2.5-Omni,都與杭州密不可分

阿里通義千問推出了 QVQ-72B-Preview,通義千問正式推出 QVQ-Max 視覺推理模型的第一版。這個新版本的模型具備強大的多模態處理能力,它不僅能夠「看懂」圖片和影片裡的內容,還能結合這些資訊進行分析、推理,甚至給出解決方案。從數學題到生活小問題,從程式碼到藝術創作,但目前仍是初期階段。

2025/3/24(一)
螞蟻集團 Ling 團隊發表了一篇技術成果論文。論文顯示,螞蟻集團推出了兩款不同規模的 MoE 大語言模型-百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus),前者參數規模為 168 億(激活參數 27.5 億),Plus 基座模型參數規模高達 2900 億(激活參數 288 億),兩者性能均達到行業領先水準。 

2025/3/11(二)

OpenAI推出AI代理API

AI 代理(AI Agent) 指的是能夠自主執行特定任務的人工智慧系統,能夠在使用者的指示下,自行決策、規劃並完成目標,而不需要人類介入每一步操作。

這些 AI 代理可以模擬人類思考流程,透過感知(perception)、推理(reasoning)和行動(action) 來執行任務,例如回答問題、搜尋資料、自動處理電腦工作等。

1. AI 代理開發的挑戰
開發 AI 代理需要處理複雜的任務,但開發者普遍面臨以下問題:

需要大量 提示詞調整(prompt iteration)
缺乏內建支援與監控工具
自訂編排邏輯困難,導致開發難度增加
為解決這些挑戰,OpenAI 推出了 新一代 API 和工具 來簡化開發過程。

2. 全新 API 與工具
(1) Responses API
整合 Chat Completions API 的簡單性,並提供類似 Assistants API 的工具調用能力
內建 Web 搜尋、檔案搜尋、電腦操作工具
簡化開發流程,降低 AI 代理的開發門檻

(2) 內建工具
Web 搜尋:提供最新、帶有出處的資訊,適用於購物助理、研究助理、旅遊助理等
檔案搜尋:可快速從大量文件中檢索資訊,支援 FAQ、法律案例、技術文件等應用
電腦操作(Computer Use):模擬鍵盤與滑鼠操作,可用於網頁測試、數據輸入等應用

(3) Agents SDK
簡化多代理(multi-agent)工作流編排
具備 代理間的智能交接(handoffs)、安全驗證(guardrails)、可視化監控
適用於客服、研究、內容創建、程式碼審查、銷售分析等應用

3. Responses API 的影響

(1) Chat Completions API
仍然是 OpenAI 最受歡迎的 API,將持續更新新模型
Responses API 是其超集(superset),未來新應用建議使用 Responses API

(2) Assistants API
Responses API 吸收了 Assistants API 的核心功能
Assistants API 預計 2026 年中期淘汰,OpenAI 會提供完整的遷移指南

4. Responses API 的應用

(1) Web 搜尋
提供即時、準確的資訊,適用於研究、購物、旅遊等
支援 GPT-4o 與 GPT-4o-mini,提供不同層級的搜尋效能
可顯示來源連結,提升資訊透明度

(2) 檔案搜尋
支援多種檔案格式、元數據篩選、自訂排序
例如:客服助理可快速查找 FAQ,法律助理可檢索過往案例

(3) 電腦操作
模擬鍵盤與滑鼠動作,自動化電腦操作
例如:企業可用於網頁測試、自動化數據錄入
目前仍屬研究預覽階段,適合高階開發者使用

5. AI 代理的未來發展

OpenAI 計劃持續拓展 AI 代理的能力,提供:
更深入的 API 整合
更強大的監控與優化工具
更多自動化與決策能力
這些工具將使 AI 代理更容易開發、部署與擴展,幫助企業提升生產力。
開發者可透過官方文件進一步了解並開始測試新功能。

2025/2/28(五)
DeepSeek開源周第五天:
開源周的最後一天,發表Fire-Flyer File System (3FS) 和 Smallpond,可以處理PB等級的數據。

在 DeepSeek 測試中,3FS 在一個180 台伺服器(或計算機)組成的分散式運算系統中達到了 6.6 TiB/s 的讀取吞吐量,3FS 的設計將 儲存(Storage) 和 計算(Computation) 分開,使用者可以不受資料存放位置影響,自由存取和處理資料,透過鍊式複製(CRAQ, Chain Replication with Allocation Queries),3FS 確保資料的強一致性,在 AI 訓練中需要高精確性應用非常重要, 支援標準的文件存取方式,開發者不需要學習新的 API,就可以輕鬆使用它來存取資料。這讓開發者更容易將 3FS 整合進現有的 AI 訓練和資料處理工作流中。

Smallpond是架構在 DuckDB 和 3FS 之上的 輕量級數據處理框架。目標是讓使用者更方便地在 3FS 上處理資料,特別是大規模 AI 訓練數據的管理和分析,透過 DuckDB,能夠快速處理 PB(Petabyte)級別的大規模資料集。

OpenAI發表GPT-4.5

根據OpenAI的X社群媒體公告:Today we’re releasing a research preview of GPT-4.5—our largest and best model for chat yet.

Rolling out now to all ChatGPT Pro users, followed by Plus and Team users next week, then Enterprise and Edu users the following week.

目前只向ChatGPT Pro 用戶推出,但下週向Plus 和 Team用戶也推出。

Early testing shows that interacting with GPT-4.5 feels more natural.

Its broader knowledge base, improved ability to follow user intent, and greater “EQ” make it useful for tasks like improving writing, programming, and solving practical problems.

初步測試顯示,與 GPT-4.5 互動感覺更加自然。

更廣的知識庫、更強的理解使用者意圖能力,以及更高的「情商」,讓它在改善寫作、程式設計和解決實際問題等任務上更加有用。

GPT-4.5 is a step forward in scaling up pre-training and post-training. By scaling unsupervised learning, GPT-4.5 improves its ability to recognize patterns, draw connections, and generate creative insights without reasoning.

GPT-4.5 在擴展預訓練和後訓練方面邁出了一大步。
透過擴展無監督學習,GPT-4.5 提升了識別模式、建立聯繫以及生成創意見解的能力,而無需進行推理。

GPT-4.5 has access to the latest up-to-date information with search, supports file & image uploads, and can use canvas to work on writing and code.

GPT-4.5 does not currently support multimodal features like Voice Mode, video, and screensharing in ChatGPT.

In the future, we will work to simplify the user experience so AI “just works” for you.

GPT-4.5 能夠透過搜尋獲取最新的即時資訊,支援檔案與圖片上傳,並可使用畫布來處理寫作與程式碼。

目前,GPT-4.5 尚不支援 ChatGPT 中的多模態功能,例如語音模式、影片與螢幕分享。

未來,我們將致力於簡化使用者體驗,讓 AI「自然而然」地為你提供幫助。

2025/2/27(四)
DeepSeek開源周第四天:
推出計算優化 DualPipe、EPLB 、 profile-data,創辦人梁文鋒親自參與 DualPipe 專案,DualPipe 讓前向計算和反向傳播同時進行,並且在數據傳輸的同時就開始下一步計算。

架構設計上DualPipe 是一種在深度學習中提高訓練效率的技術。傳統的神經網路訓練過程通常分為兩個階段:前向計算 (Forward Pass) 和反向傳播 (Backward Pass)。在一般情況下,這兩個階段是依序進行的,首先進行前向計算,計算出模型的輸出和損失值,然後再進行反向傳播,根據損失值計算梯度並更新模型參數。

DualPipe 的創新之處在於它允許前向計算和反向傳播同時進行,而不是依賴傳統的順序執行模式。具體來說,當神經網路的一部分 (例如前幾層) 完成前向計算後,這些計算結果可以立刻用於反向傳播,同時網路的後續層仍在進行前向計算。這樣的設計能夠最大化硬體資源 (例如 GPU) 的利用率,減少閒置時間,從而顯著提高訓練速度。

這種方法特別適合深度神經網路 (例如大型卷積神經網路或變換器模型),因為這類模型的前向和反向計算都非常耗時。通過 DualPipe,模型可以在不改變訓練結果的情況下,以更高的效率完成訓練。

資源分配技術EPLB (Expert Parallel Load Balancing) 是用於優化大型語言模型在專家並行 (EP) 架構中的訓練效率。透過動態調整專家(MoE 模型中的子網路)的分配來平衡 GPU 之間的工作量,同時減少跨節點通信開銷,就像春節火車票系統,系統實時監控哪些列車爆滿,哪些有空位,然後動態調整,把乘客分流到不同車次,確保每趟車都坐滿但不超載。

在 MoE 架構中,模型包含多個專家(子網路),但每次推理或訓練僅會啟用其中一小部分專家。專家並行 (EP) 技術將這些專家分散到不同的 GPU 上,以利用多個 GPU 的計算能力。然而,在實際應用中,由於輸入數據的動態性,有時某些 GPU 可能會承擔更多的計算負擔,而其他 GPU 則可能閒置,這會導致資源浪費。

性能監控Profile-data 是用於分析和優化大型語言模型(如 DeepSeek-V3)在不同場景中的性能數據集合和分析工具。在大型分布式深度學習模型的訓練和推理過程中,計算資源(特別是 GPU 或 TPU)的利用效率、數據傳輸效率和內存使用情況,都是影響模型性能的關鍵因素。Profile-data 的作用就是監控這些關鍵性能指標,幫助開發者精細地調整系統,以達到最佳性能。

Training (訓練):監控在模型訓練過程中的計算和通信負載情況。例如,前向計算 (Forward Pass)、反向傳播 (Backward Pass) 的計算時間,每個 GPU 的利用率,以及模型參數更新 (Parameter Update) 的效率。

Prefilling (預填充):主要用於推理 (Inference) 階段的準備工作,例如在生成式模型中,為解碼過程填充所需的上下文 (Context) 數據。在此過程中,Profile-data 會收集數據加載、預處理和分配到 GPU 的時間花費,確保這些步驟不成為性能瓶頸。

Decoding (解碼):針對推理(例如文本生成、預測分類)的核心步驟,Profile-data 會分析計算和通信的細節,包括每一步的延遲 (Latency)、批次處理 (Batch Processing) 效率、以及模型的計算密集部分 (如注意力機制, Attention Layer) 是否存在資源浪費。

Profile-data 不僅限於高層面的數據,還能深入到運算單元 (例如矩陣運算、卷積運算) 的層級,檢視 CUDA kernel 的運行時間,識別出可能需要優化的計算模組。

對於通信層面,Profile-data 會追踪具體的通訊協議 (如 NCCL, MPI) 的數據流量,分析是否存在帶寬瓶頸或數據包延遲過高的問題。

此外,Profile-data 也能揭示自訂算子 (Custom Operators) 或第三方庫 (如 cuDNN, TensorRT) 的性能表現,幫助開發者判斷是否需要用更高效的實現 (例如手動編寫 CUDA Kernel) 來取代現有方案。

NVIDIA開源在Blackwell優化的DeepSeek-R1,推理速度提升 25 倍,每 token 成本降低 20 倍,DeepSeek-R1-FP4。這一新模型在推理吞吐量上達到高達 21,088 token 每秒,與 H100 的 844 token 每秒相比,提升幅度高達 25 倍。每 token 的成本也實現了 20 倍的降低,FP4 生產級精度的模型,在 MMLU 通用智能基準測試中達到了 FP8 模型性能的 99.8%


Transformer 模塊內的線性算子的權重和激活量化到了 FP4,適用於 TensorRT-LLM 推理。這一優化使每個參數的位數從 8 位減少到 4 位,從而讓磁碟空間和 GPU 顯存的需求減少了約 1.6 倍,這可以使每百萬 token 0.25 美元的價格提供 R1。

2025/2/26(三) 
DeepSeek開源周第三天:
DeepSeek發表 DeepGEMM,支援稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法) 計算庫,僅憑 300 行代碼就超過專家優化的內核,可為 V3/R1 的訓練和推理提供強大支援,並宣布DeepSeek-R2 有望在 5 月前提前發佈。 

高達 1350+ FP8 TFLOPS 的算力,這表示 DeepGEMM 在 Hopper GPU 上能夠達到超過 1350 兆次浮點運算(TFLOPS),其中 FP8 是一種 8 位元浮點數格式,能夠提供更高的運算效率,特別適合機器學習中的大規模矩陣運算。

即時編譯(JIT, Just-In-Time Compilation)技術允許在程式執行期間動態編譯代碼,提供更高的靈活性和優化性能,使得應用程序能夠根據運行時環境自動調整運算效率。

核心邏輯僅約 300 行代碼: 整個庫的核心運算邏輯非常精簡,只有大約 300 行代碼。這樣的精簡設計不僅減少了潛在的錯誤點,也提升了維護和優化的效率。

超越專家級優化內核: 即使只有這麼少的代碼,DeepGEMM 在大多數矩陣規模的情況下,依然能夠在運算效率上勝過一些由專家高度優化過的其他運算內核(例如 cuBLAS 或 MKL 等高效能計算庫)。

同時支援密集佈局和兩種 MoE 架構: 密集佈局(Dense Layout) 是指常規的矩陣運算模式,而 MoE(Mixture of Experts) 架構是一種在機器學習中特別有效的模型架構,允許在不同情境下選擇不同的專家模型進行推理。支援兩種 MoE 架構意味著它在處理深度學習模型時有更廣泛的適用性。

DeepGEMM 需要 Hopper 架構 GPU、必須支援 sm_90a,要求是 Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6 或更新版本。DeepSeek 強烈推薦 CUDA 12.8 或更高的版本以獲得最佳性能。


根據OpenAI的X社群媒體公告:

Deep research is now rolling out to all ChatGPT Plus, Team, Edu, and Enterprise users 🍾
深入的研究現在正在向所有ChatGPT Plus,Team,Edu和Enterprise用戶推出 🍾 

Since the initial launch, we’ve made some improvements to deep research:
從首次發表後,對深度研究進行了一些優化:

✅Embedded images with citations in the output

✅Better at understanding and referencing uploaded files

✅ 輸出中包含引用的嵌入圖像

✅ 更好地理解和引用上傳的文件

To start, Plus, Team, Enterprise, and Edu users will have 10 deep research queries per month.
首先,Plus、Team、Enterprise和Edu用戶每月將有10個深度研究查詢。

Pro users will now have 120 deep research queries per month.
專業用戶現在每月將有120個深度研究查詢。

We're also sharing the system card, detailing how we built deep research, assessed its capabilities and risks, and improved safety.

我們也正在分享系統卡,詳細說明我們如何進行深入研究、評估功能和風險,並提升安全性。

系統卡(System Card)是一份文件說明書,用來提供系統、產品或技術的關鍵資訊。
通常包括以下內容:

系統概述:介紹系統的功能、用途和目標。
技術細節:描述系統的架構、技術原理、運作方式等技術層面的資訊。
研究與開發過程:說明系統是如何經過深入研究和開發的,包括使用的方法、數據來源和實驗結果。
風險評估:列出系統可能存在的風險,無論是技術風險(例如錯誤、漏洞)還是安全風險(例如數據洩漏、誤用風險)。
安全措施:解釋已經實施的安全機制和策略,確保系統的可靠性和安全性。
限制與適用範圍:說明系統的適用場景,以及在哪些情況下不適合使用。
持續改進計劃:介紹如何通過持續測試、用戶反饋和技術更新來不斷改進系統。

簡單來說系統卡是一份綜合性的技術和安全說明文件,目的是讓用戶、開發者和其他利益相關者更好了解系統的功能、價值和安全性。

We worked with a community of hundreds of experts who helped train deep research.

If you're interested in contributing your expertise to future models, you can express interest here:

https://docs.google.com/forms/d/e/1FAIpQLSfPIKQwiOew1KxNBqW6-MM0HGLLZV8qATsyfUsj3ukNP2afRw/viewform
我們與數百名專家組成的社區合作,他們幫助培訓深入的研究。

如果您有興趣為未來的模型貢獻您的專業知識,您可以在這裡表達興趣:

https:docs.google.com/forms/d/e/1FAIpQLSfPIKQwiOew1KxNBqW6-MM0HGLLZV8qATsyfUsj3ukNP2afRw/viewform


2025/2/25(二)
DeepSeek開源周第二天:
DeepSeek 發表 DeepEP,一套用於 MoE(Mixture of Experts Models,混合專家模型)訓練和推理的開源 EP(expert parallelism)通訊程式庫,提供高吞吐量和低延遲的全互連 GPU 核心,它還支援低精度運算,包括 FP8,DeepEP 提供一組針對非對稱領域頻寬轉發進行最佳化的核心,例如從 NVLink 領域轉發數據到 RDMA 領域,這些核心具有很高的吞吐量,適合訓練和推理預填任務。對於延遲性較敏感的推理解碼,DeepEP 包括一組具有純 RDMA 的低延遲核心,以最大程度減少延遲。

2025/2/24(一)
DeepSeek開源周第一天:
FlashMLA是針對 NVIDIA Hopper 架構 GPU 進行最佳化的高效 MLA(Multi-Head Latent Attention,多頭潛在注意力)解碼核心,涵蓋 H100、H200、H800,不僅將 AI 推理的記憶體頻寬推升至 3000 GB/s 的驚人水準,更有高達 580 TFLOPS 的運算性能。

張貼留言

0 留言