DeepSeek 下一代 AI 模型來了 旗艦版 V4 傳2月亮相 變得又快又聰明

DeepSeek。(路透)

大陸AI新創公司深度求索 (DeepSeek)近年爆紅,近期傳出可能於2月發佈新一代旗艦AI模型DeepSeek V4之際,該公司在12日深夜發表新論文,聚焦大模型的條件記憶模組,即透過分工優化算力,來提升新模型效率,讓它又快又聰明,被業內認爲是對V4模型技術架構的預告。

DeepSeek這次發表新論文是與北京大學合作完成,作者列有DeepSeek創始人樑文鋒的署名,名稱爲「基於條件查找的條件記憶:大型語言模型稀疏性的新維度」。

綜合第一財經、科創板日報等報導,論文出發點來自大模型通常包含兩種性質不同的任務,一種是需要深度動態計算的組合推理,另一種則是檢索靜態知識,而現有架構處理推理和固定知識的方法,效率較低且浪費算力。

有觀點分析,現時主流大模型,比如GPT、DeepSeek-V3等,本質上都是「Transformer架構」,該架構缺乏原生記憶能力,導致每次指令都得重新運算,而Deepseek提出的記憶模組,像給AI裝上外掛記憶硬碟,能把常見短語、固定搭配、實體名稱提前存成「記憶條目」,讓在同等算力下,AI展現更聰明的運用。

自2024年底發佈V3模型後,DeepSeek的下一代旗艦模型一直未出,科技媒體The Information近期引述消息人士報導,DeepSeek計劃於農歷新年前後推出新一代旗艦AI模型V4,內部測試顯示,DeepSeek V4在AI編程表現上有望超越OpenAI的GPT系列及Anthropic的Claude。