時隔1年多...DeepSeek發布V4新模型 處理百萬字長文成標配
大陸AI新創深度求索(DeepSeek)24日宣佈,全新系列模型DeepSeek-V4的預覽版本正式上線,並同步開源。(路透)
就在OpenAI發佈GPT-5.5幾個小時後,大陸AI新創深度求索(DeepSeek)24日宣佈,全新系列模型DeepSeek-V4的預覽版本正式上線,並同步開源。最新模型具有能力處理長達百萬字的超長上下文,在Agent能力、世界知識和推理性能上均實現大陸國內與開源領域的領先。陸媒研判,新模型使用的是華爲升騰晶片。這距離DeepSeek去年1月的大版本更新已時隔15個月。
上海第一財經報導,V4模型按大小分爲Pro和Flash兩個版本,其中,Pro版參數爲1.6兆,啓動參數490億,預訓練資料量33兆;Flash版參數爲2840億,啓動參數130億,預訓練資料量32兆。
DeepSeek表示,Pro版本主打高性能,在Agentic Coding(智能體編程)評測中已達到目前全球開源模型的最優水平,也已成爲公司內部開發的首選工具;在數學、STEM及競賽型代碼評估中,其表現已能與目前全球頂級閉源模型比肩。
Pro和Flash兩個版本的上下文都是1M(百萬),均同時支持「非思考模式」與「思考模式」。「從現在開始,一百萬上下文將是 DeepSeek 所有官方服務的標配。」DeepSeek表示,V4開創了一種全新的注意力機制,在token維度進行壓縮,結合DeepSeek Sparse Attention(DSA,深度求索稀疏注意力機制,實現了全球領先的長上下文能力,並且相比於傳統方法大幅降低了對計算和顯存的需求。
從價格看,DeepSeek指出,V4-Pro每百萬tokens輸入是1元(人民幣,單位下同,約新臺幣4.62元),輸出是12元,V4-Flash每百萬tokens輸入是0.2元,輸出是2元。有評論認爲,價格仍相當普惠。
報導指出,業界一直在關注DeepSeek-V4是否會使用大陸國產算力,從推文來看確實是與華爲升騰合作。DeepSeek表示,受限於高端算力,目前Pro的服務吞吐十分有限,預計下半年升騰950超節點批量上市後,Pro的價格會大幅下調。
相比前代模型, V4-Pro 的Agent能力顯著增強。在Agentic Coding(代理驅動的程式撰寫)評測中,V4-Pro達到當前開源模型最佳水平。
在推理上,官方在論文中表示,總體約落後前沿閉源模型3至6個月。Pro‑Max(Max表示最大推理能力模式)推理擴展後在標準推理基準上優於OpenAI的GPT‑5.2、Gemini‑3.0‑Pro,略遜於GPT‑5.4、Gemini‑3.1‑Pro。