論文出處;https://arxiv.org/abs/2412.19437
我們提出了 DeepSeek-V3,一個強大的 Mixture-of-Experts (MoE) 語言模型,擁有 671B 總參數,每個符號有 37B 啟動參數。為了實現高效推理和低成本訓練,DeepSeek-V3 採用了多頭潛在注意力(MLA)和 DeepSeekMoE 架構,這些架構在 DeepSeek-V2 中得到了充分驗證。此外,DeepSeek-V3 率先採用了無輔助損失的負載平衡策略,並設定了多標記預測訓練目標,以獲得更強的性能。我們在 14.8 萬億個不同的高品質代幣上預先訓練 DeepSeek-V3,接著進行監督微調和強化學習階段,以充分發揮其能力。綜合評估顯示,DeepSeek-V3 的表現優於其他開放原始碼模型,並達到與領先的封閉式原始碼模型相媲美的效能。儘管性能優異,DeepSeek-V3 的完整訓練僅需 2.788M H800 GPU 小時。此外,其訓練過程非常穩定。在整個訓練過程中,我們沒有遇到任何無法恢復的損失峰值,也沒有執行任何回滾。模型檢查點位於 原始碼:https://github.com/deepseek-ai/DeepSeek-V3
透過 DeepL.com(免費版)翻譯