DeepSeekV3：国产AI大模型的革命性打破！练习本钱直降至110细节全解析！_EVA系列

　　在AI范畴热潮迭起之际，国产大模型DeepSeekV3横空出世，令很多技能巨子为之张狂！这个全新发布的模型连续了廉价大碗的特色，一起彻底开源，乃至设置了一篇53页的论文，具体披露了其练习进程的各种细节，简直是技能界的白皮书！

　　DeepSeekV3是一款参数量到达671B的MoE模型，其激活部分为37B，使用了14.8T高质量的token进行预练习。在多项基准测验中，它不只逾越了开源模型如Llama3.1405B，乃至在与GPT-4o、Claude3.5Sonnet等顶尖闭源模型的比照中也平起平坐——更令人惊喜的是，DeepSeekV3的本钱仅为Claude3.5Sonnet的9%。

　　在练习算力方面，DeepSeekV3乃至体现得让人惊叹！整个练习进程仅消耗280万个GPU小时，远低于Llama3405B所需的3080万GPU小时。换算成金钱，便是练习671B参数的DeepSeekV3本钱仅554.6万美元，而练习7B的Llama2需求76万美元。

　　OpenAI的开创成员Karpathy点评道，DeepSeekV3的呈现使在有限算力下进行模型预练习变得益发简单，好像它简直是为核算资源有限的状况量身定制的。Meta的科学家田渊栋也对此拍案叫绝，称其练习方法近乎黑科技，可谓巨大的效果。

　　进行的网络实测证明了DeepSeekV3的强壮。其生成速度是之前的3倍，可以每秒生成60个tokens，而其API价格也降得非常接地气，仅为每百万输入tokens0.5元！

　　令人激动的是，从现在起至2025年2月8日，DeepSeek还推出了优惠体会期，让全用户都能享受到超高的性价比的体会

　　现在，不管你是普通用户仍是AI开发者，都能轻松拜访DeepSeekV3，体会其超卓的交互才能。

　　在测验中，DeepSeekV3能在问题Which version is this?中精准作答，令发问者RileyGoodside大为惊奇，而其他模型则体现各异，乃至遭受了辨认过错。这无疑为DeepSeekV3的名声再添一笔。

　　关于DeepSeekV3的练习技能及其背面的团队，深度讨论的必要性益发显着。根据先进的负载均衡战略和练习方针，DeepSeekV3完成了前史最低的练习本钱和高效的练习时刻——在不到2个月内，266.4万GPU小时即完成了预练习，这背面都是技能的堆集与打破。

　　简而言之，DeepSeekV3的发布不只是一次技能的改造，更在某些特定的程度上为核算资源的优化使用供给了参阅。它初次展示了国产大模型在AI范畴的无限潜力，给整个职业带来了新的期望与鼓励。回来搜狐，检查更加多