物联网技术DeepSeek新版模型正式发布,技术大佬们都转疯了!延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。怎么说呢,QLoRA一作的一个词评价就是:优雅。具体来说,DeepSeek V3是一个参数量为671B的MoE模型,激活37B,在14.8T高质量token上进行了预训练。在多项测评上,DeepSeek V3达到了开源SOTA,超越Llama 3.1 405B,能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——而其价格比Claude 3.5 Haiku还便宜,仅为Claude 3.5 Sonnet的9%。更重要的是,大家伙儿还第一时间在论文中发现了关键细节:DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下,Llama 3 405B的训练时长是3080万GPU小时(p.s. GPU型号也不同)。直观地从钱上来对比就是,训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币),而只是训练一个7B的Llama 2,就要花费76万美元(约合555万人民币)。OpenAI创始成员Karpathy对此赞道:Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”:全网热烈实测中先来看官方说法,新模型这次主要有以下几个特点:首先从模型能力来看,其评测跑分不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,甚至还和一些顶尖闭源模型(如GPT-4o以及Claude-3.5-Sonnet)不分伯仲。从实际响应来看,其生成速度提升了3倍,每秒生成60个tokens。在又快又好的同时,DeepSeek V3的API价格也被打下来了。单论价格,正如一开始提到的,它几乎是Claude 3.5 Sonnet的1/53(后者每百万输入3美元、输出15美元)。而如果要平衡性能和成本,它成了DeepSeek官方绘图中唯一闯进“最佳性价比”三角区的模型。对了,DeepSeek这次还搞了一个45天优惠价格体验期,也就是在2025年2月8日之前,所有用户使用DeepSeek V3 API的价格分别下降了80%(输入命中)、50%(输入未命中),75%(输出)。国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开