DeepSeek发布V3-0324模型更新,6850亿参数开源版上线Hugging Face
3月24日晚上,DeepSeek发布了模型更新-DeepSeek-V3-0324。此更新是DeepSeek V3模型的版本更新,而不是市场所期待的DeepSeek-V4或R2。目前,它的开源版本是在拥抱脸上启动的。据报道,开源版型号的体积为6850亿个参数。
当天,DeepSeek在其官方通讯小组中宣布,DeepSeek V3模型已经完成了小型版本的升级。欢迎使用官方的网页,应用程序和迷你计划试用经验(深入思考),并且API界面和使用方法保持不变。
DeepSeek-V3模型先前于2024年12月发布,以其成本效益为“ 557.6万美元,与Claude 3.5效果相比”。它的多个评估结果超过了其他开源模型,例如QWEN2.5-72B和LLAMA-3.1-405B,就性能而言,它与世界顶级封闭的源模型GPT-4O和Claude-3.5-Sonnet相当。但是到目前为止,尚未出现新DeepSeek-V3的功能基准列表。
后来,DeepSeek发布了DeepSeek-R1模型,其性能与2025年1月的OpenAI O1的官方版本相当。该模型在训练后阶段使用了大规模的强化学习技术,并且在只有很少的标签数据时,该模型大大提高了模型的推理能力。
2025年2月25日,市场上也有消息称,DeepSeek-R2模型的发布时间可能会提前。路透社说,DeepSeek正在加快DeepSeek-R1模型的继任者DeepSeek-R2的推出。据报道,DeepSeek-R2原定于5月初发布,但该公司现在希望尽快推出它。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。