多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强! ...

打印 上一主题 下一主题

主题 1621|帖子 1621|积分 4863


大家好,我是六哥!今天必须给大伙唠唠DeepSeek全新v3。就在昨晚,DeepSeek悄没声儿地在Huggingface上发布了DeepSeek-V3-0324。虽说不是全新模型,大概力提升那叫一个大!
在Aider评测里,它是排名第二的非推理模型,仅次于Claude-3.7-Sonnet(no thinking),好多外国网友都惊掉了下巴,直呼不可思议。
现在,大家在不少地方都能用上DeepSeek-V3-0324。官方那里,在DeepSeek官方网页、APP和小程序,关闭深度思考就能用,API接口和利用方式跟以前一样。第三方平台里,Cline、POE等也都支持,估计后续还会有更多。
迩来,我对DeepSeek-V3、DeepSeek-V3-0324,另有Claude-3.5-Sonnet、Claude-3.7-Sonnet的编码能力做了多维度实测,接下来就给大家详细讲讲。
一、意图辨认测试

我先给模型们下达“创建电商登录页面”的指令,就想看看它们对这种模糊需求的理解能力咋样。
用Doubao-1.5-pro模型和DeepSeek-V3-0324来对比。
Doubao-1.5-pro表现

代码区

效果

DeepSeek-V3-0324表现

代码区

效果区

DeepSeek-V3-0324表现亮眼,给出的页面几乎涵盖了登录页面的最佳实践,显然更强!
二、UI审美测试

以往,除了Doubao-1.5-pro,其他模型的UI审美都不太在线。我就给它们出了两道题,分别是“帮我写一个拟态风格的气候卡片”和“帮我写一个孟菲斯风格的气候卡片”。
Doubao-1.5-pro效果


DeepSeek-V3-0324效果



从用户视角出发,在拟态风格气候卡片测试里,DeepSeek-V3-0324和Doubao-1.5-pro表现不相上下。而在孟菲斯风格气候卡片测试中,DeepSeek-V3-0324对提示词的遵循度最高,最符合要求。
三、多种编程语言测试

前面测试用的都是HTML语言,这次我选了JS和Python两种编程语言。让模型们用p5.js写一个脚本,实现三个不同颜色的小球在球体内做不规则运动,且小球不能超过球体。
Doubao-1.5-pro效果


DeepSeek-V3-0324效果


结果只有DeepSeek-V3-0324和Doubao-1.5-pro满足要求,Doubao-1.5-pro生成的页面小球不会动。
四、长上下文测试

我还给模型们部署了一项大任务,让它们以全栈工程师的身份,开发一个“冥想”iOS App,输出一套完整的APP原型图。DeepSeek-V3-0324一次对话就能生成800+行代码,还真把所有内容整合到一个html文件里展示交互。
Doubao-1.5-pro效果


DeepSeek-V3-0324效果


一番测试下来,DeepSeek-V3-0324相比Doubao-1.5-pro,编程能力有了质的飞跃,在前端场景代码生成上,真的很不错,但在非推理模型里,它是最靠近Claude-3.7-Sonnet的。我现在就盼着DeepSeek能进一步提升多模态能力,要是图片辨认功能再增强,肯定能帮更多人入门AI编程。这2个月过去,DeepSeek又制造了新的“Deepseek时刻”!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

小秦哥

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表