IT评测·应用市场-qidao123.com技术社区
标题:
多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强!
[打印本页]
作者:
小秦哥
时间:
2025-3-25 21:04
标题:
多维度实测DeepSeek新模型DeepSeek-V3-0324,编程能力超强!
大家好,我是六哥!今天必须给大伙唠唠DeepSeek全新v3。就在昨晚,DeepSeek悄没声儿地在Huggingface上发布了DeepSeek-V3-0324。虽说不是全新模型,大概力提升那叫一个大!
在Aider评测里,它是排名第二的非推理模型,仅次于Claude-3.7-Sonnet(no thinking),好多外国网友都惊掉了下巴,直呼不可思议。
现在,大家在不少地方都能用上DeepSeek-V3-0324。官方那里,在DeepSeek官方网页、APP和小程序,关闭深度思考就能用,API接口和利用方式跟以前一样。第三方平台里,Cline、POE等也都支持,估计后续还会有更多。
迩来,我对DeepSeek-V3、DeepSeek-V3-0324,另有Claude-3.5-Sonnet、Claude-3.7-Sonnet的编码能力做了多维度实测,接下来就给大家详细讲讲。
一、意图辨认测试
我先给模型们下达“创建电商登录页面”的指令,就想看看它们对这种模糊需求的理解能力咋样。
用Doubao-1.5-pro模型和DeepSeek-V3-0324来对比。
Doubao-1.5-pro表现
代码区
效果
DeepSeek-V3-0324表现
代码区
效果区
DeepSeek-V3-0324表现亮眼,给出的页面几乎涵盖了登录页面的最佳实践,显然更强!
二、UI审美测试
以往,除了Doubao-1.5-pro,其他模型的UI审美都不太在线。我就给它们出了两道题,分别是“帮我写一个拟态风格的气候卡片”和“帮我写一个孟菲斯风格的气候卡片”。
Doubao-1.5-pro效果
DeepSeek-V3-0324效果
从用户视角出发,在拟态风格气候卡片测试里,DeepSeek-V3-0324和Doubao-1.5-pro表现不相上下。而在孟菲斯风格气候卡片测试中,DeepSeek-V3-0324对提示词的遵循度最高,最符合要求。
三、多种编程语言测试
前面测试用的都是HTML语言,这次我选了JS和Python两种编程语言。让模型们用p5.js写一个脚本,实现三个不同颜色的小球在球体内做不规则运动,且小球不能超过球体。
Doubao-1.5-pro
效果
DeepSeek-V3-0324效果
结果只有DeepSeek-V3-0324和Doubao-1.5-pro满足要求,Doubao-1.5-pro生成的页面小球不会动。
四、长上下文测试
我还给模型们部署了一项大任务,让它们以全栈工程师的身份,开发一个“冥想”iOS App,输出一套完整的APP原型图。DeepSeek-V3-0324一次对话就能生成800+行代码,还真把所有内容整合到一个html文件里展示交互。
Doubao-1.5-pro
效果
DeepSeek-V3-0324效果
一番测试下来,DeepSeek-V3-0324相比Doubao-1.5-pro,编程能力有了质的飞跃,在前端场景代码生成上,真的很不错,但在非推理模型里,它是最靠近Claude-3.7-Sonnet的。我现在就盼着DeepSeek能进一步提升多模态能力,要是图片辨认功能再增强,肯定能帮更多人入门AI编程。这2个月过去,DeepSeek又制造了新的“Deepseek时刻”!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)
Powered by Discuz! X3.4