🐳 DeepSeek V3.1 编程实测 💥 挑战 Claude 霸权 🔥
视频实测了 DeepSeek V3.1 在前端编程、HTML/SVG 生成及网页渲染方面的能力,并将其与 Claude 3.7 Sonnet 进行对比分析。
UP主: 沧海九粟 · 时长: 21:43 · 🔗 B站原视频
发布: 2025-03-25 · 收录: 2025-03-25
标签: DeepSeek · AI编程 · 大模型评测 · 前端开发 · LLM
开场与主题
小朋友们大家好,我是沧海九素。
DeepSeek 在 3 月 24 号发布了一个新的模型,称之为 DeepSeek V3 0324 版本,外网也把它称之为 DeepSeek V3.1 版本。这个版本带来了能力和性能上的提升,特别是在前端编程方面有非常显著的提升。
今天借助 Reflly 平台,和大家一起来看一下 DeepSeek 新的 V3 版本(我们就称之为 3.1),以及它在实际前端编程方面的测试情况。我们会提供六个具体案例,并让它和一些主流的开源、闭源模型进行对比,帮助大家了解它在编程,尤其是前端编程方面的能力。
模型卡片与官方改进点
先看模型卡片。这个模型已经上传到 Hugging Face,大家可以从页面拿到模型卡片信息。我把它转译成中文,并加了一些关键指标解释,方便大家看清楚。
从图上能看到,DeepSeek V3.1 相比 V3,特别是在编程和数学方面有明显提升。图里也放了 Claude 3.7 Sonnet 作为对比,大家可以自行对比。
当然最终还是要看实际使用效果,不是光看指标,但指标也不可少。整体来说,在通用多任务处理、通用问答、数学、实时编程能力方面都有显著提升,尤其是数学和实时编程。
官方还提到一些重要改进点:
- 前端代码可执行能力提升,能创建更美观的网页和游戏界面(后面会看到网页渲染确实更好,接近 Claude 3.7)。
- 中文写作风格和内容质量提升,更接近 R1,特别是中长篇写作。
- 功能准确性提升,这里主要指工具调用准确性提升。
- 搜索能力增强。
这个版本实测之后,一方面很惊喜,另一方面让我对 R2 未来发布更期待。
测试安排与对比模型
接下来给大家看六个测试内容:包含 1 星一个、3 星三个、4 星一个、5 星一个。
测试覆盖 HTML 和 SVG 生成,因为现在很常用大模型基于文本生成网页卡片、报告等内容,也常用 SVG 做卡片图像。之前很多人做这类内容时默认首选 Claude 3.7 Sonnet,甚至觉得只能选它,其他差距很大。V3.1 出来后能不能挑战 3.7,我们拭目以待。
每组准备四个模型:
- DeepSeek V3 0324(V3.1)
- Claude 3.7 Sonnet
- R1(放进来看看它的编程能力到底怎样)
- 千问 Max(我觉得被低估,综合能力其实很强)
我用三个国产模型包围 Claude 3.7,因为它真的很贵,但能力也确实强。
测试 1:HTML 天气卡片(两星)
第一个测试是 HTML 天气卡片:四个天气场景(晴天、多云、有风、下雪),要做成一个带动效的 HTML 卡片页面。
并列展示效果后,整体看还是 Claude 3.7 一枝独秀,但其他模型也逐步赶上,动效该有的也都出来了。从简单角度讲,我觉得已经有戏。做完第一个实验我就觉得有戏了。
测试 2:SVG 极简海报(三星)
第二个测试是 SVG 极简海报,考验总结能力和抽象表达能力。为了公平,全部用自定义提示词方式构建,保证所有模型都能出效果。
四个模型各生成三张海报并带动效:
- DeepSeek V3.1:比较简单,表现力没那么强。
- Claude 3.7:更丰富一些,整体性和配色更好,但也谈不上惊艳(极简风格本身限制发挥)。
- R1:动效明显,但偏抽象。
- 千问 Max:极其简单。
这一项里最接近 3.7 的是 DeepSeek V3.1,构思、构图、动效都比较接近。
测试 3:SVG 诗词海报(三星)
第三项是 SVG 诗词海报:先识别诗词、分析内容,再生成 SVG。比上一项更难,因为考两部分:诗词理解解读文字 + SVG 输出。
- DeepSeek V3.1:能对诗词做基本信息解读,并生成对应卡片。
- Claude 3.7:信息很全,分块清晰(包括古今对照、修辞亮点、核心解读等),SVG 的结构、配色、层次都不错。
- R1:有点出乎意外,诗词理解赏析本来应该很轻松,但解读内容让我有点失望,图也偏“艺术感”,不好评。
- 千问 Max:逐字逐句分析我很喜欢,对经典诗的理解表达清楚,不输 3.7;但 SVG 输出构图和想象有差距,可能也受字体限制影响。
这项总体上还是略逊于 Claude 3.7,但已经在一步步靠近。
后三项:页面级输出(更难)
前三个更多是 SVG + 简单带动画 HTML 卡片。后三个难度更高,都是页面级输出,也是最近常见的案例。
测试 4:宝可梦绘本介绍页(页面级)
这个测试是做一个宝可梦(宠物精灵)绘本介绍页。提示词不多,属于经典页面生成提示词的精简版,加上主题要求。
对比效果:
- DeepSeek V3.1 和 Claude 3.7:效果已经很接近,动效上我觉得 V3.1 甚至更好一点。人物形象方面,V3.1 更丰富,整体不分高下。
- R1:我尝试了很多版本,很多跑不出来,最后就生成一个卡片。
- 千问 Max:完整度还可以,动效也可以,但内容丰富程度比不上 DeepSeek V3.1 和 Claude 3.7。
做到这里时我觉得已经超出想象,平替 Claude 3.7 指日可待。
测试 5:HTML 知识卡片(四星)
这是一个能做得很酷炫的 HTML 知识卡片。之前我做过“九个随机风格”,随机选两种风格做两个卡片平铺。这次加强难度:指定风格为“黑金”,制作卡片,考验对提示词识别。
- DeepSeek V3.1:做了一个浅色一个暗色,整体效果不差,动效也不错。虽然离 3.7 还有一点距离,但差得不多。
- Claude 3.7:黑金更好看,底色隔离更清楚,整体更稳定。
- R1:过于抽象,还带 citation 没去掉。我觉得它的编码能力已经被 V3 超越了,但我期待 R2。
- 千问 Max:该有的都有(黑金主题、风格建立、二维码等),但表现力和前两名比起来不太好比。
这一项也能看出 DeepSeek V3.1 和 Claude 3.7 已经很接近,但价格差很多。
测试 6:网页文稿制作(五星)
最后一项是网页文稿制作,用了比较复杂的提示词,文章选择相对简单一点,主要给大家看个意思,大家拿到画布后可以自行做更复杂测试。
效果对比(我要求标题栏等位置带动效,所以会看到动效):
- Claude 3.7:会议宣传内容用卡片形式表现得很稳,手机版、网页版布局和内容充分性基本没什么可挑。
- DeepSeek V3.1:也不差,核心内容和风格可用性强,接近 3.7。这样的内容拿出去属于文本转网页的中上水平。
- R1:整体可用,但效果比较一般。
- 千问 Max:动效做得挺好,也加入了 Mermaid。图片占位还可以提升;Mermaid 用对了,但图没有拉长,拉长后效果会更好。整体可用,拿到页面后改改代码就能更好,手机版效果也不错。
总结:DeepSeek V3.1 的前端能力大幅提升
整体做完比较后,Claude 3.7 还是领先的,有一说一确实领先。但 DeepSeek V3 0324(V3.1)大幅提升了前端编程能力。
在 Reflly 里用标准模型下的 V30324 就可以直接用。早期版本生成出来的东西几乎不能看,和 R1、千问 Max 都没法比;但这次实测下来已经接近了,至少接近了。
也很欣喜看到千问 Max、DeepSeek 这些国内模型在编码等能力上追赶 Claude 3.7 Sonnet。相信不久之后能用更低成本的模型,在国内甚至海外应用领域发光发热。
画布与模板分享、结尾
今天内容差不多到这里。我会把画布分享出来,也会做成模板发布,供大家使用。如果大家也要做类似评测,可以复制模板操作,因为所有提示词我都放在里面了,直接用就可以。
也期待大家在飞书群和评论区和我们交流互动。谢谢大家。