🐳 DeepSeek V3.1 编程实测 💥 挑战 Claude 霸权 🔥

视频实测了 DeepSeek V3.1 在前端编程、HTML/SVG 生成及网页渲染方面的能力，并将其与 Claude 3.7 Sonnet 进行对比分析。

UP主: 沧海九粟 · 时长: 21:43 · 🔗 B站原视频

发布: 2025-03-25 · 收录: 2025-03-25

标签: DeepSeek · AI编程 · 大模型评测 · 前端开发 · LLM

开场与主题

小朋友们大家好，我是沧海九素。

DeepSeek 在 3 月 24 号发布了一个新的模型，称之为 DeepSeek V3 0324 版本，外网也把它称之为 DeepSeek V3.1 版本。这个版本带来了能力和性能上的提升，特别是在前端编程方面有非常显著的提升。

今天借助 Reflly 平台，和大家一起来看一下 DeepSeek 新的 V3 版本（我们就称之为 3.1），以及它在实际前端编程方面的测试情况。我们会提供六个具体案例，并让它和一些主流的开源、闭源模型进行对比，帮助大家了解它在编程，尤其是前端编程方面的能力。

模型卡片与官方改进点

先看模型卡片。这个模型已经上传到 Hugging Face，大家可以从页面拿到模型卡片信息。我把它转译成中文，并加了一些关键指标解释，方便大家看清楚。

从图上能看到，DeepSeek V3.1 相比 V3，特别是在编程和数学方面有明显提升。图里也放了 Claude 3.7 Sonnet 作为对比，大家可以自行对比。

当然最终还是要看实际使用效果，不是光看指标，但指标也不可少。整体来说，在通用多任务处理、通用问答、数学、实时编程能力方面都有显著提升，尤其是数学和实时编程。

官方还提到一些重要改进点：

前端代码可执行能力提升，能创建更美观的网页和游戏界面（后面会看到网页渲染确实更好，接近 Claude 3.7）。
中文写作风格和内容质量提升，更接近 R1，特别是中长篇写作。
功能准确性提升，这里主要指工具调用准确性提升。
搜索能力增强。

这个版本实测之后，一方面很惊喜，另一方面让我对 R2 未来发布更期待。

测试安排与对比模型

接下来给大家看六个测试内容：包含 1 星一个、3 星三个、4 星一个、5 星一个。

测试覆盖 HTML 和 SVG 生成，因为现在很常用大模型基于文本生成网页卡片、报告等内容，也常用 SVG 做卡片图像。之前很多人做这类内容时默认首选 Claude 3.7 Sonnet，甚至觉得只能选它，其他差距很大。V3.1 出来后能不能挑战 3.7，我们拭目以待。

每组准备四个模型：

DeepSeek V3 0324（V3.1）
Claude 3.7 Sonnet
R1（放进来看看它的编程能力到底怎样）
千问 Max（我觉得被低估，综合能力其实很强）

我用三个国产模型包围 Claude 3.7，因为它真的很贵，但能力也确实强。

测试 1：HTML 天气卡片（两星）

第一个测试是 HTML 天气卡片：四个天气场景（晴天、多云、有风、下雪），要做成一个带动效的 HTML 卡片页面。

并列展示效果后，整体看还是 Claude 3.7 一枝独秀，但其他模型也逐步赶上，动效该有的也都出来了。从简单角度讲，我觉得已经有戏。做完第一个实验我就觉得有戏了。

测试 2：SVG 极简海报（三星）

第二个测试是 SVG 极简海报，考验总结能力和抽象表达能力。为了公平，全部用自定义提示词方式构建，保证所有模型都能出效果。

四个模型各生成三张海报并带动效：

DeepSeek V3.1：比较简单，表现力没那么强。
Claude 3.7：更丰富一些，整体性和配色更好，但也谈不上惊艳（极简风格本身限制发挥）。
R1：动效明显，但偏抽象。
千问 Max：极其简单。

这一项里最接近 3.7 的是 DeepSeek V3.1，构思、构图、动效都比较接近。

测试 3：SVG 诗词海报（三星）

第三项是 SVG 诗词海报：先识别诗词、分析内容，再生成 SVG。比上一项更难，因为考两部分：诗词理解解读文字 + SVG 输出。

DeepSeek V3.1：能对诗词做基本信息解读，并生成对应卡片。
Claude 3.7：信息很全，分块清晰（包括古今对照、修辞亮点、核心解读等），SVG 的结构、配色、层次都不错。
R1：有点出乎意外，诗词理解赏析本来应该很轻松，但解读内容让我有点失望，图也偏“艺术感”，不好评。
千问 Max：逐字逐句分析我很喜欢，对经典诗的理解表达清楚，不输 3.7；但 SVG 输出构图和想象有差距，可能也受字体限制影响。

这项总体上还是略逊于 Claude 3.7，但已经在一步步靠近。

后三项：页面级输出（更难）

前三个更多是 SVG + 简单带动画 HTML 卡片。后三个难度更高，都是页面级输出，也是最近常见的案例。

测试 4：宝可梦绘本介绍页（页面级）

这个测试是做一个宝可梦（宠物精灵）绘本介绍页。提示词不多，属于经典页面生成提示词的精简版，加上主题要求。

对比效果：

DeepSeek V3.1 和 Claude 3.7：效果已经很接近，动效上我觉得 V3.1 甚至更好一点。人物形象方面，V3.1 更丰富，整体不分高下。
R1：我尝试了很多版本，很多跑不出来，最后就生成一个卡片。
千问 Max：完整度还可以，动效也可以，但内容丰富程度比不上 DeepSeek V3.1 和 Claude 3.7。

做到这里时我觉得已经超出想象，平替 Claude 3.7 指日可待。

测试 5：HTML 知识卡片（四星）

这是一个能做得很酷炫的 HTML 知识卡片。之前我做过“九个随机风格”，随机选两种风格做两个卡片平铺。这次加强难度：指定风格为“黑金”，制作卡片，考验对提示词识别。

DeepSeek V3.1：做了一个浅色一个暗色，整体效果不差，动效也不错。虽然离 3.7 还有一点距离，但差得不多。
Claude 3.7：黑金更好看，底色隔离更清楚，整体更稳定。
R1：过于抽象，还带 citation 没去掉。我觉得它的编码能力已经被 V3 超越了，但我期待 R2。
千问 Max：该有的都有（黑金主题、风格建立、二维码等），但表现力和前两名比起来不太好比。

这一项也能看出 DeepSeek V3.1 和 Claude 3.7 已经很接近，但价格差很多。

测试 6：网页文稿制作（五星）

最后一项是网页文稿制作，用了比较复杂的提示词，文章选择相对简单一点，主要给大家看个意思，大家拿到画布后可以自行做更复杂测试。

效果对比（我要求标题栏等位置带动效，所以会看到动效）：

Claude 3.7：会议宣传内容用卡片形式表现得很稳，手机版、网页版布局和内容充分性基本没什么可挑。
DeepSeek V3.1：也不差，核心内容和风格可用性强，接近 3.7。这样的内容拿出去属于文本转网页的中上水平。
R1：整体可用，但效果比较一般。
千问 Max：动效做得挺好，也加入了 Mermaid。图片占位还可以提升；Mermaid 用对了，但图没有拉长，拉长后效果会更好。整体可用，拿到页面后改改代码就能更好，手机版效果也不错。

总结：DeepSeek V3.1 的前端能力大幅提升

整体做完比较后，Claude 3.7 还是领先的，有一说一确实领先。但 DeepSeek V3 0324（V3.1）大幅提升了前端编程能力。

在 Reflly 里用标准模型下的 V30324 就可以直接用。早期版本生成出来的东西几乎不能看，和 R1、千问 Max 都没法比；但这次实测下来已经接近了，至少接近了。

也很欣喜看到千问 Max、DeepSeek 这些国内模型在编码等能力上追赶 Claude 3.7 Sonnet。相信不久之后能用更低成本的模型，在国内甚至海外应用领域发光发热。

画布与模板分享、结尾

今天内容差不多到这里。我会把画布分享出来，也会做成模板发布，供大家使用。如果大家也要做类似评测，可以复制模板操作，因为所有提示词我都放在里面了，直接用就可以。

也期待大家在飞书群和评论区和我们交流互动。谢谢大家。

🐳 DeepSeek V3.1 编程实测 💥 挑战 Claude 霸权 🔥

On this page