GPT 4.1、DeepSeek R1、Claude 3.7 代码生成横评，谁才是设计稿还原之王？

2025 年 4 月 15 日 OpenAI 发布了 GPT 4.1 系列模型，包含 GPT 4.1、GPT 4.1 Mini 和 GPT 4.1 Nano 三款模型。GPT 4.1 专为提升编码能力、超长上下文理解以及精确的指令遵循而设计。

今天我们在代码生成这一核心领域，对三款大语言模型展开实测对比。另外两款模型分别使用 DeepSeek R1 和 Claude 3.7 Sonnet。

DeepSeek R1 是深度求索（DeepSeek）公司推出的推理模型，专攻复杂逻辑推理任务，如数学证明、代码生成、决策分析。

Claude 3.7 Sonnet 是 Anthropic 的最新模型，在编码、数学、多模态任务等领域表现突出。

测试流程如下：

模型分别为 GPT-4.1、DeepSeek R1、Claude 3.7 Sonnet
选择相对复杂页面
测试方式分为使用 Figma MCP 和不使用 Figma MCP
代码只看一次生成效果不做后续调整，以保证公平性
工具使用 Cursor

如果不了解 MCP 或不知道如何在 Cursor 中使用 MCP 可以先看 Cursor+Figma MCP 设计稿还原如此简单这篇文章

测试页面选择 Figma 上的一个页面如下图：

不使用 Figma MCP #

提示词如下：

### 你是谁

你是一位资深前端工程师和设计工程师，具备丰富的前端开发经验和出色的审美能力，擅长现代化的设计风格，精通前端开发技术。

### 你要做什么

根据用户提供的截图，完整实现其展示的界面效果。

### 具体要求

- **样式设计**  
  使用 Tailwind CSS CDN（例如 `https://cdn.tailwindcss.com`）实现所有样式。

- **图片素材**  
  从 Unsplash 获取高质量图片，图片需与设计风格一致，确保内容完整显示。

- **图标使用**  
  通过 Lucide Static CDN 引入图标（例如 `https://unpkg.com/lucide-static@latest/icons/XXX.svg`），保证图标风格统一且集成简单。

- **代码规范**  
  代码必须简洁高效，易于阅读和维护。

DeepSeek R1 #

由于 DeepSeek R1 在 Cursor 上不支持图片识别，我们只能在官网测试。

生成的 html 页面可以直接运行，由于设计稿比较长，下面生成的效果都以视频形式呈现。

—视频1

可以看到尽管给上传了设计稿，但是并没有按照设计稿的效果来实现，并且实现的功能和设计稿也不匹配。

GPT 4.1 #

再把同样的提示词发送给 GPT 4.1。GPT 4.1 会首先生成一个实现思路如下：

然后再根据思路分模块实现，最终效果下：

—视频2

可以看到只实现了一个模块的功能，并且样式问题较大，有些图片没显示。

Claude 3.7 #

把同样的提示词发送给 Claude 3.7。由于设计稿图片比较长，最初 Claude 3.7 试图一次生成完整代码，但出现了 edit_file 错误，自动调整为按部分生成。

Error calling tool ’edit_file'.

让我分部分实现，首先创建基本HTML结构和头部部分：

生成过程只需等待，然后接受模型生成的代码即可。

—视频2

可以看到还原度还算可以，尽管样式有些差别，但模块没有遗漏，图片里该有的功能都有。

在上面的测评中 Claude 3.7 完胜。

使用 Figma MCP #

接下来我们来测试使用 Figma MCP 后的效果。

点击 Cursor+Figma MCP 设计稿还原如此简单了解 MCP 使用。

DeepSeek R1 #

发送链接后 DeepSeek 未调用 Figma MCP，因此生成代码和设计稿无关。

GPT 4.1 #

调用完 Figma MCP 后让模型使用 HTML+Tailwind CSS 实现页面，效果如下：

可以看到使用 Figma MCP 后效果有了大幅提升，所有的模块都实现了，但和设计稿仍有一定差异，同时页面中夹杂着中英文。

Claude 3.7 #

使用 Figma MCP 后效果更好，从 Figma 下载了图片，所有的模块有实现，并且因为我的提示词是中文，页面内容也都进行了翻译。

总结 #

对于复杂页面无论是否使用 Figma MCP 都未能 100% 还原设计稿。但在使用 Figma MCP 后 GPT4.1 效果得到明显提升，无论是否使用 Figma MCP 在页面生成领域 Claude3.7 更胜一筹。当然也可能 Cursor 对 DeepSeek 模型的兼容性不是很好导致 DeepSeek 未达到理想效果。实际上在非设计稿还原的场景下 DeepSeek 的推理能力是非常强的，因此可以根据实际情况选择更合适的模型。