从哪吒2热潮到AI短片创作：AI视频实战测评

最近电影《哪吒之魔童闹海》的火爆上映，国产动画再次成为大家关注的焦点。同时 AI 相关技术也如火如荼的发展。我突然想尝试用 AI 制作一部动画短片，体验并记录下当前 AI 短片创作的真实感受与实践经验。

准备阶段 #

动画制作流程 #

作为一个动画领域的小白，我首先需要了解 AI 动画制作流程，这一步让 ChatGPT 帮忙梳理流程：

本来想用 DeepSeek，奈何官网经常出现“服务器繁忙，请稍后再试。” 最终使用的 ChatGPT。

问: 我是一个0经验的动画爱好者，想做一个2分钟左右的动画短片，请帮我详细规划一下需要完成这个短片需要做哪些事情。

答：

确定主题与目标 #

明确故事内容：先思考你想表达的核心信息或情感，比如友情、冒险、科普等；确定目标受众（如小朋友、青少年或大众）。

撰写剧本 #

故事大纲：为2分钟的短片规划一个有明确开头、中间和结尾的故事。
对白与旁白：写出必要的对白和文字说明，确保故事逻辑连贯。
时长规划：预估每个场景的时长，确保整体控制在2分钟左右。

制作分镜头脚本 #

草图绘制：用简单的画面草图来展现每个镜头的构图、角色动作和转场效果。
描述与标注：在草图旁边注明场景内容、台词、音效及时长。

素材准备与角色/场景设计 #

素材收集：搜集需要的图片、背景音乐、音效和其他视觉素材。你可以从素材库或使用在线模板（例如来画、万彩动画大师等平台提供的素材）获得资源。
角色与场景设计：设计角色外形、服装、表情以及各个场景的背景环境。对于初学者来说，简洁风格更容易入手，重点在于传达故事情感即可。

已将重点内容进行精简，其中重点的工作就是写剧本和分镜脚本，还交给 ChatGPT 来完成。

问: 我的故事主题为《北漂小马通勤大冒险》，讲述北漂小马早上通勤的故事，例如早上起床洗漱，然后坐公交转地铁，下了地铁在骑共享单车去公司，请帮忙写一下剧本和分镜头脚本。

答：

剧本 #

标题： 《北漂小马通勤大冒险》

故事简介：
北漂小马是一个在大都市打拼的小人物，每天早晨他都要经历一系列“冒险”般的通勤旅程。从赖床到起床洗漱，从挤上公交到转乘地铁，再到最后骑共享单车赶往公司，每个环节都充满了小插曲与幽默，展现了北漂生活的忙碌与乐趣。

分镜头脚本 #

下面将剧本分解为具体的镜头描述，每个镜头均标注画面构图、动作、对白或旁白提示及音乐/音效说明。

场景一：清晨起床 #

镜头1-1
- 画面描述： 近景，显示桌上的闹钟（时间：6:30），闹钟铃声响起。
- 音效： 轻快的铃声。
- 时长： 3秒。
镜头1-2
- 画面描述： 中景，小马半躺在床上，慢慢睁开眼睛，揉眼睛，房间柔和的晨光透过窗帘。
- 旁白/内心独白： “新的一天，又要开始北漂的冒险了……”
- 时长： 5秒。
镜头1-3
- 画面描述： 快速剪辑小马洗漱、刷牙、整理仪表的镜头。
- 背景音乐： 轻快、充满活力的背景乐。
- 时长： 7秒。

场景二：出门与乘坐公交 #

镜头2-1
- 画面描述： 全景，清晨的社区外景，小马背着公文包走出家门，街上人来人往。
- 音效： 街道的环境声、行人的脚步声。
- 时长： 5秒。
镜头2-2
- 画面描述： 中景，小马在公交站前等待，偶尔看向远处驶来的公交车。
- 时长： 4秒。
镜头2-3
- 画面描述： 近景，小马急步跑向公交车，画面定格在他跃入车厢的一瞬。
- 音效： 轻微的奔跑脚步声与车门开启的声音。
- 时长： 4秒。

场景三：公交转地铁 #

镜头3-1
- 画面描述： 公交车内特写，小马靠窗坐着，望向窗外的晨曦，表情中带着轻松与略许紧张。
- 时长： 5秒。
镜头3-2
- 画面描述： 车外全景，公交车停靠站点，小马下车后向地铁入口走去。
- 旁白： “从公交到地铁，每一站都是新的考验。”
- 时长： 6秒。

场景四：地铁之旅 #

镜头4-1
- 画面描述： 地铁车厢内部全景，人群密集，小马找到一个空隙坐下。
- 背景音效： 地铁轰鸣声、广播提示音。
- 时长： 5秒。
镜头4-2
- 画面描述： 特写小马的脸，露出一丝无奈中带着幽默的微笑，并轻声自语：“北漂路上，总得抢个好座。”
- 时长： 4秒。

场景五：共享单车的最后冲刺 #

镜头5-1
- 画面描述： 地铁站出口，中景，小马走出地铁站，看见停放在路边的共享单车。
- 时长： 4秒。
镜头5-2
- 画面描述： 特写，小马拿出手机扫码开锁，屏幕上显示“解锁成功”。
- 时长： 3秒。
镜头5-3
- 画面描述： 动态跟拍镜头，侧面拍摄小马骑上单车后穿梭于城市街道，镜头稍微摇动以表现速度感。
- 旁白： “共享单车，最后一关，小马要和时间赛跑！”
- 背景音乐： 节奏加快的背景乐。
- 时长： 7秒。

场景六：到达公司 #

镜头6-1
- 画面描述： 全景，小马停在公司楼前，下车后整理仪表，对着镜头微笑。
- 时长： 5秒。
镜头6-2
- 画面描述： 拉远镜头，展现公司大楼与晨曦中忙碌的城市背景。
- 旁白/内心独白： “通勤大冒险，每一天都充满挑战，但也让我充满干劲！”
- 背景音乐： 渐渐收尾、充满希望的旋律。
- 时长： 6秒。

开始创作 #

在 ChatGPT 给的分镜头脚本的基础上，我进行了一些修改。有了剧本和分镜头脚本接下来就是创作每一个分镜头，先介绍一下创作分镜头选择的 AI 工具。

工具选择 #

文生图-悠船 #

作为文生图第一梯队的 Midjourney（ https://www.midjourney.com），由于网络访问的原因，我选择了 Midjourney 的国内版本悠船（ https://www.youchuan.cn）。

文/图生视频-即梦 #

文/图生视频选择的工具也不少比如，可灵、即梦、海螺，我选择的即梦。

确定动画风格 #

皮克斯风格

特点：皮克斯风格以色彩鲜艳、柔和的颜色、电影纹理、清晰的焦点和细节精致为特点，注重角色的情感表达和故事的深度，通过3D渲染技术创造出逼真的光影效果和立体感，使动画角色和场景栩栩如生。

代表作品：《玩具总动员》《海底总动员》《超人总动员》等。

宫崎骏风格

特点：宫崎骏的动画风格以奇幻、冒险、成长、人与自然等主题为核心，画面细腻、情感丰富，具有独特的艺术魅力。

代表作品：《千与千寻》《风之谷》《天空之城》等。

我选择的是皮克斯风格。

生成人物形象 #

工具：悠船

prompt:Full body orthographic projection showing front/back/side views, 3D cartoon boy character design, wearing red plaid button-up shirt with rolled sleeves, faded blue jeans with ripped knees, white sneakers with cyan accents, jet black anime hair with sharp angular bangs, two-tone red highlights, gravity-defying spikes at back, soft cel-shaded lighting, volumetric hair strands, 8k detailed texture, Blender render style, turnaround sheet presentation, Pixar style。

对于支持国内用户的生模型，提示词用中文英文都可以，如果是输入中文背后应该进行了翻译。 Midjourney 目前并不支持中文提示词。

提示词技巧 #

提示词 = 主体（主体描述）+ 场景（场景描述）+ 运动（运动描述）+ 镜头语言

景别类型：特写镜头、近景镜头、中景镜头、远景镜头、鸟瞰镜头

景别类型	说明
特写镜头	聚焦于被摄对象的局部（如面部、眼睛或物体细节），排除外部环境干扰，突出情绪和细微变化。
近景镜头	拍摄范围略宽于特写，通常包含人物的上半身或局部场景，既能捕捉表情细节，又保留部分背景信息，增强情感联系。
中景镜头	取景范围覆盖人物从腰部或胸部以上的区域，既展示角色的动作和表情，又能提供环境信息，是常用的叙事镜头。
远景镜头	拍摄距离较远，使得被摄对象在画面中显得较小，环境和背景占主导，用于交代场景、营造空间感和宏大气氛。
鸟瞰镜头	从高处俯视拍摄，类似鸟瞰视角，可全方位展示场景布局与空间关系，给观众一种全局的视觉体验。

视角类型：平视、俯视、仰视、航拍

视角类型	说明
平视	摄像机与被摄对象保持在同一水平线上，呈现出最自然、中性和真实的视觉效果，能够展示角色间平等的关系和真实情境。
俯视	摄像机位于被摄对象上方向下拍摄，使对象在画面中显得较小或处于劣势，常用来营造全局感或表达角色的无助与脆弱。
仰视	摄像机位于被摄对象下方向上拍摄，使对象显得更为高大、威严或具有权威感，常用于刻画英雄气质、强调力量或制造紧张氛围。
航拍	通过无人机或其他飞行设备从高空拍摄，提供俯瞰全局的广阔视野，展示宏大场景、城市全景或自然风光，带来独特且震撼的视觉效果。

镜头类型：微距、鱼眼、广角、长焦

镜头类型	说明
微距	专为近距离拍摄设计，能够捕捉细微的细节和纹理，常实现 1:1 的放大比例，适合拍摄昆虫、花朵等微小物体。
鱼眼	一种超广角镜头，具有极宽的视角（通常达 180° 甚至更多），会产生明显的弧形畸变效果，常用于创意拍摄和制造独特视觉冲击。
广角	焦距较短，提供宽阔的拍摄视角，能捕捉更多环境信息，适合风景、建筑及群体拍摄，同时保持较低的画面畸变。
长焦	焦距较长，可拉近远处的主体，具有压缩空间和虚化背景的效果，常用于野生动物、体育赛事或人像拍摄，突出主体细节。

运镜类型：推进、拉远、平移、跟随、环绕

运镜类型	说明
推进	摄像机向被摄主体方向移动，画面逐渐放大，从而突出细节和情感，制造紧迫感。
拉远	摄像机从主体后移，使画面逐渐拉远，展示更多背景和环境，常用来交代场景或表达孤立感。
平移	摄像机保持角度不变，沿水平或垂直方向移动，用于展示场景全貌或平稳地转换视角。
跟随	摄像机持续追踪运动中的主体，确保主体始终处于画面中，增强现场感和代入感。
环绕	摄像机绕着主体做圆弧运动，从多个角度展现主体与环境的关系，营造独特的空间感和视觉冲击。

生成分镜 #

一切准备就绪后就可以生成分镜了。我最初的想法是，首先将每一个分镜头先用悠船生成图片，然后在用即梦以图生图的形式生成视频，因为文生图可以通过垫图的形式尽量保证角色的一致性。然而实际操作过程中发现，单纯对生成图片的人物进行垫图效果并不理想，因此在角色一致性上更多的是通过详细描述人物的穿着来尽可能保证一致性。

比如这个，只对人物进行垫图效果并不好，所以还是详细描述人物的穿着来保证一致性。

prompt: 3D cartoon style, Cartoon boy, rolled-sleeve red plaid button-up shirt, faded blue denim jeans with knee holes, white sneakers with teal accents, jet-black anime hair with angular bangs riding a bicycle, dynamic pose, cheerful expression, lively; urban road, busy street, detailed pavement, cityscape backdrop, sunny daylight; wide-angle shot, eye-level perspective, centered composition; Pixar style, high resolution, vibrant colors, intricate textures, dynamic lighting, 4K.

文/图生视频 #

然后在使用即梦进行图生视频：

其他的分镜类似，不一一介绍了，当然也可以让大模型写分镜头生成的图片、视频的prompt，比如：

生成音频 #

文本转语音（TTS）的工具其实很多，这里不多介绍了。

剪辑 #

剪辑和字幕生成使用的剪映。

问题 #

角色一致性无法保证
生成的多个视频之间的连贯性差（当然也因为我花的时间不够多，细节没有很好的打磨）
视频对 prompt 还原性不稳定，类似于抽卡，比如我想生成一个匆忙进电梯的镜头，模型始终无法理解
基于第三点，每个镜头需要生成很多视频，视频生成成本较高

总结 #

AI 视频在动画创作中的应用确实为我这种0基础的创作者带来了极大的趣味性。通过简单的文本提示，可以迅速生成各种复杂场景和动作的动画图像与视频。然而，现阶段的 AI 工具在角色一致性、视频连贯性以及场景还原方面仍存在一定的不足，特别是在创作过程中，需要不断进行试错和调试以达到预期效果。因此，对于没有专业背景的创作者来说，AI 视频可以作为一定的辅助工具，但仍然需要付出较多的耐心与时间来调优输出的内容。但随着技术的不断进步，我相信 AI 将在动画创作领域发挥更大的作用，未来能够实现更高效、更流畅、更一致的创作过程，真正让创作者的灵感与创意得到更好地实现。