数字人视频平台深度调研（Notion 风改版）

阅读建议：如果你只是想快速汇报结论，看上面的两个工作流即可；如果你需要理解为什么这样选、各平台表现如何、费用和开源替代路线是什么，再继续阅读下面的正文。

#一、调研概览

本次调研覆盖了 8+ 个主流数字人 / AI 视频平台 与多个开源方案，并结合实际测试结果，最终明确了两类视频生产场景的推荐工作流。

关键更新：

有言 AI 已实测成功，PPT 转数字人视频效果满意。
HyperFrame 已实测，不适合教程剪辑（会乱剪）。
Descript 已尝试用于教程脚本编辑，未成功。
EchoMimic V2 正在 Colab 上部署测试。
Wav2Lip 在线版已测试，免费额度仅 10 秒。
OmniShotCut 已确认是镜头边界检测研究模型，不是可直接使用的产品工具。

#二、各平台实测反馈

#1. 有言 AI（魔珐科技）— 实测通过 ✅

官网：https://www.youyan3d.com

实测结果：已成功生成测试版视频，效果不错，性价比可以，速度很快。

渲染 3 分钟视频只需要 3 分钟。
整个视频制作流程（从上传 PPT 到导出视频）不到 10 分钟。
目前仅支持 PPT + 脚本生成数字人视频。
教程类视频生成还需要进一步测试。

实测工作流（6 步）：

Claude 生成 PPT —— 生成完整 PPT 内容（标题、结构、页面逻辑和主要文案）。
GPT 生成并嵌入演讲者备注 —— 逐页生成讲稿并嵌入备注。
上传 PPT 到有言平台 —— 将带有演讲者备注的 PPT 上传。
选择场景、数字人和音色 —— 选择合适的数字人形象、视频场景和配音音色。
简单调整脚本、镜头与版式 —— 对脚本、镜头、节奏、人物位置做调整。
生成并导出数字人视频 —— 确认无误后生成导出。

实测费用数据：

项目	数值
免费赠送言币	300 言币
3 分钟视频消耗	约 115 言币
折算单分钟消耗	约 38.3 言币 / 分钟
免费额度可生成	约 7.8 分钟（约 2 条 3 分钟视频）

各套餐产出时长估算（按 38.3 言币 / 分钟）：

套餐	价格	言币额度	预计可生成时长	适合场景
免费版	¥0	赠送 300 言币	约 7.8 分钟	先体验流程
入门版（月）	¥49/月	1000 言币/月	约 26 分钟/月	轻度月度使用
入门版（年）	¥365/年	12000 言币/年	约 313 分钟/年	轻度长期使用
标准版（月）	¥99/月	2400 言币/月	约 63 分钟/月	中等频率使用
标准版（年）	¥598/年	28800 言币/年	约 752 分钟/年	持续稳定产出

核心权益对比：

权益	免费版	入门版	标准版
画质	基础	1080P	1080P
水印	有	无	无
视频导出	有限	不限	不限
个人商用	-	✅ 永久授权	✅ 永久授权
AI PPT	-	8 次/日	15 次/日
形象克隆	-	2 次/月	4 次/月
音色克隆	-	2 次/月	4 次/月
单条时长上限	-	5 分钟	10 分钟

选型建议：先用免费版 300 言币跑通流程 → 确认效果满意 → 标准版年付（¥598/年）适合长期稳定产出。

#2. HyperFrame — 实测不推荐 ❌

官网：https://hyperframe.ai

实测结果：用来剪辑已有教程视频，效果不理想。

具体问题：

会剪掉关键操作或台词。
该剪掉的重复内容、口误、等待停顿反而没剪掉。
AI 无法理解教程视频的语义，区分不了关键操作和废话。

优点：

开源免费。
可以接入 Codex 使用。
更适合文字直接转视频，不适合对已有素材进行加工。
可保留为备选项，等待更适配的使用场景。

结论：HyperFrame 主打生成式视频，不适合对已有素材进行剪辑加工。

#3. Descript — 实测未成功 ⚠️

官网：https://www.descript.com

实测结果：想通过直接删减脚本的方式剪辑教程录屏，尝试后失败，原因不明。

后续：

考虑找其他替代品或者直接手剪。
类似的“通过编辑文字来编辑视频”的工具还有不少，如 Premiere Pro 的文本编辑功能。
手剪教程视频并不算费劲，因此不是刚需。

价格参考：

方案	月费(年付)	核心内容
Free	$0	60 媒体分钟/月
Hobbyist	$16	基础编辑
Creator	$24	1800 媒体分钟/月，800 AI credits/月
Business	$50	团队协作 + 全部 AI 功能

#4. HeyGen — 行业标杆但贵，未实测

官网：https://www.heygen.com

评估结论：数字人效果业内标杆（Avatar IV 引擎，接近真人），但价格高，直接跳过实测。

方案	月费(年付)	核心内容
Free	$0	1 credit，720p，有水印
Creator	$24	15 credits/月
Business	$72	无限视频（标准速度）

适合预算充足的正式营销 / 培训视频场景。

#5. EchoMimic V2（蚂蚁/支付宝）— 开源方案，部署中 🔧

GitHub：https://github.com/antgroup/echomimic_v2（4.6k stars，CVPR 2025）

核心能力：

输入：1 张静态照片 + 1 段音频 + 手势序列（可选）。
输出：半身数字人说话视频，包含头部运动、面部表情、上半身动作与手势。
不需要针对特定人物训练，零样本（zero-shot）。
支持中英文音频，有 Gradio UI 可视化界面。

工作原理：

Reference UNet 提取参考照片中的身份特征。
audio_processor（基于 Whisper tiny）将音频转为特征向量。
pose_encoder 编码手势 / 姿态序列。
Denoising UNet 融合三者，通过扩散去噪过程生成连贯动画帧。

部署要求：

NVIDIA GPU（最低 V100 16G，推荐 RTX 4090 24G 或 A100）。
CUDA >= 11.7。
预训练权重约 3–4GB。

Colab 部署实测：

使用 Colab 免费版 T4 GPU 尝试。
部署过程遇到多个问题，正在逐步解决。
生成 15 秒视频预计需要 30 分钟以上（T4 较慢）。
部署需要较大运存和磁盘空间。

如果部署成功，可替代工作流中“多米 API 调用可灵生成数字人对口型视频”的步骤，从而降低成本。

相关开源方案对比：

项目	团队	特点	手部动作	状态
EchoMimic V2	蚂蚁/支付宝	半身数字人，CVPR 2025	✅	开源可用
EchoMimic V3	蚂蚁/支付宝	1.3B 参数统一多任务	✅	早期
OmniHuman-1.5	字节跳动	双系统认知，全身动作最强	✅✅	未开源，API 付费
ChatAnyone	HumanAIGC	实时 30fps（4090）	✅	开源
Hallo2	复旦+百度	4K / 1 小时长视频	❌	开源
LatentSync	字节跳动	扩散模型，质量优于 Wav2Lip	❌ 仅口型	开源

#6. Wav2Lip — 在线版已测试 ⚠️

GitHub：https://github.com/Rudrabha/Wav2Lip
在线版：https://www.wav2lip.org

实测结果：

在线版可以生成数字人对口型视频，效果和速度都还可以。
但免费额度只有 10 秒。
开源自部署方案也需要 GPU 部署（尚未尝试）。

在线版价格：

方案	月费	核心内容
Free	$0	10 credits/月（约 100 帧），最长 10 秒，512x512
Basic	$15.99/月	12000 credits/年，最长 60 秒，1024x1024
Standard	$39.99/月	36000 credits/年，不限时长，1472x1472
Pro	$119.99/月	120000 credits/年，不限时长，4K

技术背景：Wav2Lip 是 2020 年发布的对口型模型，到 2026 年已不是最优选择。LatentSync 质量更好，MuseTalk 支持实时生成。

#7. 其他平台简要评估

可灵 AI (Kling) —— 数字人 + 视频双功能

价格最低（$10/月起），4K 输出。
数字人质量不如 HeyGen，但性价比高。
当前通过多米 API 调用，已在工作流中使用。

讯飞智作 —— 中文语音最强

配音功能业界第一（¥45/月）。
数字人画质只有 720P，表情偏僵硬。
适合仅需要中文配音的场景。

海螺 AI / MiniMax —— 不适合此需求

主要是 AI 视频生成（文生视频），不是数字人口播工具。

OmniHuman（字节跳动） —— 技术前沿但无产品

全身运动最自然，API $0.14/秒。
通常通过 fal.ai 或即梦/Dreamina 使用。

#三、关于 OmniShotCut

OmniShotCut（arXiv: 2604.24762）是字节跳动的 AI 镜头边界检测研究模型。

它解决的是 AI 如何理解视频中的镜头切换，包括硬切、淡入淡出等 30+ 种转场类型。
不是一个视频编辑工具或数字人工具，而是底层 AI 技术。
目前没有面向终端用户的产品形态。

建议跟老板说明：这是学术论文 + 底层技术，短期内无法直接使用。

来源：

论文：https://arxiv.org/html/2604.24762v1
AI Search：https://ai-search.io/tool/omnishotcut

#四、综合对比表

平台	类型	数字人逼真度	实测状态	起步价格	适合场景
有言 AI	PPT 转 3D 数字人	⭐⭐⭐⭐	✅ 已通过	¥49/月	PPT / MD 转讲解视频
HeyGen	数字人口播	⭐⭐⭐⭐⭐	跳过（贵）	$24/月	预算充足的正式视频
HyperFrame	交互叙事	⭐⭐⭐⭐	❌ 不适合剪辑	免费	生成式视频（非剪辑）
Descript	视频编辑	⭐⭐⭐	⚠️ 未成功	$24/月	需进一步排查
可灵 AI	视频 + 数字人	⭐⭐⭐⭐	已在工作流中	$10/月	对口型性价比高
EchoMimic V2	开源数字人	⭐⭐⭐⭐	🔧 部署中	免费需 GPU	替代可灵的免费方案
Wav2Lip	开源对口型	⭐⭐⭐	⚠️ 在线测了	在线 $15.99/月	对口型备选
讯飞智作	配音 + 数字人	⭐⭐⭐	-	¥45/月	中文配音
OmniHuman	数字人技术	⭐⭐⭐⭐⭐	-	API $0.14/秒	技术前沿

#五、Rachel 的两个工作流最终方案

本节内容已在文档最前方做了左右对比展示。这里保留文字版，便于复制到报告或备忘录中。

#工作流 A：教程视频制作（已确定的实际工作流）

OBS 录屏 → MiniMax 生成音频 → 多米API调用可灵数字人对口型 → 剪映手剪拼接

可能的优化（降低成本）：

步骤	当前方案	可替代为	理由
数字人对口型	多米 API 调用可灵	EchoMimic V2（开源）	免费，效果待验证
剪辑拼接	剪映手剪	HyperFrame	开源免费，但需找对使用场景

说明：

教程视频的核心是“录屏讲解”，不太依赖数字人平台。
MiniMax 生成音频的质量已经够用。
可灵的对口型效果不错，但通过多米 API 调用有成本。
如果 EchoMimic V2 部署成功且效果达标，可以替代可灵步骤，大幅降低成本。
剪映手剪目前是最稳定的方案，HyperFrame 可作为备选探索。

#工作流 B：PPT 生成讲解类数字人视频（已确定方案）

Claude 生成 PPT → GPT 生成演讲备注 → 上传有言 → 选数字人/音色 → 调整 → 生成视频

推荐套餐：

先用免费版 300 言币验证流程。
确认满意后 → 标准版年付 ¥598/年（约 752 分钟视频/年）。
如果产出频率不高 → 入门版年付 ¥365/年（约 313 分钟视频/年）。

有言的优势：

专为 PPT 转视频设计，上传即解析。
AI 自动生成讲解词，可编辑。
3000+ 3D 数字人形象，效果远超 2D。
3 分钟视频 3 分钟渲染，效率极高。
1000+ 企业客户验证（海尔、伊利、中兴等）。

#六、成本总结

工作流	方案	月度成本	备注
A：教程视频	OBS + MiniMax + 可灵(多米API) + 剪映	多米API按量计费	当前方案
A：教程视频（优化）	OBS + MiniMax + EchoMimic V2 + 剪映	免费（需 GPU）	开源替代
B：PPT 转视频	有言 AI 标准版年付	¥50/月（均摊）	已验证

如果两个工作流都走开源路线（EchoMimic V2 替代可灵），主要成本只有有言 AI 的 ¥50/月。

#七、待办事项

EchoMimic V2 Colab 部署完成并验证效果（当前在解决模型依赖问题）
有言 AI 教程类视频生成测试（当前仅验证了 PPT 转视频）
Wav2Lip 开源自部署尝试（如有需要）
Descript 教程剪辑失败原因排查（优先级低，手剪可替代）

数字人视频生成平台深度调研

🚀 优先看：两个工作流最终方案

教程视频制作

PPT 生成讲解类数字人视频

#一、调研概览

#二、各平台实测反馈

#1. 有言 AI（魔珐科技）— 实测通过 ✅

#2. HyperFrame — 实测不推荐 ❌

#3. Descript — 实测未成功 ⚠️

#4. HeyGen — 行业标杆但贵，未实测

#5. EchoMimic V2（蚂蚁/支付宝）— 开源方案，部署中 🔧

#6. Wav2Lip — 在线版已测试 ⚠️

#7. 其他平台简要评估

#三、关于 OmniShotCut

#四、综合对比表

#五、Rachel 的两个工作流最终方案

#工作流 A：教程视频制作（已确定的实际工作流）

#工作流 B：PPT 生成讲解类数字人视频（已确定方案）

#六、成本总结

#七、待办事项