阅读建议:如果你只是想快速汇报结论,看上面的两个工作流即可;如果你需要理解为什么这样选、各平台表现如何、费用和开源替代路线是什么,再继续阅读下面的正文。
#一、调研概览
本次调研覆盖了 8+ 个主流数字人 / AI 视频平台 与多个开源方案,并结合实际测试结果,最终明确了两类视频生产场景的推荐工作流。
关键更新:
- 有言 AI 已实测成功,PPT 转数字人视频效果满意。
- HyperFrame 已实测,不适合教程剪辑(会乱剪)。
- Descript 已尝试用于教程脚本编辑,未成功。
- EchoMimic V2 正在 Colab 上部署测试。
- Wav2Lip 在线版已测试,免费额度仅 10 秒。
- OmniShotCut 已确认是镜头边界检测研究模型,不是可直接使用的产品工具。
#二、各平台实测反馈
#1. 有言 AI(魔珐科技)— 实测通过 ✅
实测结果:已成功生成测试版视频,效果不错,性价比可以,速度很快。
- 渲染 3 分钟视频只需要 3 分钟。
- 整个视频制作流程(从上传 PPT 到导出视频)不到 10 分钟。
- 目前仅支持 PPT + 脚本生成数字人视频。
- 教程类视频生成还需要进一步测试。
实测工作流(6 步):
- Claude 生成 PPT —— 生成完整 PPT 内容(标题、结构、页面逻辑和主要文案)。
- GPT 生成并嵌入演讲者备注 —— 逐页生成讲稿并嵌入备注。
- 上传 PPT 到有言平台 —— 将带有演讲者备注的 PPT 上传。
- 选择场景、数字人和音色 —— 选择合适的数字人形象、视频场景和配音音色。
- 简单调整脚本、镜头与版式 —— 对脚本、镜头、节奏、人物位置做调整。
- 生成并导出数字人视频 —— 确认无误后生成导出。
实测费用数据:
| 项目 | 数值 |
|---|---|
| 免费赠送言币 | 300 言币 |
| 3 分钟视频消耗 | 约 115 言币 |
| 折算单分钟消耗 | 约 38.3 言币 / 分钟 |
| 免费额度可生成 | 约 7.8 分钟(约 2 条 3 分钟视频) |
各套餐产出时长估算(按 38.3 言币 / 分钟):
| 套餐 | 价格 | 言币额度 | 预计可生成时长 | 适合场景 |
|---|---|---|---|---|
| 免费版 | ¥0 | 赠送 300 言币 | 约 7.8 分钟 | 先体验流程 |
| 入门版(月) | ¥49/月 | 1000 言币/月 | 约 26 分钟/月 | 轻度月度使用 |
| 入门版(年) | ¥365/年 | 12000 言币/年 | 约 313 分钟/年 | 轻度长期使用 |
| 标准版(月) | ¥99/月 | 2400 言币/月 | 约 63 分钟/月 | 中等频率使用 |
| 标准版(年) | ¥598/年 | 28800 言币/年 | 约 752 分钟/年 | 持续稳定产出 |
核心权益对比:
| 权益 | 免费版 | 入门版 | 标准版 |
|---|---|---|---|
| 画质 | 基础 | 1080P | 1080P |
| 水印 | 有 | 无 | 无 |
| 视频导出 | 有限 | 不限 | 不限 |
| 个人商用 | - | ✅ 永久授权 | ✅ 永久授权 |
| AI PPT | - | 8 次/日 | 15 次/日 |
| 形象克隆 | - | 2 次/月 | 4 次/月 |
| 音色克隆 | - | 2 次/月 | 4 次/月 |
| 单条时长上限 | - | 5 分钟 | 10 分钟 |
选型建议:先用免费版 300 言币跑通流程 → 确认效果满意 → 标准版年付(¥598/年)适合长期稳定产出。
#2. HyperFrame — 实测不推荐 ❌
实测结果:用来剪辑已有教程视频,效果不理想。
具体问题:
- 会剪掉关键操作或台词。
- 该剪掉的重复内容、口误、等待停顿反而没剪掉。
- AI 无法理解教程视频的语义,区分不了关键操作和废话。
优点:
- 开源免费。
- 可以接入 Codex 使用。
- 更适合文字直接转视频,不适合对已有素材进行加工。
- 可保留为备选项,等待更适配的使用场景。
结论:HyperFrame 主打生成式视频,不适合对已有素材进行剪辑加工。
#3. Descript — 实测未成功 ⚠️
实测结果:想通过直接删减脚本的方式剪辑教程录屏,尝试后失败,原因不明。
后续:
- 考虑找其他替代品或者直接手剪。
- 类似的“通过编辑文字来编辑视频”的工具还有不少,如 Premiere Pro 的文本编辑功能。
- 手剪教程视频并不算费劲,因此不是刚需。
价格参考:
| 方案 | 月费(年付) | 核心内容 |
|---|---|---|
| Free | $0 | 60 媒体分钟/月 |
| Hobbyist | $16 | 基础编辑 |
| Creator | $24 | 1800 媒体分钟/月,800 AI credits/月 |
| Business | $50 | 团队协作 + 全部 AI 功能 |
#4. HeyGen — 行业标杆但贵,未实测
评估结论:数字人效果业内标杆(Avatar IV 引擎,接近真人),但价格高,直接跳过实测。
| 方案 | 月费(年付) | 核心内容 |
|---|---|---|
| Free | $0 | 1 credit,720p,有水印 |
| Creator | $24 | 15 credits/月 |
| Business | $72 | 无限视频(标准速度) |
适合预算充足的正式营销 / 培训视频场景。
#5. EchoMimic V2(蚂蚁/支付宝)— 开源方案,部署中 🔧
GitHub:https://github.com/antgroup/echomimic_v2(4.6k stars,CVPR 2025)
核心能力:
- 输入:1 张静态照片 + 1 段音频 + 手势序列(可选)。
- 输出:半身数字人说话视频,包含头部运动、面部表情、上半身动作与手势。
- 不需要针对特定人物训练,零样本(zero-shot)。
- 支持中英文音频,有 Gradio UI 可视化界面。
工作原理:
- Reference UNet 提取参考照片中的身份特征。
- audio_processor(基于 Whisper tiny)将音频转为特征向量。
- pose_encoder 编码手势 / 姿态序列。
- Denoising UNet 融合三者,通过扩散去噪过程生成连贯动画帧。
部署要求:
- NVIDIA GPU(最低 V100 16G,推荐 RTX 4090 24G 或 A100)。
- CUDA >= 11.7。
- 预训练权重约 3–4GB。
Colab 部署实测:
- 使用 Colab 免费版 T4 GPU 尝试。
- 部署过程遇到多个问题,正在逐步解决。
- 生成 15 秒视频预计需要 30 分钟以上(T4 较慢)。
- 部署需要较大运存和磁盘空间。
如果部署成功,可替代工作流中“多米 API 调用可灵生成数字人对口型视频”的步骤,从而降低成本。
相关开源方案对比:
| 项目 | 团队 | 特点 | 手部动作 | 状态 |
|---|---|---|---|---|
| EchoMimic V2 | 蚂蚁/支付宝 | 半身数字人,CVPR 2025 | ✅ | 开源可用 |
| EchoMimic V3 | 蚂蚁/支付宝 | 1.3B 参数统一多任务 | ✅ | 早期 |
| OmniHuman-1.5 | 字节跳动 | 双系统认知,全身动作最强 | ✅✅ | 未开源,API 付费 |
| ChatAnyone | HumanAIGC | 实时 30fps(4090) | ✅ | 开源 |
| Hallo2 | 复旦+百度 | 4K / 1 小时长视频 | ❌ | 开源 |
| LatentSync | 字节跳动 | 扩散模型,质量优于 Wav2Lip | ❌ 仅口型 | 开源 |
#6. Wav2Lip — 在线版已测试 ⚠️
GitHub:https://github.com/Rudrabha/Wav2Lip
在线版:https://www.wav2lip.org
实测结果:
- 在线版可以生成数字人对口型视频,效果和速度都还可以。
- 但免费额度只有 10 秒。
- 开源自部署方案也需要 GPU 部署(尚未尝试)。
在线版价格:
| 方案 | 月费 | 核心内容 |
|---|---|---|
| Free | $0 | 10 credits/月(约 100 帧),最长 10 秒,512x512 |
| Basic | $15.99/月 | 12000 credits/年,最长 60 秒,1024x1024 |
| Standard | $39.99/月 | 36000 credits/年,不限时长,1472x1472 |
| Pro | $119.99/月 | 120000 credits/年,不限时长,4K |
技术背景:Wav2Lip 是 2020 年发布的对口型模型,到 2026 年已不是最优选择。LatentSync 质量更好,MuseTalk 支持实时生成。
#7. 其他平台简要评估
可灵 AI (Kling) —— 数字人 + 视频双功能
- 价格最低($10/月起),4K 输出。
- 数字人质量不如 HeyGen,但性价比高。
- 当前通过多米 API 调用,已在工作流中使用。
讯飞智作 —— 中文语音最强
- 配音功能业界第一(¥45/月)。
- 数字人画质只有 720P,表情偏僵硬。
- 适合仅需要中文配音的场景。
海螺 AI / MiniMax —— 不适合此需求
- 主要是 AI 视频生成(文生视频),不是数字人口播工具。
OmniHuman(字节跳动) —— 技术前沿但无产品
- 全身运动最自然,API $0.14/秒。
- 通常通过 fal.ai 或即梦/Dreamina 使用。
#三、关于 OmniShotCut
OmniShotCut(arXiv: 2604.24762)是字节跳动的 AI 镜头边界检测研究模型。
- 它解决的是 AI 如何理解视频中的镜头切换,包括硬切、淡入淡出等 30+ 种转场类型。
- 不是一个视频编辑工具或数字人工具,而是底层 AI 技术。
- 目前没有面向终端用户的产品形态。
建议跟老板说明:这是学术论文 + 底层技术,短期内无法直接使用。
来源:
#四、综合对比表
| 平台 | 类型 | 数字人逼真度 | 实测状态 | 起步价格 | 适合场景 |
|---|---|---|---|---|---|
| 有言 AI | PPT 转 3D 数字人 | ⭐⭐⭐⭐ | ✅ 已通过 | ¥49/月 | PPT / MD 转讲解视频 |
| HeyGen | 数字人口播 | ⭐⭐⭐⭐⭐ | 跳过(贵) | $24/月 | 预算充足的正式视频 |
| HyperFrame | 交互叙事 | ⭐⭐⭐⭐ | ❌ 不适合剪辑 | 免费 | 生成式视频(非剪辑) |
| Descript | 视频编辑 | ⭐⭐⭐ | ⚠️ 未成功 | $24/月 | 需进一步排查 |
| 可灵 AI | 视频 + 数字人 | ⭐⭐⭐⭐ | 已在工作流中 | $10/月 | 对口型性价比高 |
| EchoMimic V2 | 开源数字人 | ⭐⭐⭐⭐ | 🔧 部署中 | 免费需 GPU | 替代可灵的免费方案 |
| Wav2Lip | 开源对口型 | ⭐⭐⭐ | ⚠️ 在线测了 | 在线 $15.99/月 | 对口型备选 |
| 讯飞智作 | 配音 + 数字人 | ⭐⭐⭐ | - | ¥45/月 | 中文配音 |
| OmniHuman | 数字人技术 | ⭐⭐⭐⭐⭐ | - | API $0.14/秒 | 技术前沿 |
#五、Rachel 的两个工作流最终方案
本节内容已在文档最前方做了左右对比展示。这里保留文字版,便于复制到报告或备忘录中。
#工作流 A:教程视频制作(已确定的实际工作流)
OBS 录屏 → MiniMax 生成音频 → 多米API调用可灵数字人对口型 → 剪映手剪拼接
可能的优化(降低成本):
| 步骤 | 当前方案 | 可替代为 | 理由 |
|---|---|---|---|
| 数字人对口型 | 多米 API 调用可灵 | EchoMimic V2(开源) | 免费,效果待验证 |
| 剪辑拼接 | 剪映手剪 | HyperFrame | 开源免费,但需找对使用场景 |
说明:
- 教程视频的核心是“录屏讲解”,不太依赖数字人平台。
- MiniMax 生成音频的质量已经够用。
- 可灵的对口型效果不错,但通过多米 API 调用有成本。
- 如果 EchoMimic V2 部署成功且效果达标,可以替代可灵步骤,大幅降低成本。
- 剪映手剪目前是最稳定的方案,HyperFrame 可作为备选探索。
#工作流 B:PPT 生成讲解类数字人视频(已确定方案)
Claude 生成 PPT → GPT 生成演讲备注 → 上传有言 → 选数字人/音色 → 调整 → 生成视频
推荐套餐:
- 先用免费版 300 言币验证流程。
- 确认满意后 → 标准版年付 ¥598/年(约 752 分钟视频/年)。
- 如果产出频率不高 → 入门版年付 ¥365/年(约 313 分钟视频/年)。
有言的优势:
- 专为 PPT 转视频设计,上传即解析。
- AI 自动生成讲解词,可编辑。
- 3000+ 3D 数字人形象,效果远超 2D。
- 3 分钟视频 3 分钟渲染,效率极高。
- 1000+ 企业客户验证(海尔、伊利、中兴等)。
#六、成本总结
| 工作流 | 方案 | 月度成本 | 备注 |
|---|---|---|---|
| A:教程视频 | OBS + MiniMax + 可灵(多米API) + 剪映 | 多米API按量计费 | 当前方案 |
| A:教程视频(优化) | OBS + MiniMax + EchoMimic V2 + 剪映 | 免费(需 GPU) | 开源替代 |
| B:PPT 转视频 | 有言 AI 标准版年付 | ¥50/月(均摊) | 已验证 |
如果两个工作流都走开源路线(EchoMimic V2 替代可灵),主要成本只有有言 AI 的 ¥50/月。
#七、待办事项
- EchoMimic V2 Colab 部署完成并验证效果(当前在解决模型依赖问题)
- 有言 AI 教程类视频生成测试(当前仅验证了 PPT 转视频)
- Wav2Lip 开源自部署尝试(如有需要)
- Descript 教程剪辑失败原因排查(优先级低,手剪可替代)