视频数字人

名称

性别

女男

原始素材

上传视频

单击或将文件拖到此区域进行上传
格式: mp4/mov, 时长: 最少 3秒，最多 5分钟分辨率建议为720P或1080P，最大分辨率不超过4K

保持原始视频分辨率，如果您的视频分辨率大于1080P，将消耗更长时间自动专业克隆。您的视频必须包含清晰的声音 (100 )

原始背景（若不选择背景，则无法使用背景抠图）

上传图片

单击或将文件拖到此区域进行上传
格式: jpg/png, 大小: 不超过 20M

选取背景颜色

我的结果

使用说明

API

视频生成形象操作流程

1. 上传一段您自己的视频，格式为mp4或者mov。可以为横版或者竖版，尺寸不限。视频长度至少3秒。该视频将成为您所有后续 AI 数字人视频的基础。确保人物美观清晰。

2. 上传后，点击"快速创建"开始AI训练（限时免费）。

3. 等待10分钟，从"视频创建"-"我的形象"中选择您刚创建的AI 克隆创作视频。

4. （可选）如您对克隆形象的嘴型效果不满意，请首先检查您的训练视频是否符合要求：视频中只有一张脸；人物必须在视频中讲话；音频和嘴唇运动必须同步；避免环境噪音或其他声音。如果您的训练视频符合要求，您可以点击已经完成初次训练的形象，再点击"专业克隆"（扣除一个钻石）为您的形象进行更多的AI训练。等待2小时后，后台会自动更新您的AI模型。选择同一个形象，即可合成嘴型效果更好的视频。

价格：进行1次"专业克隆"需要 100 个金币

原始素材要求

1. 不要使用有多个人脸出现的视频

2. 确保人脸占比不要过大或过小，确保整张人脸都在屏幕区域内，人脸不要出屏幕, 建议人脸宽度占整体画面宽度的十分之一至三分之一

3. 确保面部特征未被遮挡，使五官和面部轮廓清晰可见

4. 上传的视频分辨率建议为720P或1080P，最大分辨率不超过4K

5. 视频时长不少于3秒，不超过5分钟（3s-5min）

6. 为了获取更好的口型生成效果, 建议使用正常讲话的人物视频, 视频中音频和嘴唇运动必须同步, 避免环境噪音或其他声音（除了讲话声）。保持适度的语速，语速过慢可能会降低嘴唇同步精度，语速过快可能会导致嘴唇同步抖动。

示例

五官清晰

侧面

有遮挡

过于模糊

多个人脸

占比过大

原始背景要求

1. 如果您需要移除上传图片或视频中的背景，请上传对应背景的图片。背景图片必须和原始图片或视频的尺寸和分辨率一致。背景图片不是您将来替换的图片，而是您原始图片或视频中的背景部分。例如，如果你的视频是你自己在某个房间中拍摄的口播视频，则背景图片必须是这个房间从同一个角度拍摄的照片。

2. 如果您的原始图片或视频只有纯色背景，例如绿幕，您也可以从色盘中选取和您视频背景颜色一样的颜色。

3. 如果您不需要做背景移除，请忽略上传背景图。

示例

原始素材

原始背景

抠图效果

专业克隆

基于提供的视频素材继续训练深度模型，进一步提高生成人脸的清晰度和相似度。如果视频素材具有良好的音画同步性，继续训练后的模型可以生成同步度更高的口型。如果视频素材中音画不同步或者声音质量较差，请不要专业克隆。

1. 不要使用有多个人脸出现的视频

2. 确保人脸占比不要过大或过小，确保整张人脸都在屏幕区域内，人脸不要出屏幕, 建议人脸宽度占整体画面宽度的十分之一至三分之一

3. 确保面部特征未被遮挡，使五官和面部轮廓清晰可见

4. 上传的视频分辨率建议为720P或1080P，最大分辨率不超过4K

5. 视频时长不少于3秒，不超过5分钟（3s-5min）

眼神纠正

在实际的视频录制过程中，一般人很难做到长时间盯住镜头，容易出现眼神飘忽的问题，使得录制的结果看起来缺乏自信和专注度。我们的眼神纠正功能基于生成式算法，自动将人物的目光调整为直视镜头，增强人物专注度和亲和力。提示：最长只支持3分钟的视频。

示例

原始素材

眼神纠正