视频数字人

 

上传视频

单击或将文件拖到此区域进行上传
格式: mp4/mov, 时长: 最少 3秒,最多 5分钟 分辨率建议为720P或1080P,最大分辨率不超过4K

(若不选择背景,则无法使用背景抠图)

上传图片

单击或将文件拖到此区域进行上传
格式: jpg/png, 大小: 不超过 20M

选取背景颜色

视频生成形象操作流程

1. 上传一段您自己的视频,格式为mp4或者mov。可以为横版或者竖版,尺寸不限。视频长度至少3秒。该视频将成为您所有后续 AI 数字人视频的基础。确保人物美观清晰。
2. 上传后,点击"快速创建"开始AI训练(限时免费)。
3. 等待10分钟,从"视频创建"-"我的形象"中选择您刚创建的AI 克隆创作视频。
4. (可选)如您对克隆形象的嘴型效果不满意,请首先检查您的训练视频是否符合要求:视频中只有一张脸;人物必须在视频中讲话;音频和嘴唇运动必须同步;避免环境噪音或其他声音。如果您的训练视频符合要求,您可以点击已经完成初次训练的形象,再点击"专业克隆"(扣除一个钻石)为您的形象进行更多的AI训练。等待2小时后,后台会自动更新您的AI模型。选择同一个形象,即可合成嘴型效果更好的视频。
价格:进行1次"专业克隆"需要 100 个金币

原始素材要求

1. 不要使用有多个人脸出现的视频
2. 确保人脸占比不要过大或过小,确保整张人脸都在屏幕区域内,人脸不要出屏幕, 建议人脸宽度占整体画面宽度的十分之一至三分之一
3. 确保面部特征未被遮挡,使五官和面部轮廓清晰可见
4. 上传的视频分辨率建议为720P或1080P,最大分辨率不超过4K
5. 视频时长不少于3秒,不超过5分钟(3s-5min)
6. 为了获取更好的口型生成效果, 建议使用正常讲话的人物视频, 视频中音频和嘴唇运动必须同步, 避免环境噪音或其他声音(除了讲话声)。保持适度的语速,语速过慢可能会降低嘴唇同步精度,语速过快可能会导致嘴唇同步抖动。
示例
sample-avatar
五官清晰
sample-avatar
侧面
sample-avatar
有遮挡
sample-avatar
过于模糊
sample-avatar
多个人脸
sample-avatar
占比过大

原始背景要求

1. 如果您需要移除上传图片或视频中的背景,请上传对应背景的图片。背景图片必须和原始图片或视频的尺寸和分辨率一致。背景图片不是您将来替换的图片,而是您原始图片或视频中的背景部分。例如,如果你的视频是你自己在某个房间中拍摄的口播视频,则背景图片必须是这个房间从同一个角度拍摄的照片。
2. 如果您的原始图片或视频只有纯色背景,例如绿幕,您也可以从色盘中选取和您视频背景颜色一样的颜色。
3. 如果您不需要做背景移除,请忽略上传背景图。
示例
sample-original

原始素材

sample-background

原始背景

sample-result

抠图效果

专业克隆

基于提供的视频素材继续训练深度模型,进一步提高生成人脸的清晰度和相似度。如果视频素材具有良好的音画同步性,继续训练后的模型可以生成同步度更高的口型。如果视频素材中音画不同步或者声音质量较差,请不要专业克隆。

1. 不要使用有多个人脸出现的视频
2. 确保人脸占比不要过大或过小,确保整张人脸都在屏幕区域内,人脸不要出屏幕, 建议人脸宽度占整体画面宽度的十分之一至三分之一
3. 确保面部特征未被遮挡,使五官和面部轮廓清晰可见
4. 上传的视频分辨率建议为720P或1080P,最大分辨率不超过4K
5. 视频时长不少于3秒,不超过5分钟(3s-5min)
6. 为了获取更好的口型生成效果, 建议使用正常讲话的人物视频, 视频中音频和嘴唇运动必须同步, 避免环境噪音或其他声音(除了讲话声)。保持适度的语速,语速过慢可能会降低嘴唇同步精度,语速过快可能会导致嘴唇同步抖动。

眼神纠正

在实际的视频录制过程中,一般人很难做到长时间盯住镜头,容易出现眼神飘忽的问题,使得录制的结果看起来缺乏自信和专注度。 我们的眼神纠正功能基于生成式算法,自动将人物的目光调整为直视镜头,增强人物专注度和亲和力。 提示:最长只支持3分钟的视频。
示例
sample-eye-contact
原始素材
sample-eye-contact
眼神纠正