功能说明 | 效果演示 | 效果演示 |
---|---|---|
1:1克隆动作与形象,适合初次使用的客户定制体验,支持上传视频进行形象复刻,需提供: 1. 授权视频 • 文件大小:小于100Mb • 时长:小于2分钟 • 视频编码:h264 • 格式:mp4、mov 2. 授权文本:品牌词,用于终端用户向您进行形象授权(如:闪剪); 3. 训练视频 • 分辨率:最大支持2k • 文件大小:小于等于100Mb • 时长:10~30秒 • 帧率:20~30fps(推荐:25) • 视频编码:h264 • 格式:mp4、mov |
功能说明 | 效果演示 | 效果演示 |
---|---|---|
一段30-90S的训练视频,一般在30分钟-1小时克隆完成,1:1克隆动作与形象,能够 高度还原动作与形象,并具备更丰富的表情与动作表现,适合对质量与细节要求更高的专业场景;支持上传视频进行形象复刻,高质量更细腻需提供: 1. 授权视频 • 文件大小:小于100Mb • 时长:小于2分钟 • 视频编码:h264 • 格式:mp4、mov 2. 授权文本:品牌词,用于终端用户向您进行形象授权(如:闪剪); 3. 训练视频 • 分辨率:最大支持2k • 文件大小:小于等于1G • 时长:30~120秒 • 帧率:20~30fps(推荐:25) • 视频编码:h264 • 格式:mp4、mov |
模型 | 功能说明 | 输入要求 |
---|---|---|
V1 V2 V3 | V1:声音还原度高,声音质感良好,对原音频包容度高; V2:音色更清晰,表现力更强,情感丰富度显著提升; V3:音色更还原逼真,长文本、口语化语气与情感演绎上表现更佳,强化口音表现效果;• 支持语种:中文、英文、日语、西班牙语、印尼语、葡萄牙语 | 支持上传音频及进行音色复刻,需提供: 1. 训练音频 • 格式:mp3、wav(推荐) • 时长:5秒~120秒 • 文件大小:小于等于20Mb |
S1 | S1:具备自然流畅的韵律与稳定性,音色还原度高,音质清晰细腻,覆盖 40+ 主流语种;• 支持语种:中文、粤语、英语、西班牙语、法语、俄语、德语、葡萄牙语、阿拉伯语、意大利语、日语、韩语、印尼语、越南语、土耳其语、荷兰语、乌克兰语、泰语、波兰语、罗马尼亚语、希腊语、捷克语、芬兰语、印地语、保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语、克罗地亚语、菲律宾语、匈牙利语、挪威语、斯洛文尼亚语、加泰罗尼亚语、尼诺斯克语、泰米尔语、阿非利卡语; | 支持上传音频及进行音色复刻,需提供: 1. 训练音频 • 格式:mp3、wav(推荐) • 时长:5秒~120秒 • 文件大小:小于等于20Mb |
功能描述 | 输入要求 | 输出格式 | 效果演示 |
---|---|---|---|
输出纯数字人口播视频,最终成品不会进行视频包装; 适合专业剪辑大神,用于视频二次创作; | 支持生成无包装的裸数字人视频,需提供: 1. 数字人id:形象克隆定制的数字人id; 根据不同输入方式,需额外提供如下素材; 方式一:基于文本内容+定制声音生成视频 1. 文本内容:字符数要求(3 ~ 3,600字符); 2. 声音id:声音克隆定制的声音id; 方式二:基于音频文件生成视频 1. 音频文件 • 时长:0.5秒 ~ 10分钟 • 格式:mp3、wav | • 分辨率:1080p • 视频比例:原视频比例 • 码率:6M |
功能描述 | 输入要求 | 输出格式 | 效果演示 |
---|---|---|---|
无需真人出镜,选择数字人形象,结合文案、AI 配音与素材,搭配模板风格即可一键生成视频。基于闪剪数字人完成全流程智能包装。 满足多场景视频生产需求。 | 支持生成数字人口播智能剪辑视频,需提供: 1. 数字人id:形象克隆定制的数字人id; 2. 视频风格id:视频风格对应id; 3. 背景音乐-音频文件(可选) • 时长:小于10分钟 • 格式:mp3、wav • 文件大小:小于50Mb 4. 素材(可选) • 总量限制:单张图片计算为 2秒,所有素材总时长不能超过5分钟; • 图片 - 格式:支持jpg、png、webp静态图 - 单边分辨率小于2000px • 视频 - 格式:mp4、mov - 视频编码:h264 - 帧率:20~30fps,推荐 25 - 时长:小于60秒 - 视频大小:单个视频小于100Mb - 分辨率:单边小于2000px 根据不同输入方式,需额外提供如下素材; 方式一:基于文本内容+定制声音生成视频 1. 文本内容:字符数要求(3 ~ 3,600字符); 2. 声音id:声音克隆定制的声音id; 方式二:基于音频文件生成视频 1. 音频文件 • 时长:0.5秒 ~ 10分钟 • 格式:mp3、wav | • 分辨率:1080p • 视频比例:统一为9:16(与原视频比例无关) • 码率:6M |
功能描述 | 输入要求 | 输出格式 | 效果演示 |
---|---|---|---|
上传真人口播视频及素材,AI 自动识别去除口头禅、停顿及无声片段, 配合模板完成包装,输出更具网络感的成品口播视频 | 支持生成真人口播智能剪辑视频,需提供: 1. 真人口播视频 • 格式:mp4、mov • 视频编码:h264 • 帧率:20~30fps,推荐 25 • 时长:小于10分钟 • 视频大小:小于500Mb • 分辨率:单边小于2000px 2. 视频风格id:视频风格对应id; 3. 背景音乐-音频文件(可选) • 时长:小于10分钟 • 格式:mp3、wav • 文件大小:小于50Mb 4. 素材(可选) • 总量限制:单张图片计算为 2秒,所有素材总时长不能超过5分钟; • 图片 - 格式:支持jpg、png、webp静态图 - 单边分辨率小于2000px • 视频 - 格式:mp4、mov - 视频编码:h264 - 帧率:20~30fps,推荐 25 - 时长:小于60秒 - 视频大小:单个视频小于100Mb - 分辨率:单边小于2000px 根据不同输入方式,需额外提供如下素材; 方式一:基于文本内容+定制声音生成视频 1. 文本内容:字符数要求(3 ~ 3,600字符); 2. 声音id:声音克隆定制的声音id; 方式二:基于音频文件生成视频 1. 音频文件 • 时长:0.5秒 ~ 10分钟 • 格式:mp3、wav | • 分辨率:1080p • 视频比例:统一为9:16(与原视频比例无关) • 码率:6M | 原视频 处理后 |