功能介绍

形象克隆：基于授权的人像素材，1:1高度还原任务面部特征表情，生成可驱动的专属数字人形象。

声音克隆：使用授权的语音样本训练专属音色，还原声纹与说话习惯，生成自然流畅的定制语音，可支持多语种播报；

视频合成：支持将素材内容与数字人或真人口播等素材自动编排输出视频，既支持裸数字人出片便于二次创作，也支持智能剪辑直接生成成片。

形象克隆

极速数字人

功能说明	效果演示	效果演示
1:1克隆动作与形象，适合初次使用的客户定制体验，支持上传视频进行形象复刻，需提供： 1. 授权视频 • 文件大小：小于等于100MB • 时长：小于2分钟 • 视频编码：h264、HEVC(h265) • 格式：mp4、mov 2. 授权文本：品牌词，用于终端用户向您进行形象授权（如：闪剪）； 3. 训练视频 • 分辨率：单边最大支持2k，2000X2000 • 文件大小：小于等于500MB • 时长：5～60秒 • 帧率：10～60fps（推荐：25） • 视频编码：h264、HEVC(h265) • 格式：mp4、mov

专业数字人

功能说明	效果演示	效果演示
一段30-120S的训练视频，一般在1小时-6个小时克隆完成，1:1克隆动作与形象，能够高度还原动作与形象，并具备更丰富的表情与动作表现，适合对质量与细节要求更高的专业场景；支持上传视频进行形象复刻，高质量更细腻需提供： 1. 授权视频 • 文件大小：小于等于100MB • 时长：小于2分钟 • 视频编码：h264、HEVC(h265) • 格式：mp4、mov 2. 授权文本：品牌词，用于终端用户向您进行形象授权（如：闪剪）； 3. 训练视频 • 分辨率：单边最大支持2k，2000X2000 • 文件大小：小于等于1GB • 时长：30~120秒 • 帧率：10～60fps（推荐：25） • 视频编码：h264、HEVC(h265) • 格式：mp4、mov

图生数字人

功能说明	效果演示	效果演示
克隆形象需消耗200算力/次 • 只需上传一张图片， 10分钟完成形象克隆 • 分辨率：单边最小支持300，最大支持2000，【300X300-2000X2000】 • 文件大小：小于等于5MB • 格式：jpg/png/webp(静态图) • 可输出1080P视频素材 • 适合表现力一般的客户定制体验	原图：数字人：	原图：数字人：

声音克隆

模型	功能说明	输入要求
V1 V2 V3	V1:声音还原度高，声音质感良好，对原音频包容度高； V2：音色更清晰，表现力更强，情感丰富度显著提升； V3：音色更还原逼真，长文本、口语化语气与情感演绎上表现更佳，强化口音表现效果； • 支持语种：中文、英文、日语、西班牙语、印尼语、葡萄牙语	支持上传音频及进行音色复刻，需提供： 1. 训练音频 • 格式：mp3、wav（推荐）、m4a • 时长：5秒～120秒 • 文件大小：小于等于10MB
S1、S3	S1：具备自然流畅的韵律与稳定性，音色还原度高，音质清晰细腻，覆盖 40+ 主流语种; S3：S1基础上归一化升级，更高自然度，覆盖 40+ 主流语种; • 支持语种：中文、粤语、英语、西班牙语、法语、俄语、德语、葡萄牙语、阿拉伯语、意大利语、日语、韩语、印尼语、越南语、土耳其语、荷兰语、乌克兰语、泰语、波兰语、罗马尼亚语、希腊语、捷克语、芬兰语、印地语、保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语、克罗地亚语、菲律宾语、匈牙利语、挪威语、斯洛文尼亚语、加泰罗尼亚语、尼诺斯克语、泰米尔语、阿非利卡语;	支持上传音频及进行音色复刻，需提供： 1. 训练音频 • 格式：mp3、wav（推荐）、m4a • 时长：10秒～120秒 • 文件大小：小于等于10MB

视频合成

数字人口播视频（无包装）

功能描述	输入要求	输出格式	效果演示
输出纯数字人口播视频，最终成品不会进行视频包装；适合专业剪辑大神，用于视频二次创作；	支持生成无包装的裸数字人视频，需提供： 1. 数字人id：形象克隆定制的数字人id；根据不同输入方式，需额外提供如下素材；方式一：基于文本内容+定制声音生成视频 1. 文本内容：字符数要求（3 ~ 3,600字符）； 2. 声音id：声音克隆定制的声音id；方式二：基于音频文件生成视频 1. 音频文件 • 时长：0.5秒 ~ 10分钟 • 格式：mp3、wav、m4a • 文件大小：小于等于100MB	• 分辨率：1080p • 视频比例：原视频比例 • 码率：6M

智能剪辑

数字人口播混剪视频

功能描述	输入要求	输出格式	效果演示
无需真人出镜，选择数字人形象，结合文案、AI 配音与素材，搭配模板风格即可一键生成视频。基于闪剪数字人完成全流程智能包装。满足多场景视频生产需求。	支持生成数字人口播混剪视频，需提供： 1. 数字人id：形象克隆定制的数字人id； 2. 视频风格id：视频风格对应id； 3. 背景音乐-音频文件（可选） • 时长：小于5分钟 • 格式：mp3、wav、m4a • 文件大小：小于120MB 4. 素材（可选） • 总量限制：单张图片计算为 2秒，所有素材总时长不能超过5分钟; • 图片 - 格式：支持jpg、png、webp静态图 - 单边分辨率小于2000px • 视频 - 格式：mp4、mov - 视频编码：h264、HEVC(h265) - 帧率：10～60fps，推荐 25 - 时长：小于60秒 - 视频大小：单个视频小于100MB - 分辨率：单边小于2000px 根据不同输入方式，需额外提供如下素材；方式一：基于文本内容+定制声音生成视频 1. 文本内容：字符数要求（3 ~ 1,800字符）； 2. 声音id：声音克隆定制的声音id；方式二：基于音频文件生成视频 1. 音频文件 • 时长：0.5秒 ~ 5分钟 • 格式：mp3、wav、m4a • 文件大小：小于等于100MB	• 分辨率：1080p • 视频比例：统一为9:16（与原视频比例无关） • 码率：6M

真人口播混剪视频

功能描述	输入要求	输出格式	效果演示
上传真人口播视频及素材，AI 自动识别去除口头禅、停顿及无声片段，配合模板完成包装，输出更具网络感的成品口播视频	支持生成真人口播混剪视频，需提供： 1. 真人口播视频 • 格式：mp4、mov • 视频编码：h264、HEVC(h265) • 帧率：10～60fps，推荐 25 • 时长：小于5分钟 • 视频大小：小于500MB • 分辨率：单边小于2000px 2. 视频风格id：视频风格对应id； 3. 背景音乐-音频文件（可选） • 时长：小于5分钟 • 格式：mp3、wav、m4a • 文件大小：小于120MB 4. 素材（可选） • 总量限制：单张图片计算为 2秒，所有素材总时长不能超过5分钟; • 图片 - 格式：支持jpg、png、webp静态图 - 单边分辨率小于2000px • 视频 - 格式：mp4、mov - 视频编码：h264、HEVC(h265) - 帧率：10～60fps，推荐 25 - 时长：小于60秒 - 视频大小：单个视频小于100MB - 分辨率：单边小于2000px	• 分辨率：1080p • 视频比例：统一为9:16（与原视频比例无关） • 码率：6M	原视频处理后

素材混剪视频

功能描述	输入要求	输出格式	效果演示
文案+AI配音+多场景素材混剪，自动生成商品种草/产品解说/产品介绍视频	支持生成素材混剪视频，需提供： 1、视频风格id：视频风格对应id； 2. 背景音乐-音频文件（可选） • 时长：小于5分钟 • 格式：mp3、wav、m4a • 文件大小：小于120MB 3. 素材 • 总量限制：单张图片计算为 2秒，所有素材总时长不能超过5分钟; • 图片 - 格式：支持jpg、png、webp静态图 - 单边分辨率小于2000px • 视频 - 格式：mp4、mov - 视频编码：h264、HEVC(h265) - 帧率：10～60fps，推荐 25 - 时长：小于60秒 - 视频大小：单个视频小于100MB - 分辨率：单边小于2000px 根据不同输入方式，需额外提供如下素材；方式一：基于文本内容+定制声音生成视频 1. 文本内容：字符数要求（3 ~ 1,800字符）； 2. 声音id：声音克隆定制的声音id；方式二：基于音频文件生成视频 1. 音频文件 • 时长：小于5分钟 • 格式：mp3、wav、m4a • 文件大小：小于等于100MB	• 分辨率：1080p • 视频比例：统一为9:16（与原素材比例无关） • 码率：6M

新闻体视频

功能描述	输入要求	输出格式	效果演示
流量收割机!上传素材+标题+音乐=秒出新闻体混剪视频推荐：总素材时长10秒内最佳	支持生成新闻体视频，需提供： 1、视频风格id：视频风格对应id； 2. 背景音乐-音频文件（可选） • 时长：小于5分钟 • 格式：mp3、wav、m4a • 文件大小：小于120MB 3. 素材 • 总量限制：单张图片计算为 2秒，所有素材总时长不能超过5分钟; • 图片 - 格式：支持jpg、png、webp静态图 - 单边分辨率小于2000px • 视频 - 格式：mp4、mov - 视频编码：h264、HEVC(h265) - 帧率：10～60fps，推荐 25 - 时长：小于60秒 - 视频大小：单个视频小于100MB - 分辨率：单边小于2000px	• 分辨率：1080p • 视频比例：统一为9:16（与原素材比例无关） • 码率：6M

修改于 2026-06-10 06:29:09

定制数字人/声音注意事项