闪剪AI开放平台
  1. 产品介绍
闪剪AI开放平台
  • 产品介绍
    • 产品简介
    • 产品定价
    • 功能介绍
    • 常见问题
  • 开发指南
    • 快速接入
    • 错误码
    • 支持语种代码参照
  • 克隆
    • 专业数字人克隆
      POST
    • 极速数字人克隆
      POST
    • 声音克隆
      POST
    • 数字人/声音删除
      DELETE
  • 视频合成
    • 数字人口播视频(无包装)
      POST
    • 智能剪辑模板列表
      GET
    • 数字人口播混剪视频
      POST
    • 真人口播混剪视频
      POST
    • 音频转文字(ASR)
      POST
  • 任务查询
    • 查询任务详情
      GET
  • 相关协议
    • 用户协议
    • 隐私政策
    • 付费协议
    • 实名协议
  • 数据模型
    • 定制及制作类任务响应
    • 制作任务结果回调数据
  1. 产品介绍

功能介绍

形象克隆:基于授权的人像素材,1:1高度还原任务面部特征表情,生成可驱动的专属数字人形象。
声音克隆:使用授权的语音样本训练专属音色,还原声纹与说话习惯,生成自然流畅的定制语音,可支持多语种播报;
视频合成:支持将素材内容与数字人或真人口播等素材自动编排输出视频,既支持裸数字人出片便于二次创作,也支持智能剪辑直接生成成片。

形象克隆#

极速数字人#

功能说明
效果演示效果演示
1:1克隆动作与形象,适合初次使用的客户定制体验,支持上传视频进行形象复刻,需提供:

1. 授权视频
• 文件大小:小于100Mb
• 时长:小于2分钟
• 视频编码:h264
• 格式:mp4、mov

2. 授权文本:品牌词,用于终端用户向您进行形象授权(如:闪剪);

3. 训练视频
• 分辨率:最大支持2k
• 文件大小:小于等于100Mb
• 时长:10~30秒
• 帧率:20~30fps(推荐:25)
• 视频编码:h264
• 格式:mp4、mov

专业数字人#

功能说明
效果演示效果演示
一段30-90S的训练视频,一般在30分钟-1小时克隆完成,1:1克隆动作与形象,能够 高度还原动作与形象,并具备更丰富的表情与动作表现,适合对质量与细节要求更高的专业场景;支持上传视频进行形象复刻,高质量更细腻需提供:

1. 授权视频
• 文件大小:小于100Mb
• 时长:小于2分钟
• 视频编码:h264
• 格式:mp4、mov

2. 授权文本:品牌词,用于终端用户向您进行形象授权(如:闪剪);

3. 训练视频
• 分辨率:最大支持2k
• 文件大小:小于等于1G
• 时长:30~120秒
• 帧率:20~30fps(推荐:25)
• 视频编码:h264
• 格式:mp4、mov

声音克隆#

模型
功能说明
输入要求
V1


V2


V3
V1:声音还原度高,声音质感良好,对原音频包容度高;
V2:音色更清晰,表现力更强,情感丰富度显著提升;
V3:音色更还原逼真,长文本、口语化语气与情感演绎上表现更佳,强化口音表现效果;
• 支持语种:中文、英文、日语、西班牙语、印尼语、葡萄牙语
支持上传音频及进行音色复刻,需提供:
1. 训练音频
• 格式:mp3、wav(推荐)
• 时长:5秒~120秒
• 文件大小:小于等于20Mb
S1S1:具备自然流畅的韵律与稳定性,音色还原度高,音质清晰细腻,覆盖 40+ 主流语种;
• 支持语种:中文、粤语、英语、西班牙语、法语、俄语、德语、葡萄牙语、阿拉伯语、意大利语、日语、韩语、印尼语、越南语、土耳其语、荷兰语、乌克兰语、泰语、波兰语、罗马尼亚语、希腊语、捷克语、芬兰语、印地语、保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语、克罗地亚语、菲律宾语、匈牙利语、挪威语、斯洛文尼亚语、加泰罗尼亚语、尼诺斯克语、泰米尔语、阿非利卡语;
支持上传音频及进行音色复刻,需提供:
1. 训练音频
• 格式:mp3、wav(推荐)
• 时长:5秒~120秒
• 文件大小:小于等于20Mb

视频合成#

裸数字人视频#

功能描述
输入要求
输出格式
效果演示
输出纯数字人口播视频,最终成品不会进行视频包装;
适合专业剪辑大神,用于视频二次创作;
支持生成无包装的裸数字人视频,需提供:
1. 数字人id:形象克隆定制的数字人id;

根据不同输入方式,需额外提供如下素材;

方式一:基于文本内容+定制声音生成视频
1. 文本内容:字符数要求(3 ~ 3,600字符);
2. 声音id:声音克隆定制的声音id;

方式二:基于音频文件生成视频
1. 音频文件
• 时长:0.5秒 ~ 10分钟
• 格式:mp3、wav

• 分辨率:1080p
• 视频比例:原视频比例
• 码率:6M

智能剪辑#

数字人口播#

功能描述
输入要求
输出格式
效果演示
无需真人出镜,选择数字人形象,结合文案、AI 配音与素材,搭配模板风格即可一键生成视频。基于闪剪数字人完成全流程智能包装。

满足多场景视频生产需求。
支持生成数字人口播智能剪辑视频,需提供:
1. 数字人id:形象克隆定制的数字人id;

2. 视频风格id:视频风格对应id;

3. 背景音乐-音频文件(可选)
• 时长:小于10分钟
• 格式:mp3、wav
• 文件大小:小于50Mb

4. 素材(可选)
• 总量限制:单张图片计算为 2秒,所有素材总时长不能超过5分钟;

• 图片
- 格式:支持jpg、png、webp静态图
- 单边分辨率小于2000px

• 视频
- 格式:mp4、mov
- 视频编码:h264
- 帧率:20~30fps,推荐 25
- 时长:小于60秒
- 视频大小:单个视频小于100Mb
- 分辨率:单边小于2000px


根据不同输入方式,需额外提供如下素材;

方式一:基于文本内容+定制声音生成视频
1. 文本内容:字符数要求(3 ~ 3,600字符);
2. 声音id:声音克隆定制的声音id;

方式二:基于音频文件生成视频
1. 音频文件
• 时长:0.5秒 ~ 10分钟
• 格式:mp3、wav

• 分辨率:1080p
• 视频比例:统一为9:16(与原视频比例无关)
• 码率:6M

真人口播#

功能描述
输入要求
输出格式
效果演示
上传真人口播视频及素材,AI 自动识别去除口头禅、停顿及无声片段,配合模板完成包装,输出更具网络感的成品口播视频支持生成真人口播智能剪辑视频,需提供:
1. 真人口播视频
• 格式:mp4、mov
• 视频编码:h264
• 帧率:20~30fps,推荐 25
• 时长:小于10分钟
• 视频大小:小于500Mb
• 分辨率:单边小于2000px

2. 视频风格id:视频风格对应id;

3. 背景音乐-音频文件(可选)
• 时长:小于10分钟
• 格式:mp3、wav
• 文件大小:小于50Mb

4. 素材(可选)
• 总量限制:单张图片计算为 2秒,所有素材总时长不能超过5分钟;

• 图片
- 格式:支持jpg、png、webp静态图
- 单边分辨率小于2000px

• 视频
- 格式:mp4、mov
- 视频编码:h264
- 帧率:20~30fps,推荐 25
- 时长:小于60秒
- 视频大小:单个视频小于100Mb
- 分辨率:单边小于2000px


根据不同输入方式,需额外提供如下素材;

方式一:基于文本内容+定制声音生成视频
1. 文本内容:字符数要求(3 ~ 3,600字符);
2. 声音id:声音克隆定制的声音id;

方式二:基于音频文件生成视频
1. 音频文件
• 时长:0.5秒 ~ 10分钟
• 格式:mp3、wav

• 分辨率:1080p
• 视频比例:统一为9:16(与原视频比例无关)
• 码率:6M
原视频
处理后
修改于 2025-09-05 08:46:14
上一页
产品定价
下一页
常见问题
Built with