使用指南 - AI视频解说助手

使用指南

快速开始

下载并安装
运行程序
在主界面选择您要处理的视频文件
设置参数后点击"开始处理"按钮

界面介绍

AI视频解说助手的界面分为几个主要标签页：

主页 - 程序的主界面，显示基本功能和最近处理的文件
声纹识别 - 用于注册和管理声纹识别档案
批量处理 - 包含一键处理和批量处理功能
设置 - 各种配置选项和高级设置

声纹识别功能

声纹识别功能允许系统识别并区分视频中的不同说话者：

在"声纹识别"标签页中，输入用户名并选择包含该用户声音的音频文件
点击"注册声纹"按钮，系统将自动提取声纹特征并保存
已注册的声纹将显示在声纹列表中，可以保存、加载或删除声纹

一键处理功能

一键处理是最简单的视频解说生成方式：

在"批量处理"标签页的"一键处理"部分，选择要处理的视频文件
设置视频分割参数（片段长度、跳过开头和结尾的时间）
选择是否使用声纹识别
选择使用的模型
点击"开始一键处理"按钮
处理完成后，可以点击"打开输出目录"查看生成的视频文件

批量处理功能

批量处理允许您同时处理多个视频文件：

在"批量处理"标签页，选择包含多个视频文件的目录
设置视频分割参数和声纹识别选项
选择使用的模型
点击"开始批量处理"按钮
系统将自动处理目录中的所有视频文件
处理完成后，可以点击"打开输出目录"查看生成的视频文件

设置说明

在"设置"标签页中，您可以配置以下选项：

下载声纹识别模型和语音识别模型
检查或指定ffmpeg的路径
自定义提示词 - 自定义解说生成的提示词模板
查看操作日志

使用千问模型或gemini模型

千问模型提供更高质量的解说生成：

在批量处理或一键处理界面，从"模型选择"下拉菜单中选择一个千问模型或gemini模型：

千问 Max (阿里云) - 性能最强，适合复杂解说
千问 Plus (阿里云) - 平衡性能和效率
千问 Turbo (阿里云) - 速度最快，适合简单解说
gemini 2.0 flash (Google) - 性能最强，适合复杂解说
gemini 2.0 flash lite (Google) - 速度最快，适合简单解说

正常执行批量处理或一键处理操作，系统将使用所选模型生成解说

输出文件说明

处理完成后，系统会生成以下文件：

原文件名_片段n.mp4 - 添加了解说和字幕的成品视频

所有输出文件默认保存在"output"目录下

故障排除

如果遇到问题，请尝试以下解决方法：

确保您的系统满足最低要求
检查日志文件（位于"logs"目录）获取错误信息
尝试重启程序
对于特别长的视频，尝试手动分割后再处理
如果遇到模型问题，尝试使用其他模型

返回首页