[技术工具] OpenAi TTS文本转语音工具：视频配音必备神器

2024-08-27 07:24 853 浏览 [项目分析室]

大家好，我是付付，微信：ffiexmw 公众号：付付创业研究院

今天要给大家分享的是付付自己开发的一个 Openai TTS 文本转语音小工具。之前研究数字人律师时接触过 Openai TTS ,囿于找不到合适的软件调用服务，索性自己写了个~

软件第一版公布到了我的另一个网站上，发现还是有很多人下载的。正好后面接了一个相关的单子，所以在第一版的基础上进一步完善了，加入了新功能。正好“付付项目网”上了正轨，就将这个软件对接了一下网站分享给大家：

一、软件介绍

付付项目网 OpenAi TTS 文本转语音工具是基于 Openai TTS API 开发的一款 Windows 本地文本转语音软件，用户只需要简单的配置即可将文本转成音频，免去安装各种环境支持的烦恼。Openai TTS是基于先进的深度学习技术开发的文本转语音系统。它能够将文本信息转换为流畅自然、接近人声的语音输出。

Openai TTS 针对其两个音频生成模型模型提供了以下两种计费方式：

TTS-1 $0.015 / 1K characters

TTS-1-HD $0.030 / 1K characters

不过 OpenAi api 新账号注册即送五美金额度，如果只用 tts-1 模型的话，大概可以生成 33 万字符。使用完了之后可以重新注册账号，几乎等于免费使用。

在我目前所接触过的商用TTS模型当中，Openai 生成的语音是最接近真人的，相对其他模型其听起来更加自然、流畅，能够很好地模仿人类的语音模式，包括语调、停顿、强调等。唯一美中不足的是中文发音有时候会有港腔或者是外国人腔调，但瑕不掩瑜。

二、软件功能

第一个版本仅支持简单的文本转语音，且单个语音字数有一定限制，优化完善之后支持：

1.长文本转语音

之前：因为 Tokens 限制的问题，最长只能支持1000字左右的文本转为音频。

现在：优化了写法，理论上可不限字数生成，实测10000+字数稳定输出！但建议还是不要太长，防止网络中断啥的造成 Tokens 浪费！

2. TXT文档、SRT字幕文档批量转语音(新增)

可以单独/批量添加或批量扫描文件文档后一键批量生成语音；
支持全部导入后单个文档操作：生成、导出、删除等；
支持输出文件到原文档目录。

3.功能限制

网络环境必须可以访问 Openai 网站[后文有解决方案]；
只支持 Windows 平台使用[跨平台开发我真不会啊]！！！

三、软件使用教程

1. 设置接口、Api秘钥

接口地址

· 官&方：https://api.openai.com

· 官方反向代理：用境外服务器反向代理搭建个人专用 OpenAi 接口，安全、快速、稳定，如何搭建反向代理可以参考我的《如何用海外服务器和宝塔面板搭建反向代理实现国内直接访问OpenAI API教程》这篇文章。

· 第三方：https://xxx.xxx.xx

Api Key秘钥

官方秘钥获取地址：https://platform.openai.com/api-keys

新注册的账号新建秘钥需要境外电话认证，无法直接创建Api key！解决方案如图示：

白嫖怪有话说： Openai Api 新账号会有五美金的调用额度，差不多可以生成几十万字的音频。所以，如果没有境外手机号认证且也不想那个那个的话，可以通过注册多个账号获取临时秘钥使用，个人场景差不多也够了。（个人还是建议付费使用的哈~）

已经完成电话认证的，直接创建秘钥或者复制以前的秘钥填写即可。

使用第三方秘钥： 注意请与第三方接口保持一致！

填入秘钥后，软件会将秘钥数据保存至本地软件数据目录，下次启动后会自动读取，不用每次都填写。

2. 配置其他控制参数

主要包括模型、发音角色、语速、响应格式、导出目录以及代理。

模型选择：模型有 tts-1 和 tts-1-hd 两种选择，一个生成更快，一个音频质量更高，但实测没什么区别；tts-1-hd 价格贵两倍；

发音角色：OpenAi TTS 提供了六个选项，alloy、echo、fable、onyx、nova、shimmer；

语速设置：只能是 0.25-4.0 之间的值，默认1.0，有需求可以放心大胆的调整，乱输也不会出错；

输出格式：默认是mp3，大家也可以根据自己的需要选择opus、aac或flac等，没有特别需求默认mp3即可，其他格式生成完成后不支持播放； opus：主要用于互联网流媒体和通信，低延迟；aac：主要用于数字音频压缩，YouTube、Android、iOS 首选；flac：主要用于无损音频压缩。

导出目录：默认导出到桌面；

代理访问：部分电脑可能魔法环境不彻底，会导致软件无法生成；此时可以获取魔法软件的代理ip和端口填入软件即可正常使用。不懂可以问我！

3. 输入待转文本/导入待转文档

输入待转文本

双击文本框为自动清除声明文本，直接手动输入或者粘贴你需要转换成语音的文本即可。

导入待转文档

· 点击添加文件：添加一个或者多个特定的TXT、SRT文本文档；
· 点击扫描文件：添加文件夹内所有TXT、SRT文本文档到软件。

4. 生成并导出音频

纯文本模式

输入文本后，点击右侧的 一键合成音频 等待几秒钟即生成完成。

待“显示台”提示生成完成后，播放音频 和导出音频按钮会解锁，如果生成的是mp3格式的音频，则点击播放音频即可听到刚刚生成的文本音频，试听无误后可以导出音频到指定目录。

导出的文件名为当前日期时间.格式，如20240128170155.mp3

批量文档模式

启动全部：将软件内所有文档均生成音频；

停止全部：停止所有正在进行的音频生成；

导出全部：将生成完成的音频导出到设置目录；

输出音频文本到源文件目录：生成的音频直接存储到文本文档存放目录；

清除记录：删除所有音频生成记录；

表内·开始合成：开始合成单个文档文本内容音频；

表内·取消合成：取消合成单个文档文本内容音频；

表内·试听音频：试听单个文档文本内容生成音频；

表内·停止播放：停止播放单个文档文本内容生成的音频；

表内·导出音频：导出单个文档文本内容生成的音频到设置目录；

表内·删除本条：删除单个文档TTS记录；

导出的文件名为文档文件名称.格式，如测试文档.mp3

四、应用场景

TTS 技术的应用非常广泛，比如教育领域、新闻媒体领域、企业客服、个人日常阅读等等。但当前最广泛的应用还是自媒体短视频的配音生产：相较于目前主流的一些 TTS 配音工具，OpenAi TTS 配音更加拟人化，听感更好且更有特色。

当然，市面上也有一些更加优秀的 TTS 模型，如GPT-SoVITS、ChatTTS等，不仅可以定制音色，在语调上也更接近真人。但是存在一定使用门槛，依赖本地推理可能比较吃配置先不说，光部署可能就会将大多数人拦在门外。

所有评论 0