OpenAi TTS文本转语音工具:视频配音必备神器

[技术工具] OpenAi TTS文本转语音工具:视频配音必备神器

大家好,我是付付,微信ffiexmw 公众号付付创业研究院

今天要给大家分享的是付付自己开发的一个 Openai TTS 文本转语音小工具。之前研究数字人律师时接触过 Openai TTS ,囿于找不到合适的软件调用服务,索性自己写了个~

软件第一版公布到了我的另一个网站上,发现还是有很多人下载的。正好后面接了一个相关的单子,所以在第一版的基础上进一步完善了,加入了新功能。正好“付付项目网”上了正轨,就将这个软件对接了一下网站分享给大家:

073600hkql4rul2x4t8zkl.png
软件界面

一、软件介绍

付付项目网 OpenAi TTS 文本转语音工具是基于 Openai TTS API 开发的一款 Windows 本地文本转语音软件,用户只需要简单的配置即可将文本转成音频,免去安装各种环境支持的烦恼。Openai TTS是基于先进的深度学习技术开发的文本转语音系统。它能够将文本信息转换为流畅自然、接近人声的语音输出。

Openai TTS 针对其两个音频生成模型模型提供了以下两种计费方式:

TTS-1 $0.015 / 1K characters

TTS-1-HD $0.030 / 1K characters

不过 OpenAi api 新账号注册即送五美金额度,如果只用 tts-1 模型的话,大概可以生成 33 万字符。使用完了之后可以重新注册账号,几乎等于免费使用。

在我目前所接触过的商用TTS模型当中,Openai 生成的语音是最接近真人的,相对其他模型其听起来更加自然、流畅,能够很好地模仿人类的语音模式,包括语调、停顿、强调等。唯一美中不足的是中文发音有时候会有港腔或者是外国人腔调,但瑕不掩瑜。

二、软件功能

第一个版本仅支持简单的文本转语音,且单个语音字数有一定限制,优化完善之后支持:

1.长文本转语音

之前:因为 Tokens 限制的问题,最长只能支持1000字左右的文本转为音频。

现在:优化了写法,理论上可不限字数生成,实测10000+字数稳定输出!但建议还是不要太长,防止网络中断啥的造成 Tokens 浪费!

2. TXT文档、SRT字幕文档批量转语音(新增)

  • 可以单独/批量添加或批量扫描文件文档后一键批量生成语音;

  • 支持全部导入后单个文档操作:生成、导出、删除等;

  • 支持输出文件到原文档目录。

3.功能限制

  • 网络环境必须可以访问 Openai 网站[后文有解决方案];

  • 只支持 Windows 平台使用[跨平台开发我真不会啊]!!!

三、软件使用教程

1. 设置接口、Api秘钥

073600f3ij24bbb3i3rkic.png
接口地址、Api Key

接口地址

Api Key秘钥

官方秘钥获取地址:https://platform.openai.com/api-keys

073600mt3ttct80c6xrxti.png
官方秘钥创建

新注册的账号新建秘钥需要境外电话认证,无法直接创建Api key!解决方案如图示:

073600o9qk0pmu01evrryg.png
临时 Api Key 获取教程

白嫖怪有话说: Openai Api 新账号会有五美金的调用额度,差不多可以生成几十万字的音频。所以,如果没有境外手机号认证且也不想那个那个的话,可以通过注册多个账号获取临时秘钥使用,个人场景差不多也够了。(个人还是建议付费使用的哈~)

已经完成电话认证的,直接创建秘钥或者复制以前的秘钥填写即可。

使用第三方秘钥: 注意请与第三方接口保持一致!

填入秘钥后,软件会将秘钥数据保存至本地软件数据目录,下次启动后会自动读取,不用每次都填写。

2. 配置其他控制参数

主要包括模型、发音角色、语速、响应格式、导出目录以及代理。

模型选择:模型有 tts-1tts-1-hd 两种选择,一个生成更快,一个音频质量更高,但实测没什么区别;tts-1-hd 价格贵两倍;

发音角色:OpenAi TTS 提供了六个选项,alloy、echo、fable、onyx、nova、shimmer;

语速设置:只能是 0.25-4.0 之间的值,默认1.0,有需求可以放心大胆的调整,乱输也不会出错;

输出格式:默认是mp3,大家也可以根据自己的需要选择opus、aac或flac等,没有特别需求默认mp3即可,其他格式生成完成后不支持播放; opus:主要用于互联网流媒体和通信,低延迟;aac:主要用于数字音频压缩,YouTube、Android、iOS 首选;flac:主要用于无损音频压缩。

导出目录:默认导出到桌面;

代理访问:部分电脑可能魔法环境不彻底,会导致软件无法生成;此时可以获取魔法软件的代理ip和端口填入软件即可正常使用。不懂可以问我!

3. 输入待转文本/导入待转文档

输入待转文本

双击文本框为自动清除声明文本,直接手动输入或者粘贴你需要转换成语音的文本即可。

073600rshogmocqttymyth.png
输入文本

导入待转文档

  • · 点击添加文件:添加一个或者多个特定的TXT、SRT文本文档;

  • · 点击扫描文件:添加文件夹内所有TXT、SRT文本文档到软件。

4. 生成并导出音频

纯文本模式

输入文本后,点击右侧的 一键合成音频 等待几秒钟即生成完成。

待“显示台”提示生成完成后,播放音频导出音频按钮会解锁,如果生成的是mp3格式的音频,则点击播放音频即可听到刚刚生成的文本音频,试听无误后可以导出音频到指定目录。

073600olyltwxnw3kl3kyy.png
文本模式生成导出

导出的文件名为当前日期时间.格式,如20240128170155.mp3

批量文档模式

073601aebb1abqkxn5k71o.png
文档模式生成导出

启动全部:将软件内所有文档均生成音频;

停止全部:停止所有正在进行的音频生成;

导出全部:将生成完成的音频导出到设置目录;

输出音频文本到源文件目录:生成的音频直接存储到文本文档存放目录;

清除记录:删除所有音频生成记录;

表内·开始合成:开始合成单个文档文本内容音频;

表内·取消合成:取消合成单个文档文本内容音频;

表内·试听音频:试听单个文档文本内容生成音频;

表内·停止播放:停止播放单个文档文本内容生成的音频;

表内·导出音频:导出单个文档文本内容生成的音频到设置目录;

表内·删除本条:删除单个文档TTS记录;

导出的文件名为文档文件名称.格式,如测试文档.mp3

四、应用场景

TTS 技术的应用非常广泛,比如教育领域、新闻媒体领域、企业客服、个人日常阅读等等。但当前最广泛的应用还是自媒体短视频的配音生产:相较于目前主流的一些 TTS 配音工具,OpenAi TTS 配音更加拟人化,听感更好且更有特色。

当然,市面上也有一些更加优秀的 TTS 模型,如GPT-SoVITS、ChatTTS等,不仅可以定制音色,在语调上也更接近真人。但是存在一定使用门槛,依赖本地推理可能比较吃配置先不说,光部署可能就会将大多数人拦在门外。


所有评论 0
您需要登录后才可以回帖 登录 | 立即注册