首页/工具源码/实用工具/OpenAi TTS文本转语音工具:视频配音必备神器

付付

站长

微 信:FFIEXMW 公众号:付付创业研究院
付付,上海某知名院校法学研究生毕业,精通Windows平台软件开发,拥有8年独立建站经验,拥有多家网站VIP付费会员,长期接触各种网络创业项目、优质软件、网站源码,同时也不断地购买很多虚拟资源,包括各类付费课程、商业软件等。因此专门做了这个网站用来分享这些精品收费资源,希望对大家有所帮助。
版权声明
  • 会员在本站下载的素材,
    只拥有素材的使用权,著作权归原作者及我网所有 未经合法授权,会员不得以任何形式发布、传播、复制、转售该素材。 如若您的权益被侵害请联系网站客服。
OpenAi TTS文本转语音工具:视频配音必备神器

大家好,我是付付,微信ffiexmw 公众号付付创业研究院


今天要给大家分享的是付付自己开发的一个 Openai TTS 文本转语音小工具。之前研究数字人律师时接触过 Openai TTS ,囿于找不到合适的软件调用服务,索性自己写了个~


软件第一版公布到了我的另一个网站上,发现还是有很多人下载的。正好后面接了一个相关的单子,所以在第一版的基础上进一步完善了,加入了新功能。正好“付付项目网”上了正轨,就将这个软件对接了一下网站分享给大家:


OpenAi TTS文本转语音工具:视频配音必备神器

软件界面


一、软件介绍


付付项目网 OpenAi TTS 文本转语音工具是基于 Openai TTS API 开发的一款 Windows 本地文本转语音软件,用户只需要简单的配置即可将文本转成音频,免去安装各种环境支持的烦恼。Openai TTS是基于先进的深度学习技术开发的文本转语音系统。它能够将文本信息转换为流畅自然、接近人声的语音输出。


Openai TTS 针对其两个音频生成模型模型提供了以下两种计费方式:


TTS-1 $0.015 / 1K characters


TTS-1-HD $0.030 / 1K characters


不过 OpenAi api 新账号注册即送五美金额度,如果只用 tts-1 模型的话,大概可以生成 33 万字符。使用完了之后可以重新注册账号,几乎等于免费使用。


在我目前所接触过的商用TTS模型当中,Openai 生成的语音是最接近真人的,相对其他模型其听起来更加自然、流畅,能够很好地模仿人类的语音模式,包括语调、停顿、强调等。唯一美中不足的是中文发音有时候会有港腔或者是外国人腔调,但瑕不掩瑜。


二、软件功能


第一个版本仅支持简单的文本转语音,且单个语音字数有一定限制,优化完善之后支持:


1.长文本转语音


之前:因为 Tokens 限制的问题,最长只能支持1000字左右的文本转为音频。


现在:优化了写法,理论上可不限字数生成,实测10000+字数稳定输出!但建议还是不要太长,防止网络中断啥的造成 Tokens 浪费!


2. TXT文档、SRT字幕文档批量转语音(新增)


  • 可以单独/批量添加或批量扫描文件文档后一键批量生成语音;


  • 支持全部导入后单个文档操作:生成、导出、删除等;


  • 支持输出文件到原文档目录。


3.功能限制


  • 网络环境必须可以访问 Openai 网站[后文有解决方案];


  • 只支持 Windows 平台使用[跨平台开发我真不会啊]!!!


三、软件使用教程


1. 设置接口、Api秘钥


OpenAi TTS文本转语音工具:视频配音必备神器

接口地址、Api Key


接口地址

Api Key秘钥


官方秘钥获取地址:https://platform.openai.com/api-keys


OpenAi TTS文本转语音工具:视频配音必备神器

官方秘钥创建


新注册的账号新建秘钥需要境外电话认证,无法直接创建Api key!解决方案如图示:


OpenAi TTS文本转语音工具:视频配音必备神器

临时 Api Key 获取教程


白嫖怪有话说: Openai Api 新账号会有五美金的调用额度,差不多可以生成几十万字的音频。所以,如果没有境外手机号认证且也不想那个那个的话,可以通过注册多个账号获取临时秘钥使用,个人场景差不多也够了。(个人还是建议付费使用的哈~)


已经完成电话认证的,直接创建秘钥或者复制以前的秘钥填写即可。


使用第三方秘钥: 注意请与第三方接口保持一致!


填入秘钥后,软件会将秘钥数据保存至本地软件数据目录,下次启动后会自动读取,不用每次都填写。


2. 配置其他控制参数


主要包括模型、发音角色、语速、响应格式、导出目录以及代理。


模型选择:模型有 tts-1 和 tts-1-hd 两种选择,一个生成更快,一个音频质量更高,但实测没什么区别;tts-1-hd 价格贵两倍;


发音角色:OpenAi TTS 提供了六个选项,alloy、echo、fable、onyx、nova、shimmer;


语速设置:只能是 0.25-4.0 之间的值,默认1.0,有需求可以放心大胆的调整,乱输也不会出错;


输出格式:默认是mp3,大家也可以根据自己的需要选择opus、aac或flac等,没有特别需求默认mp3即可,其他格式生成完成后不支持播放; opus:主要用于互联网流媒体和通信,低延迟;aac:主要用于数字音频压缩,YouTube、Android、iOS 首选;flac:主要用于无损音频压缩。


导出目录:默认导出到桌面;


代理访问:部分电脑可能魔法环境不彻底,会导致软件无法生成;此时可以获取魔法软件的代理ip和端口填入软件即可正常使用。不懂可以问我!


3. 输入待转文本/导入待转文档


输入待转文本


双击文本框为自动清除声明文本,直接手动输入或者粘贴你需要转换成语音的文本即可。


OpenAi TTS文本转语音工具:视频配音必备神器

输入文本


导入待转文档


  • · 点击添加文件:添加一个或者多个特定的TXT、SRT文本文档;


  • · 点击扫描文件:添加文件夹内所有TXT、SRT文本文档到软件。


4. 生成并导出音频


纯文本模式


输入文本后,点击右侧的 一键合成音频 等待几秒钟即生成完成。


待“显示台”提示生成完成后,播放音频 和导出音频按钮会解锁,如果生成的是mp3格式的音频,则点击播放音频即可听到刚刚生成的文本音频,试听无误后可以导出音频到指定目录。


OpenAi TTS文本转语音工具:视频配音必备神器

文本模式生成导出


导出的文件名为当前日期时间.格式,如20240128170155.mp3


批量文档模式


OpenAi TTS文本转语音工具:视频配音必备神器

文档模式生成导出


启动全部:将软件内所有文档均生成音频;


停止全部:停止所有正在进行的音频生成;


导出全部:将生成完成的音频导出到设置目录;


输出音频文本到源文件目录:生成的音频直接存储到文本文档存放目录;


清除记录:删除所有音频生成记录;


表内·开始合成:开始合成单个文档文本内容音频;


表内·取消合成:取消合成单个文档文本内容音频;


表内·试听音频:试听单个文档文本内容生成音频;


表内·停止播放:停止播放单个文档文本内容生成的音频;


表内·导出音频:导出单个文档文本内容生成的音频到设置目录;


表内·删除本条:删除单个文档TTS记录;


导出的文件名为文档文件名称.格式,如测试文档.mp3


四、应用场景


TTS 技术的应用非常广泛,比如教育领域、新闻媒体领域、企业客服、个人日常阅读等等。但当前最广泛的应用还是自媒体短视频的配音生产:相较于目前主流的一些 TTS 配音工具,OpenAi TTS 配音更加拟人化,听感更好且更有特色。


当然,市面上也有一些更加优秀的 TTS 模型,如GPT-SoVITS、ChatTTS等,不仅可以定制音色,在语调上也更接近真人。但是存在一定使用门槛,依赖本地推理可能比较吃配置先不说,光部署可能就会将大多数人拦在门外。

附件列表
提取密码:r9pd
资源大小:忘了上传时间:2024-12-14 16:23:05
学过该项目的人还在学
返回顶部