TTS语音合成助手 v2.0.9 for Android 免金币高级版

一枝红杏

2022-12-11

生活工具

非常适合需要自媒体配音的朋友使用，tts语音合成助手是一个专业的工具，支持文字转语音，大咖主播，广告配音，海量的素材可以选择，还可以将mp3文件导出来在u播上播放，很实用。

已破解付费功能，免费使用所有功能。

可以选择语音声音、调整语速、免费音乐和导入文本等。

需要制作短视频配音的同学可以试试。

功能介绍

1、智能语音合成：专业配音，一键合成。

2、导出Mp3文件：生成的MP3文件可以拷贝到U盘或者内存卡里面播放。

3、蓝牙播放：可连接蓝牙音箱播放，无需导出文件也可使用。

4、海量背景音乐：支持添加背景音，个性化定制背景音乐。

5、文字转语音，简单快捷。

优势介绍

1、操作简单，中英文随意切换，多种发音人选择。

2、海量背景音乐，与您的广告完美搭配。

3、同步导出MP3和歌词文件，多平台分享微信朋友圈和好友。

4、支持蓝牙音箱播放，无需导出文件免费播放。

支持的场景

1、广告配音：商场广告促销、地摊叫卖、企业宣传、影视配音等。

2、英语读物：制作各类英语配音，英语听力音频制作等。

3、有声阅读：小说、杂志、课本、童话，打造属于你的个性化听书APP。

4、广播配音：学校、企业、车站、机场、商场的广播播音。

5、配音类：动画片、flash影片、各类广播剧。

6、影视配音：广告片配音、影视片配音、动画后期配音。

7、工业用声：防盗、报警、车辆船舶导航系统的语音录制。

8、出版物：有声读物、文艺作品、课件、培训软件的语音录制。

9、多媒体：光盘解说、集团彩铃、电信、金融CTI的语音录制。

10、解说配音：企业专题片、建筑动画、工程标书解说等配音解说。

11、教学配音：电子词典、教材、电子图书、各类语音IC系列录制。

12、自有视频配音：快手等自媒体视频快速配音，适配剪映、快影等本地导入功能。

语音和TTS介绍

语音合成基础(1)——语音和TTS

本文未经允许，禁止转载，谢谢合作。

本文我们主要介绍语音合成的一些基础知识，我们从最基本的发声的物理过程开始，逐步深入到语音合成。

1. 语音

发声的物理过程

总体来说，我们首先在脑中产生要说的东西的概念，然后大脑会控制肌肉来调整声道中的空气流动，从而产生语音。

空气从肺(lung)中产生（当然一开始是你把空气吸进来的），声带(vocal chord)使得空气产生震动，因此控制了基础频率(base frequency)，是声音产生的起点。

基础声波会依次通过声道(vocal tract)、软颚(palate，即将嘴的上半部分和鼻子分开的部分)、口腔(oral cavity)和舌头(lip)等器官，这些器官相当于一个大的滤波器，调整了原始声波的频率，从而生成了最终的语音。

phone/sound

任何清晰的语音都是phone/sound

phoneme音素

能区分意义的最小声音单位

比如dog和fog中，d和f只要改变一个就改变了意义。

voiced/unvoiced

声带振动/不振动

汉语中一般称这两个概念为浊音和清音

清音

简单来说，发清音时声带不振动，因此清音没有周期性。

如：[p]pea豌豆、[t]tea茶、[k]key钥匙、[f]fat肥胖、[s]seat座位

浊音

发音时声带振动的音称为浊音。辅音有清有浊，而多数语言中的元音均为浊音，鼻音、边音、半元音也是浊音。

vowel元音

Sound produced with open vocal tract，一般都是voiced，元音的清晰度主要取决于声道的形状

consonant辅音

Sound produced with (partially) closed vocal tract，辅音可以是清音也可以是浊音（voice/voiceless)。辅音的质量同样取决于声道关闭的形状，且有很多种类的发音

爆破音Stops/plosives: total closing + “explosive” release，比如p

鼻音Nasals：停止的时候鼻腔会张开, 比如n

摩擦音fricatives：声道半张半开，因此产生震动，比如s, z

半元音approximants：发音时声道先闭合然后再张开，比如w, j

下图展示了元音和辅音发音时各种发音器官的变化

2. 语音的频率

speech wave

语音波是一种compound wave，即包含各种频率的波。因此在频域上表示语音更为合适。

pitch音高

声音的尖锐程度，在频域中表现为频率的高低。

基础频率F0

正如我们之前介绍的，浊音中存在基础频率，而清音中不存在，F0决定了声音的音高。

formants共振峰

是一种元音特有的在频域中的现象，因为只有元音有基础频率。每个元音都有两个共振峰，可以用来区分元音，记为F1和F2。F1,F2取决于基础频率，如果基础频率太高，共振峰可能会消失，这种情况下就区分不出来元音，这种现象在各种女高音身上比较常见。

timbre音色

音色在广义上是指声音不同于其它的特点，在语音中不同的音节都有不同的特点，这可以通过频域观察出来，另外，特别地，对于元音我们可以通过共振峰来分辨音色。

noise

噪音、辅音(摩擦音)都会有broad spectrum，也就是说我们无法通过共振峰来识别它们。

下图展示了各种声音在时频域中的样子：

envelope包络

在波的时域和频域图中，用来形容图形的整体形状的叫做包络。

比如在时域中，如果时间的分辨率较低，我们可以看到语音被分成一个一个菱形，上半部分三角形的轮廓就叫做包络。

3. Utterance

hierarchy of phone

如下图所示：

可以看到Utterance满足层次结构，一般提取特征也是基于多个层次来做的。

syllables

最小的可以发声(pronounceable)的单元。

open syllable：以元音为结尾的音节，日语基本上都是这样

closed syllable：以辅音为结尾的音节

consonant cluster：很多个辅音连接在一起，英文中常见

accent / stress units

发音的特性，有些语言通过声调来区分意义，比如日语或者中文，而英语是通过重音来区分意义的。

rhythm / isochrony

也就是发声时候的节奏，比如日语是平假名分隔，而中文是汉字，英文是由重音来作为分隔的。

prosodic / intonation units

韵律、声调，针对单词和短语

utterances

一般是句子，但也可以变长。标点符号分隔。

neighboring phones influence each other a lot。

4. 语音合成及其历史

TTS

Text-To-Speech，语音合成，特指从文字合成出语音

Voice Conversion，声音转换，就是把一个人的声音转成另一个

ASR

Automatic Speech Recognition，即语音识别，从语音到文字

历史

Mechanical speech production system-1790，即机械系统

Electric system-1930，电子系统，键盘操作，贝尔实验室开发

Computer TTS-1960，基于计算机的TTS

Production systems-1980

5. TTS Pipeline

传统的TTS主要是通过组合多个模块构成流水线来实现的，整个系统可以大致分为前端(frontend)和后端(backend)。

frontend

主要是文字处理，使用NLP技术，从离散到离散，包括基本的分词、text normalization、POS以及特有的Pronunciation标注。

前端和后端基本独立。

backend

根据前端结果生成语音，从离散到连续

segmentation & normalization

去噪、分句、分词以及把缩写、日期、时间、数字还有符号都换成可发音的词，这一步叫spell out。

基本都基于规则

grapheme-to-phoneme

利用发音词典和规则，生成音素。

音素一般利用ASCII编码，比如SAMPA和ARPAbet，这种编码在深度模型中也可以被支持。

这里的一个问题是pronunciation一般基于上下文，因为上下文可能决定了词的词性等，比如read的过去式就有不同的读音。

IPA(international Phonetic Alphabet)

是一个基于拉丁字母的语音标注系统。IPA只能表示口语的性质，比如因素，音调，音节等，如果还想要表示牙齿舌头的变动则还有一个extension IPA可以用。

IPA中最基本两种字母是letter和diacritic(变音符号)，后者用来表示声调。

IPA虽然统一了不同语言的发音，但是英语本身是stress language所以注音很少，而中文这样依赖于音调的语言就会包含很多音调。

intonation/stress generation

这一步比较难，基本根据规则，或者构造统计模型

SSML(speech synthesis markup language)

一种专门为语音合成做出来的语言，基于XML，包含了发音信息。

waveform synthesis

包含很多方法

formant-based: 基于规则来生成共振峰还有其它成分

concatenative: 基于database copy&paste

parametric model: HMM等，神经网络就是最新的参数模型

更新日志

2.0.9更新

1、【修复】部分已知bug，优化用户体验

2.0.5更新

1、【修复】部分已知bug，优化用户体验

1.4.1120更新

1、【增加】文件分享功能，一键分享你的音频

2、【增加】云端储存功能，文件查看更便捷

3、【增加】作品集文件管理功能，分类更清晰

4、【修复】部分已知bug，优化用户体验

1.4.1118更新

1、【修复】部分Bug，优化体验

版权声明：本文采用《知识共享署名4.0 国际许可协议 [BY-NC-SA] 》进行授权
标题名称：TTS语音合成助手 v2.0.9 for Android 免金币高级版
本文链接：https://www.jiaoliudao.com/android/mshgj/4063.html
免责声明：根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”您需知晓本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24个小时之内从您的电脑中彻底删除上述内容，否则后果均由用户承担责任；如果您访问和下载此文件，表示您同意只将此文件用于参考、学习而非其他用途，否则一切后果请您自行承担，如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。
本站为个人博客非盈利性站点，所有软件信息均来自网络，所有资源仅供学习参考研究目的，并不贩卖软件，不存在任何商业目的及用途。如有侵权请邮件 jiaoliudao@qq.com 与我们联系处理，我们会及时处理。

THE END

名阳文字转语音 v2.0.13 for Android 高级版

<<上一篇

可可修图 v1.5.4 for Android Coco Cam 高级版

下一篇>>