當(dāng)前位置: 首頁 » 行業(yè)資訊 » 機(jī)器人»為了合成讓人類聽懂的語音，機(jī)器做了哪些“深度學(xué)習(xí)”？

為了合成讓人類聽懂的語音，機(jī)器做了哪些“深度學(xué)習(xí)”？

發(fā)布日期：2017-09-06 瀏覽次數(shù)：516

核心提示：　　深度進(jìn)修在2006年開端嶄露頭腳后，近幾年獲得了飛速的成長，不管是學(xué)術(shù)研討照樣企業(yè)運(yùn)用均出現(xiàn)出指數(shù)級(jí)增加的趨向；隨同著這項(xiàng)技巧的賡續(xù)成熟，深度進(jìn)修在智能語音范疇率先發(fā)力，獲得一系列勝利的運(yùn)用。　　例如

　　深度進(jìn)修在2006年開端嶄露頭腳后，近幾年獲得了飛速的成長，不管是學(xué)術(shù)研討照樣企業(yè)運(yùn)用均出現(xiàn)出指數(shù)級(jí)增加的趨向；隨同著這項(xiàng)技巧的賡續(xù)成熟，深度進(jìn)修在智能語音范疇率先發(fā)力，獲得一系列勝利的運(yùn)用。

　　例如，一。音色的定制化，須要跟蹤錄年夜量的音庫，從新練習(xí)一個(gè)模子；二。特性化表現(xiàn)辦法的定制化，可以錄一些數(shù)據(jù)，經(jīng)由過程深度進(jìn)修練習(xí)模子，自順應(yīng)的辦法來完成。

　　深度進(jìn)修在統(tǒng)計(jì)參數(shù)語音分解中的運(yùn)用

　　語音分解重要采取波形拼接分解和統(tǒng)計(jì)參數(shù)分解兩種方法。波形拼接語音分解須要有足夠的高質(zhì)量發(fā)音人灌音能力夠分解高質(zhì)量的語音，它是貿(mào)易產(chǎn)物中最經(jīng)常使用的語音分解技巧。統(tǒng)計(jì)參數(shù)語音分解固然全體分解質(zhì)量略低，然則在小范圍語料、低占用資本的情形下，優(yōu)勢(shì)更加顯著。另外，混雜語音分解結(jié)合了波形拼接分解和統(tǒng)計(jì)參數(shù)分解的優(yōu)勢(shì)，選音辦法相似于傳統(tǒng)的波形拼接辦法，它應(yīng)用參數(shù)分解辦法來指點(diǎn)選音；接上去重點(diǎn)引見今朝普遍應(yīng)用的語音分解辦法：

　　（1）傳統(tǒng)的基于DNN/LSTM的分解

　　傳統(tǒng)的基于HMM統(tǒng)計(jì)參數(shù)的語音分解是在練習(xí)進(jìn)程中樹立文本參數(shù)與聲學(xué)參數(shù)之間的映照模子，經(jīng)由過程高斯混雜模子描寫每一個(gè)建模單位。在建模進(jìn)程中有三個(gè)環(huán)節(jié)會(huì)招致語音音質(zhì)降低，第一是決議計(jì)劃樹的聚類，第二是聲碼器，第三是參數(shù)生成算法。針對(duì)決議計(jì)劃樹聚類成績，可以經(jīng)由過程深層神經(jīng)收集樹立文本特點(diǎn)和聲學(xué)特點(diǎn)之間的映照關(guān)系，替換傳統(tǒng)的淺層模子，進(jìn)步模子精度；比擬典范的深層神經(jīng)收集模子構(gòu)造包含深層相信神經(jīng)收集和長短時(shí)記憶遞歸神經(jīng)收集；后者具有更強(qiáng)的序列進(jìn)修才能，采取BLSTM-RNN建模時(shí)，還可以跳過參數(shù)生成算法直接猜測語音參數(shù)，最初經(jīng)由過程聲碼器便可以分解語音；總的來講，應(yīng)用深層神經(jīng)收集壯大的非線性建模才能，在必定水平上晉升了語音分解體系的機(jī)能，然則并沒有跳出原本的語音分解體系框架。

　　（2）基于WaveNet的分解

　　在已有的研討中，很少有人會(huì)直接在時(shí)域上對(duì)已有音頻建模。從直覺上剖析，構(gòu)建一個(gè)自回歸模子，可以或許猜測每個(gè)samples是若何被后面一切的samples所影響的，是一個(gè)相當(dāng)艱難的義務(wù)。谷歌提出的基于WaveNets的語音分解辦法，跳出了傳統(tǒng)語音分解框架，繞開聲碼器模塊，直接對(duì)采樣點(diǎn)停止猜測，面臨這個(gè)充斥挑釁的成績，獲得了沖破。

　　WaveNet語音分解體系的輸出包含文本特點(diǎn)和先前時(shí)段的音頻采樣點(diǎn)。個(gè)中文本特點(diǎn)的有用表述起到異常主要的感化。假如在沒有文本序列的情形上去練習(xí)收集，依然可以生成語音，然則沒法聽懂輸入音頻的內(nèi)容。WaveNet語音分解體系存在的成績是模子每次輸入單個(gè)采樣點(diǎn)，盤算效力難以知足適用請(qǐng)求。可以引入一些自順應(yīng)的辦法對(duì)已有模子停止優(yōu)化，使其可以或許實(shí)用于分歧發(fā)音人。也能夠在模子的輸出端供給更多的信息，例如情緒或口音，如許使得生成的語音可以更多樣化，更具表示力。

　　（3）基于DeepVoice的分解

　　百度提出了Deep Voice語音分解體系，它將外面的許多模塊用深度神經(jīng)收集去完成，經(jīng)由過程相似于WaveNet的分解器來分解，后果也是比擬幻想的。已有的語音分解體系會(huì)在某些環(huán)節(jié)上采取深度進(jìn)修，但在Deep Voice之前，沒有團(tuán)隊(duì)采取全深度進(jìn)修的框架。傳統(tǒng)語音分解須要停止年夜量的特點(diǎn)處置和特點(diǎn)構(gòu)建，但百度經(jīng)由過程應(yīng)用深度進(jìn)修防止了這些成績。這使得 Deep Voice 的運(yùn)用規(guī)模加倍普遍，應(yīng)用起來也加倍便利。假如須要運(yùn)用于新的數(shù)據(jù)集，傳統(tǒng)的語音分解體系完成從新練習(xí)需數(shù)天到數(shù)周的時(shí)光停止調(diào)理，而對(duì)Deep Voice停止手動(dòng)操作和練習(xí)模子所需的時(shí)光只需幾個(gè)小時(shí)就足夠。比擬于WaveNet語音分解體系，如今這個(gè)體系的有用速度晉升了400倍。

　　（4）兩個(gè)端對(duì)真?zhèn)€語音分解

　　第一個(gè)是Char2Wav，這個(gè)模子是直接對(duì)輸出的文本停止編碼，采取encoder-decoder模子。對(duì)輸出特點(diǎn)停止編碼，然后生成的中央編碼信息放到解碼器里停止最初的分解，分解采取SimpleRNN的分解器來分解語音，后果也是比擬幻想的，并且是典范的End-To-End的語音分解模子。

　　再一個(gè)是谷歌提出的端對(duì)真?zhèn)€語音分解體系，它跟Char2Wav比擬相似，輸出的也是Embeddings，分解的后果也比擬感性。

下一篇：水的污染問題要在岸上找“病因” 機(jī)器人為地下管網(wǎng)“診病”

上一篇：臨平新城將打造一座產(chǎn)業(yè)互聯(lián)網(wǎng)小鎮(zhèn)

[ 行業(yè)資訊搜索 ] [ 加入收藏 ] [ 告訴好友 ] [ 打印本文 ] [ 關(guān)閉窗口 ]

同類行業(yè)資訊

• 首批人形機(jī)器人技術(shù)國標(biāo)立項(xiàng) • 首個(gè)人形機(jī)器人應(yīng)用示范區(qū)有望落地廣州
• 從搬箱子到分揀！人形機(jī)器人工業(yè)領(lǐng)域10-20萬臺(tái) • 美的人形機(jī)器人5月進(jìn)廠，下半年進(jìn)入線下門店
• 港仔機(jī)器人實(shí)現(xiàn)資本與科技合璧以標(biāo)準(zhǔn)化推動(dòng)人 • “量產(chǎn)元年” 人形機(jī)器人加速落地多場景
• 動(dòng)易科技完成超億元天使輪融資，將發(fā)布首款全尺 • 浙江溫嶺：生產(chǎn)機(jī)器人供市場
• 緯鈦機(jī)器人完成近億元融資，聚焦機(jī)器人仿生感知 • 這項(xiàng)國家標(biāo)準(zhǔn)由越疆機(jī)器人參與牽頭定制，已正式

共0條 [查看全部] 相關(guān)評(píng)論

展會(huì)更多+

第26屆上海國際清

2025數(shù)控機(jī)床與金

2025中國(上海)機(jī)

2025武漢國際工業(yè)

04-182025中國（寧波）五金機(jī)電進(jìn)出口博覽會(huì)暨外貿(mào)采購與出海發(fā)展高峰論壇

04-032025中國(東莞)切削工業(yè)裝備博覽會(huì)

01-13第26屆上海國際清潔技術(shù)與設(shè)備博覽會(huì)

12-112025數(shù)控機(jī)床與金屬加工展暨第25屆中國國際工業(yè)博覽會(huì)

12-092025中國(上海)機(jī)器視覺展

視頻更多+

中舟智能固守科技

玉灃科技：精研滑

新松機(jī)器人自動(dòng)化

羅克韋爾自動(dòng)化（

10-11中舟智能固守科技創(chuàng)新新品首發(fā)添彩中國夢(mèng)

10-11玉灃科技：精研滑臺(tái)十二載遙遙領(lǐng)先的模組

08-05新松機(jī)器人自動(dòng)化股份有限公司

07-18羅克韋爾自動(dòng)化（中國）企業(yè)宣傳片

07-18凌華科技機(jī)器手臂視覺導(dǎo)引解決方案

點(diǎn)擊排行

在成都，機(jī)器人批量造機(jī)器人

人形機(jī)器人商業(yè)化落地可期

7年投資44.2億元！廣東持續(xù)推進(jìn)A

持續(xù)構(gòu)建創(chuàng)新生態(tài)，浦東加速人形

中國成全球機(jī)器人最大“練兵場”

打造人形機(jī)器人產(chǎn)業(yè)競爭新優(yōu)勢(shì)

全市首個(gè)人形機(jī)器人數(shù)據(jù)訓(xùn)練中心

英媒：人形機(jī)器人較量中國巧妙

1-2月江蘇出口工業(yè)機(jī)器人2億元

攻關(guān)機(jī)器人“大小腦”等關(guān)鍵技術(shù)

久久亚洲春色中文字幕久久久_亚洲另类春色偷拍在线观看_精品www_精品免费国产一区二区三区四区介绍_日韩在线中文_国产区在线看

我的供應(yīng)

我的求購

商鋪管理

工業(yè)機(jī)器人及行業(yè)應(yīng)用

智能機(jī)器人

工業(yè)自動(dòng)化

智能裝備

為了合成讓人類聽懂的語音，機(jī)器做了哪些“深度學(xué)習(xí)”？

• 首批人形機(jī)器人技術(shù)國標(biāo)立項(xiàng)	• 首個(gè)人形機(jī)器人應(yīng)用示范區(qū)有望落地廣州
• 從搬箱子到分揀！人形機(jī)器人工業(yè)領(lǐng)域10-20萬臺(tái)	• 美的人形機(jī)器人5月進(jìn)廠，下半年進(jìn)入線下門店
• 港仔機(jī)器人實(shí)現(xiàn)資本與科技合璧以標(biāo)準(zhǔn)化推動(dòng)人	• “量產(chǎn)元年” 人形機(jī)器人加速落地多場景
• 動(dòng)易科技完成超億元天使輪融資，將發(fā)布首款全尺	• 浙江溫嶺：生產(chǎn)機(jī)器人供市場
• 緯鈦機(jī)器人完成近億元融資，聚焦機(jī)器人仿生感知	• 這項(xiàng)國家標(biāo)準(zhǔn)由越疆機(jī)器人參與牽頭定制，已正式

第26屆上海國際清	2025數(shù)控機(jī)床與金
2025中國(上海)機(jī)	2025武漢國際工業(yè)

中舟智能固守科技	玉灃科技：精研滑
新松機(jī)器人自動(dòng)化	羅克韋爾自動(dòng)化（