午夜精品久久久久久不卡8050,国产精品久久久国产,国产99久久久国产,国产精品久久久久久久泡妞,精品96久久久久久中文字幕无,美女久久久久久久久久,国产精品网站在线观看免费传媒

在語(yǔ)音識別這件事上 漢語(yǔ)應該可以比英語(yǔ)早一年超越人類(lèi)水平

2016.10.25 09:19 語(yǔ)音識別概念股

幾天前,微軟語(yǔ)音識別實(shí)現了歷史性突破,英語(yǔ)的語(yǔ)音轉錄達到專(zhuān)業(yè)速錄員水平。

10 月 19 日,微軟的這條消息發(fā)布之后在業(yè)內引起了極大的關(guān)注。語(yǔ)音識別一直是國內外許多科技公司發(fā)展的重要技術(shù)之一,微軟的此次突破是識別能力在英語(yǔ)水平上第一次超越人類(lèi)。在消息公開(kāi)之后,百度首席科學(xué)家吳恩達就發(fā)推恭賀微軟在英語(yǔ)語(yǔ)音識別上的突破,同時(shí)也讓我們回憶起一年前百度在漢語(yǔ)語(yǔ)音識別上的突破。

吳恩達:在 2015 年我們就超越了人類(lèi)水平的漢語(yǔ)識別;很高興看到微軟在不到一年之后讓英語(yǔ)也達到了這一步。

百度 Deep Speech2,漢語(yǔ)語(yǔ)音識別媲美人類(lèi)

去年 12 月,百度研究院硅谷人工智能實(shí)驗室(SVAIL)在 arXiv 上發(fā)表了一篇論文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin(Deep Speech 2:端到端的英語(yǔ)和漢語(yǔ)語(yǔ)音識別)》,介紹了百度在語(yǔ)音識別技術(shù)的研究成果。

2016-10-25 星期二 0-17-44

論文摘要:

我們的研究表明一種端到端的深度學(xué)習(end-to-end deep learning)方法既可以被用于識別英語(yǔ)語(yǔ)音,也可以被用于識別漢語(yǔ)語(yǔ)音——這是兩種差異極大的語(yǔ)言。因為用神經(jīng)網(wǎng)絡(luò )完全替代了人工設計組件的流程,端到端學(xué)習讓我們可以處理包含噪雜環(huán)境、口音和不同語(yǔ)言的許多不同的語(yǔ)音。我們的方法的關(guān)鍵是 HPC(高性能計算)技術(shù)的應用,這讓我們的系統的速度超過(guò)了我們之前系統的 7 倍。因為實(shí)現了這樣的效率,之前需要耗時(shí)幾周的實(shí)驗現在幾天就能完成。這讓我們可以更快速地迭代以確定更先進(jìn)的架構和算法。這讓我們的系統在多種情況下可以在標準數據集基準上達到能與人類(lèi)轉錄員媲美的水平。最后,通過(guò)在數據中心的 GPU 上使用一種叫做的 Batch Dispatch 的技術(shù),我們表明我們的系統可以并不昂貴地部署在網(wǎng)絡(luò )上,并且能在為用戶(hù)提供大規模服務(wù)時(shí)實(shí)現較低的延遲。

論文中提到的 Deep Speech 系統是百度 2014 年宣布的、起初用來(lái)改進(jìn)噪聲環(huán)境中英語(yǔ)語(yǔ)音識別準確率的系統。在當時(shí)發(fā)布的博客文章中,百度表示在 2015 年 SVAIL 在改進(jìn) Deep Speech 在英語(yǔ)上的表現的同時(shí),也正訓練它來(lái)轉錄漢語(yǔ)。

當時(shí),百度首席科學(xué)家吳恩達說(shuō):「SVAIL 已經(jīng)證明我們的端到端深度學(xué)習方法可被用來(lái)識別相當不同的語(yǔ)言。我們方法的關(guān)鍵是對高性能計算技術(shù)的使用,相比于去年速度提升了 7 倍。因為這種效率,先前花費兩周的實(shí)驗如今幾天內就能完成。這使得我們能夠更快地迭代。」

語(yǔ)音識別技術(shù)已經(jīng)發(fā)展了十多年的時(shí)間,這一領(lǐng)域的傳統強者一直是谷歌、亞馬遜、蘋(píng)果和微軟這些美國科技巨頭——據 TechCrunch 統計,美國至少有 26 家公司在開(kāi)發(fā)語(yǔ)音識別技術(shù)。

但是盡管谷歌這些巨頭在語(yǔ)音識別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢讓后來(lái)者似乎難望其項背,但因為一些政策和市場(chǎng)方面的原因,這些巨頭的語(yǔ)音識別主要偏向于英語(yǔ),這給百度在漢語(yǔ)領(lǐng)域實(shí)現突出表現提供了機會(huì )。

作為中國最大的搜索引擎公司,百度收集了大量漢語(yǔ)(尤其是普通話(huà))的音頻數據,這給其 Deep Speech 2 技術(shù)成果提供了基本的數據優(yōu)勢。

不過(guò)有意思的是,百度的 Deep Speech 2 技術(shù)主要是在硅谷的人工智能實(shí)驗室開(kāi)發(fā)的,其研究科學(xué)家(名字可見(jiàn)于論文)大多對漢語(yǔ)并不了解或說(shuō)得并不好。

但這顯然并不是問(wèn)題。

盡管 Deep Speech 2 在漢語(yǔ)上表現非常不錯,但其最初實(shí)際上并不是為理解漢語(yǔ)訓練的。百度美國的人工智能實(shí)驗室負責人 Adam Coates 說(shuō):「我們在英語(yǔ)中開(kāi)發(fā)的這個(gè)系統,但因為它是完全深度學(xué)習的,基本上是基于數據的,所以我們可以很快地用普通話(huà)替代這些數據,從而訓練出一個(gè)非常強大的普通話(huà)引擎。」

2016-10-25 星期二 0-18-20

用于英語(yǔ)和普通話(huà)的 Deep Speech 2 系統架構,它們之間唯一的不同是:普通話(huà)版本的輸出層更大(有 6000 多個(gè)漢語(yǔ)字符),而英語(yǔ)版本的只有 29 個(gè)字符。

該系統能夠識別「混合語(yǔ)音(hybrid speech)」——很多普通話(huà)說(shuō)話(huà)人會(huì )組合性地使用英語(yǔ)和普通話(huà)。

在 Deep Speech 2 于 2015 年 12 月首次發(fā)布時(shí),首席科學(xué)家吳恩達表示其識別的精度已經(jīng)超越了 Google Speech API、wit.ai、微軟的 Bing Speech 和蘋(píng)果的 Dictation 至少 10 個(gè)百分點(diǎn)。

據百度表示,到今年 2 月份時(shí),Deep Speech 2 的短語(yǔ)識別的詞錯率已經(jīng)降到了 3.7%!Coates 說(shuō) Deep Speech 2 轉錄某些語(yǔ)音的能力「基本上是超人級的」,能夠比普通話(huà)母語(yǔ)者更精確地轉錄較短的查詢(xún)。

百度在其技術(shù)發(fā)展上大步邁進(jìn),Deep Speech 2 目前已經(jīng)發(fā)展成了什么樣還很難說(shuō)。但一項技術(shù)終究要變成產(chǎn)品和服務(wù)才能實(shí)現價(jià)值。

科大訊飛的語(yǔ)音識別

百度的 Deep Speech 識別技術(shù)是很驚人,但就像前文所說(shuō)一項技術(shù)終究要變成產(chǎn)品和服務(wù)才能實(shí)現價(jià)值,科大訊飛無(wú)疑在這方面是做得最好的公司之一。

科大訊飛在自然語(yǔ)言處理上的成就是有目共睹的,在語(yǔ)音識別上的能力從最初到現在也在不斷迭代中。2015 年 9 月底,機器之心對胡郁的一次專(zhuān)訪(fǎng)中,他就對科大訊飛語(yǔ)音識別技術(shù)的發(fā)展路線(xiàn)做過(guò)清晰的介紹:

科大訊飛很好地跟隨了語(yǔ)音識別的發(fā)展歷史,深度神經(jīng)網(wǎng)絡(luò )由 Geoffrey Hinton 與微軟的鄧力研究員最先開(kāi)始做,科大訊飛迅速跟進(jìn),成為國內第一個(gè)在商用系統里使用深度神經(jīng)網(wǎng)絡(luò )的公司。谷歌是最早在全球范圍內大規模使用深度神經(jīng)網(wǎng)絡(luò )的公司,谷歌的 Voice Search 也在最早開(kāi)創(chuàng )了用互聯(lián)網(wǎng)思維做語(yǔ)音識別。在這方面,科大訊飛受到了谷歌的啟發(fā),在國內最早把漣漪效應用在了語(yǔ)音識別上面,因此超越了其他平臺。

科大訊飛最初使用隱馬爾可夫模型,后面開(kāi)始在互聯(lián)網(wǎng)上做,2009 年準備發(fā)布一個(gè)網(wǎng)頁(yè) demo,同年 9 月份安卓發(fā)布之后開(kāi)始轉型移動(dòng)互聯(lián)網(wǎng),并于 2010 年 5 月發(fā)布了一個(gè)可以使用的手機上的 demo;2010 年 10 月份發(fā)布了語(yǔ)音輸入法和語(yǔ)音云。

整個(gè)過(guò)程中最難的地方在于,當你不知道這件事情是否可行時(shí),你能夠證明它可行。美國那些公司就是在做這樣的事情。而科大訊飛最先領(lǐng)悟到,并最先在國內做的。

到今年 10 月份剛好過(guò)去一年,科大訊飛的語(yǔ)音識別技術(shù)在此期間依然推陳出新,不斷進(jìn)步。去年 12 月 21 日,在北京國家會(huì )議中心召開(kāi)的以「AI 復始,萬(wàn)物更新」為主題的年度發(fā)布會(huì )上,科大訊飛提出了以前饋型序列記憶網(wǎng)絡(luò )(FSMN, Feed-forward Sequential Memory Network)為代表的新一代語(yǔ)音識別系統。

2016-10-25 星期二 0-19-09

論文摘要:

在此論文中,我們提出了一種新的神經(jīng)網(wǎng)絡(luò )架構,也就是前饋型序列記憶網(wǎng)絡(luò )(FSMN),在不使用循環(huán)前饋的情況下建模時(shí)間序列中的 long-term dependency。此次提出的 FSMN 是一個(gè)標準的全連接前饋神經(jīng)網(wǎng)絡(luò ),在其隱層中配備了一些可學(xué)習的記憶塊。該記憶塊使用一個(gè)抽頭延時(shí)線(xiàn)結構將長(cháng)語(yǔ)境信息編碼進(jìn)固定大小的表征作為短期記憶機制。我們在數個(gè)標準的基準任務(wù)上評估了 FSMN,包括語(yǔ)音識別和語(yǔ)言建模。實(shí)驗結果表明,FSMN 在建模語(yǔ)音或語(yǔ)言這樣的序列信號上,極大的超越了卷積循環(huán)神經(jīng)網(wǎng)絡(luò ),包括 LSTM。此外,由于內在無(wú)循環(huán)模型架構,FSMN 能更可靠、更快速地學(xué)習。

后來(lái)通過(guò)進(jìn)一步的研究,在 FSMN 的基礎之上,科大訊飛再次推出全新的語(yǔ)音識別框架,將語(yǔ)音識別問(wèn)題重新定義為「看語(yǔ)譜圖」的問(wèn)題,并通過(guò)引入圖像識別中主流的深度卷積神經(jīng)網(wǎng)絡(luò )(CNN, Convolutional Neural Network)實(shí)現了對語(yǔ)譜圖的全新解析,同時(shí)打破了傳統深度語(yǔ)音識別系統對 DNN 和 RNN 等網(wǎng)絡(luò )結構的依賴(lài),最終將識別準確度提高到了新的高度。

后來(lái),科大訊飛又推出了全新的深度全序列卷積神經(jīng)網(wǎng)絡(luò )(Deep Fully Convolutional Neural Network, DFCNN)語(yǔ)音識別框架,使用大量的卷積層直接對整句語(yǔ)音信號進(jìn)行建模,更好的表達了語(yǔ)音的長(cháng)時(shí)相關(guān)性,比學(xué)術(shù)界和工業(yè)界最好的雙向 RNN 語(yǔ)音識別系統識別率提升了 15% 以上。

2016-10-25 星期二 0-19-09333

DFCNN 的結構圖

DFCNN 的結構如圖所 示,DFCNN 直接將一句語(yǔ)音轉化成一張圖像作為輸入,即先對每幀語(yǔ)音進(jìn)行傅里葉變換,再將時(shí)間和頻率作為圖像的兩個(gè)維度,然后通過(guò)非常多的卷積層和池化(pooling)層的組合,對整句語(yǔ)音進(jìn)行建模,輸出單元直接與最終的識別結果(比如音節或者漢字)相對應。

搜狗語(yǔ)音識別

縱觀(guān)整個(gè)互聯(lián)網(wǎng)行業(yè),可以說(shuō)搜狗作為一家技術(shù)型公司,在人工智能領(lǐng)域一直依靠實(shí)踐來(lái)獲取更多的經(jīng)驗,從而提升產(chǎn)品使用體驗。

在前幾天的錘子手機新品發(fā)布會(huì )上羅永浩現場(chǎng)演示了科大訊飛的語(yǔ)音輸入之后,一些媒體也對科大訊飛和搜狗的輸入法的語(yǔ)音輸入功能進(jìn)行了對比,發(fā)現兩者在語(yǔ)音識別上都有很不錯的表現。比如《齊魯晚報》的對比結果:

值得一提的是,得益于創(chuàng )新技術(shù),搜狗還擁有強大的離線(xiàn)語(yǔ)音識別引擎,在沒(méi)有網(wǎng)絡(luò )支持的情況下依舊可以做到中文語(yǔ)音識別,以日常語(yǔ)速說(shuō)話(huà),語(yǔ)音識別仍然能夠保持較高的準確率。這一點(diǎn)科大訊飛表現也較為優(yōu)秀,兩者可謂旗鼓相當。

整體體驗下來(lái),搜狗在普通話(huà)和英文的語(yǔ)音輸入方面表現,與訊飛相比可以說(shuō)毫不遜色,精準地識別能力基本可以保證使用者無(wú)需進(jìn)行太多修改。此前在搜狗的知音引擎發(fā)布會(huì )上,搜狗語(yǔ)音交互技術(shù)項目負責人王硯峰稱(chēng)「搜狗知音引擎具備包括端到端的語(yǔ)音識別、強大的智能糾錯能力、知識整合使用能力以及多輪對話(huà)和復雜語(yǔ)義理解能力」,這些都有效保證了搜狗語(yǔ)音輸入在識別速度、精準度、自動(dòng)糾錯、結合上下文語(yǔ)意理解糾錯方面收獲不錯的表現。

八月份,搜狗發(fā)布了語(yǔ)音交互引擎——知音,其不僅帶來(lái)了語(yǔ)音識別準確率和速度的大幅提升,還可以與用戶(hù)更加自然的交互,支持多輪對話(huà),處理更復雜的用戶(hù)交互邏輯,等等。知音平臺體現出搜狗在人工智能技術(shù)領(lǐng)域的長(cháng)期積累,同時(shí)也能從中看出他們的技術(shù)基因和產(chǎn)品思維的良好結合。

2016-10-25 星期二 0-20-37

搜狗知音引擎

搜狗把語(yǔ)音識別、語(yǔ)義理解、和知識圖譜等技術(shù)梳理成「知音交互引擎」,這主要是強調兩件事情,一是從語(yǔ)音的角度上讓機器聽(tīng)的更加準確,這主要是識別率的提升;另一方面是讓機器更自然的聽(tīng)懂,這包括在語(yǔ)義和知識圖譜方面的發(fā)展,其中包括自然語(yǔ)言理解、多輪對話(huà)等技術(shù)。

語(yǔ)音識別系統流程:語(yǔ)音信號經(jīng)過(guò)前端信號處理、端點(diǎn)檢測等處理后,逐幀提取語(yǔ)音特征,傳統的特征類(lèi)型包括 MFCC、PLP、FBANK 等特征,提取好的特征送至解碼器,在聲學(xué)模型、語(yǔ)言模型以及發(fā)音詞典的共同指導下,找到最為匹配的詞序列作為識別結果輸出。


據搜狗上個(gè)月的一篇微信公眾號文章寫(xiě)道:

在語(yǔ)音及圖像識別、自然語(yǔ)言理解等方面,基于多年在深度學(xué)習方面的研究,以及搜狗輸入法積累的海量數據優(yōu)勢,搜狗語(yǔ)音識別準確率已超 97%,位居第一。

不過(guò)遺憾的是,搜狗還尚未公布實(shí)現這一結果的相關(guān)參數的技術(shù)信息,所以我們還不清楚這樣的結果是否是在一定的限定條件下實(shí)現的。

就像TechCrunch 統計的美國有 26 家公司開(kāi)發(fā)語(yǔ)音識別技術(shù)一樣,中國同樣有一批專(zhuān)注自然語(yǔ)言處理技術(shù)的公司,其中云知聲、思必馳等創(chuàng )業(yè)公司都在業(yè)內受到了極大的關(guān)注。

材料顯示,云知聲語(yǔ)音識別純中文的 WER 相對下降了 20%,中英混合的 WER 相對下降了 30%。

在今年 6 月機器之心對云知聲 CEO 黃偉(參見(jiàn):專(zhuān)訪(fǎng)云知聲CEO黃偉:如何打造人工智能「云端芯」生態(tài)閉環(huán))的專(zhuān)訪(fǎng)中,黃偉就說(shuō)過(guò) 2012 年年底,他們的深度學(xué)習系統將當時(shí)的識別準確率從 85% 提升到了 91% 。后來(lái)隨著(zhù)云知聲不斷增加訓練數據,如今識別準確率已經(jīng)能達到 97% ,屬于業(yè)內一流水平,在噪音和口音等情況下性能也比以前更好。

思必馳的聯(lián)合創(chuàng )始人兼首席科學(xué)家俞凱是劍橋大學(xué)語(yǔ)音博士,上海交大教授。他在劍橋大學(xué)待了 10 年,做了 5 年的語(yǔ)音識別方面的研究,后來(lái)做對話(huà)系統的研究。整體上,思必馳做的是語(yǔ)音對話(huà)交互技術(shù)的整體解決方案,而不是單純的語(yǔ)音識別解決方案。因此在場(chǎng)景應用中,思必馳的系統和科大訊飛的系統多有比較,可相互媲美。

當然,此領(lǐng)域內還有其他公司的存在。這些公司都在努力加速語(yǔ)音識別技術(shù)的提升。語(yǔ)音識別領(lǐng)域依然有一系列的難題需要攻克,就像微軟首席語(yǔ)音科學(xué)家黃學(xué)東接受機器之心專(zhuān)訪(fǎng)時(shí)所說(shuō)的那樣,「理解語(yǔ)義是人工智能下一個(gè)需要攻克的難題,要做好語(yǔ)音識別需要更好的語(yǔ)義理解,這是相輔相成的。」

語(yǔ)音識別概念股:拓爾思、科大訊飛、歌爾聲學(xué)、共達電聲、漢王科技。

語(yǔ)音識別概念股

那么問(wèn)題來(lái)了:最值得配置的語(yǔ)音識別概念股是哪只?即刻申請進(jìn)入國內首個(gè)免費的非公開(kāi)主題投資交流社區概念股論壇參與討論!

0 0 0

東方智慧,投資美學(xué)!

我要投稿

申明:本文為作者投稿或轉載,在概念股網(wǎng) http://m.qdjiwuji.com/ 上發(fā)表,為其獨立觀(guān)點(diǎn)。不代表本網(wǎng)立場(chǎng),不代表本網(wǎng)贊同其觀(guān)點(diǎn),亦不對其真實(shí)性負責,投資決策請建立在獨立思考之上。

< more >

ABCDEFGHIJKLMNOPQRSTUVWXYZ0-9
暫無(wú)相關(guān)概念股
暫無(wú)相關(guān)概念股
go top 安西县| 通榆县| 牟定县| 林西县| 滨海县| 中阳县| 云阳县| 关岭| 东丽区| 门头沟区| 安塞县| 鱼台县| 仁布县| 通化县| 革吉县| 调兵山市| 滦平县| 武宁县| 胶州市| 汝阳县| 玉门市| 抚远县| 出国| 临西县| 怀柔区| 道孚县| 景宁| 六盘水市| 香河县| 体育| 涿州市| 灵山县| 腾冲县| 紫金县| 九龙城区| 合肥市| 新干县| 济南市| 邵武市| 巧家县| 琼海市|