發(fā)布時間:2022-08-08 人氣:324
什么是智能語音人機交互技術(shù)?簡單說說說電話語音機器人的四大優(yōu)點,就是一種以語音為主要信息載體,讓機器具有像人一樣“能聽會說、自然交互、有問必答”能力的綜合技術(shù),它涉及自然語言處理、語義分析和理解、知識構(gòu)建和自學習能力、大數(shù)據(jù)處理和挖掘等前沿技術(shù)領域。這種技術(shù)既可以作為獨立的軟件系統(tǒng)運行在用戶的計算機和智能手機上,也可以嵌入到具有聯(lián)網(wǎng)能力的設備中。
一、智能語音人機交互產(chǎn)業(yè)發(fā)展現(xiàn)狀
近幾年,隨著語音技術(shù)的不斷發(fā)展,人機交互逐漸走入語音時代,進入到智能操作系統(tǒng)時代,手機、平板、可穿戴、智能家居、智能汽車等不斷出現(xiàn),各種業(yè)務、軟件、應用也迅速普及,而且越來越多應用也開始引入語音功能。
主要體現(xiàn)在說說電話語音機器人的四大優(yōu)點:一是技術(shù)水平不斷提高,特別是語音合成和基礎語音識別技術(shù)發(fā)展較快;二是產(chǎn)業(yè)規(guī)模持續(xù)擴大,帶動說說電話語音機器人的四大優(yōu)點了家電、汽車、移動互聯(lián)網(wǎng)等一批相關產(chǎn)業(yè)的發(fā)展;三是優(yōu)秀企業(yè)大幅涌現(xiàn),出現(xiàn)了如Nuance、谷歌、科大訊飛、捷通華聲等一批優(yōu)秀的企業(yè)。
除了蘋果推出的Siri,谷歌發(fā)布的Google Now,以及微軟推出的Cortana(小娜)以外,亞馬遜還大力推廣Echo智能音箱,F(xiàn)acebook也宣布推出聊天機器人Messenger Platform,希望建立一個對話式的系統(tǒng),實現(xiàn)訂餐、下單、獲取資訊等各種各樣的服務。接著,谷歌在今年5月的I/O大會上就發(fā)布了Google Home智能音箱。
同時,產(chǎn)業(yè)發(fā)展也存在一些問題:一方面,語音識別技術(shù)主要還是用于識別一些命令詞匯和固定的語法格式,大規(guī)模的語音數(shù)據(jù)識別技術(shù)仍有待提高;另一方面缺乏成熟的商業(yè)模式極大地制約著產(chǎn)業(yè)的可持續(xù)發(fā)展。
二、智能語音人機交互產(chǎn)業(yè)鏈分析
經(jīng)過多年的發(fā)展,智能語音人機交互產(chǎn)業(yè)形成了從核心技術(shù)研發(fā)到知識庫提供再到應用、服務的完善的產(chǎn)業(yè)鏈。
圖1 智能語音人機交互產(chǎn)業(yè)鏈
(一)核心技術(shù)研發(fā)
包括人工智能機器人廠商、人機交互技術(shù)和渠道提供商,以及基礎平臺支撐和關聯(lián)技術(shù)提供商。
1、人工智能機器人廠商
主要包括小i機器人等智能機器人廠商,以及清華、中科院等人工智能技術(shù)研究院校和科研院所。
2、人機交互技術(shù)或渠道提供商
包括Nuance、科大訊飛、捷通華聲、車音網(wǎng)、思必馳等語音技術(shù)提供商,以及短信(移動、電信、聯(lián)通)、QQ等服務提供商。
3、基礎平臺支撐和關聯(lián)技術(shù)提供商
包括IDC、云計算平臺、數(shù)據(jù)挖掘等技術(shù)提供商。
(二)知識庫提供
主要是指數(shù)據(jù)和內(nèi)容提供商,包括影視(百事通、優(yōu)酷、土豆、奇異、華數(shù)等)、電影票(格瓦拉等)、音樂、餐飲(大眾點評、訂餐小秘書)、股票(新浪財經(jīng)、東 方財富網(wǎng)等)、天氣(問天網(wǎng))、航班(攜程、去哪兒)、旅游(攜程、驢媽媽)、導航(高德、凱立德等)、政府、行業(yè)知識庫等。
(三)應用、服務
1、智能電視提供商
包括長虹、創(chuàng)維等智能電視提供商、機頂盒提供商,以及東方有線、百事通、中國電信IPTV以及機頂盒生產(chǎn)廠商、服務運營商等,也可以包括費通、盛付通等支付渠道商。
2、智能車載設備提供商
包括各車廠、汽車安全信息服務提供商(如安吉星等)、車載信息服務提供商(如高德、凱立德等)等。
3、電話呼叫中心
包括移動、電信、聯(lián)通各運營商,以及以金融為代表的大型現(xiàn)代服務企業(yè),還有面向中小型企業(yè)的綜合服務平臺等。
4、智能移動終端廠商
包括以華為、聯(lián)想、盛大、中興等為代表的智能移動終端廠商。
5、智能家居廠商
包括以海爾、典眾智能為代表的智能家居廠商。
三、智能語音人機交互產(chǎn)業(yè)競爭格局
隨著人機交互技術(shù)對語音技術(shù)的強烈需求,除了傳統(tǒng)的智能機器人廠商以外,語音技術(shù)提供商和傳統(tǒng)的搜索廠商也紛紛推出自己的產(chǎn)品,進入智能語音人機交互行列,形成了智能機器人廠商、語音技術(shù)提供商、傳統(tǒng)搜索廠商和移動客戶端開發(fā)者四大陣營,產(chǎn)業(yè)競爭進一步加劇。
(一)智能機器人廠商
智能機器人廠商是目前主要的智能交互技術(shù)提供商,是智能交互產(chǎn)業(yè)的重要組成部分。Gartner報告指出,截止2011年初,全球大約有36家智能客服系統(tǒng)服務商。如美國加州的eGain,主要為客戶提供“云計算”交互中心方案或內(nèi)部部署,客戶超過上百家,遍及電信、金融、零售、公共事業(yè)、政府、制造、媒體、電子商務、旅游、汽車、外包、科技以及服務等行業(yè)。瑞典的Artificial Solutions定位于為企業(yè)和政府機構(gòu)開發(fā)客服機器人,他們已經(jīng)成功的為歐洲近幾十個政府部門提供客服機器人,從而減輕人工工作壓力。
智能客服機器人在國內(nèi)的發(fā)展應用于近幾年呈現(xiàn)出了快速增長的勢頭,其中有代表性的是小i機器人推出的智能客服機器人系列產(chǎn)品。
(二)語音技術(shù)提供商
語音技術(shù)提供商紛紛借助這次智能語音人機交互產(chǎn)業(yè)發(fā)展高潮,不斷推出相關產(chǎn)品,提升自己提供智能機器人解決方案的能力。Nuance除了在北美市場擁有自己類似的解決方案Dragon go!,也在亞洲市場和一些當?shù)睾献骰锇楹献?,共推解決方案。國內(nèi)語音技術(shù)引領者科大訊飛也推出了訊飛語點這樣的產(chǎn)品。但語音廠商推出的智能機器人有明顯的語音技術(shù)的痕跡,主要是命令格式的識別,而自然語言處理和智能交互性存在一定的不足。
(三)搜索廠商
雖然Siri也整合多家搜索引擎,但在很多情況下,是直接給了用戶答案,這種方式的易用性和效率以及用戶體驗遠比傳統(tǒng)的搜索引擎要強,也是對傳統(tǒng)搜索的挑戰(zhàn)。因此國際搜索巨頭谷歌,以及國內(nèi)的搜索公司百度、搜搜、搜狗等都在準備智能語音人機交互產(chǎn)品,提升自我競爭力。谷歌發(fā)布Google Now,能自動從互聯(lián)網(wǎng)尋找知識,能回答的內(nèi)容甚至比Siri更多。
(四)移動客戶開發(fā)端
Siri出 現(xiàn)和移動互聯(lián)網(wǎng)的空前繁榮,引來的無數(shù)移動客戶端開發(fā)者開發(fā)智能語音人機交互相關的應用。他們采用第三方免費的語音識別服務(如訊飛語音云和谷歌語音搜索等),用簡單的關鍵詞匹配或全文檢索引擎實現(xiàn)文本交互功能,做了大量的控件在客戶端上展示信息,整合了一些諸如指南針的實用小功能等。
四、智能語音人機交互關鍵技術(shù)分析
基于語音的智能人機交互是當前人機交互技術(shù)的主要表現(xiàn)形式,語音人機交互過程包括信息輸入和輸出的交互、語音處理、語義分析、智能邏輯處理以及知識和內(nèi)容的整合。
圖2 智能語音人機交互過程
結(jié)合語音人機交互過程,可以看出智能語音人機交互關鍵技術(shù)主要如下:
(一)自然語音處理技術(shù)
包括中文分詞、詞性標注、實體識別、句法分析、自動文本分類等技術(shù)。
(二)語義分析和理解
包括知識表示、本體理論、分領域的語義網(wǎng)絡、機器推理等。
(三)知識構(gòu)建和學習體系
包括搜索技術(shù)、網(wǎng)絡爬蟲、數(shù)據(jù)挖掘、知識獲取、機器學習等技術(shù)。
(四)語音技術(shù)
包括語音識別、語音合成和聲紋識別等。
(五)整合通信技術(shù)
包括跨平臺即時通訊整合技術(shù)、超大負載消息集群處理技術(shù)、移動客戶端開發(fā)技術(shù)。
(六)云計算技術(shù)
包括海量數(shù)據(jù)分布式存儲、統(tǒng)計和分析技術(shù)。
五、智能語音人機交互技術(shù)在典型行業(yè)的應用
語音交互方式替代文本交互方式,可以增強信息輸入方式,能和更多的設備進行整合,市場前景廣闊。目前,智能語音人機交互技術(shù)已經(jīng)廣泛應用到智能客服、智能終端等領域,切實深入到人們的生活。
(一)智能客服
智能客服是以自然語言處理和智能人機交互等多種人工智能技術(shù)為基礎,通過即時通訊、網(wǎng)頁、短信等形式,以擬人化方式與用戶進行實時交互的軟件系統(tǒng),能夠?qū)崿F(xiàn)智能客服咨詢和產(chǎn)品營銷推廣等功能。如果在智能客服的交互前端接入經(jīng)過領域語料訓練的語音識別能力,智能客服機器人就可以順利的接入到目前的電話呼叫中心。
傳統(tǒng)的客戶服務中心以電話呼叫中心為主,并且很多大型服務企業(yè)在不斷拓展更為經(jīng)濟高效的電子渠道,如網(wǎng)上在線客服、短信、智能手機應用等。而以領域客戶化知識庫建設為核心工作,并通過文本或語音等方式交互的智能客服系統(tǒng)則可以有效地和多渠道的客戶服務中心做整合。在大幅縮減客服成本的同時,能夠有效減少人工成本,增強用戶體驗,從而提升服務的質(zhì)量和企業(yè)創(chuàng)新的品牌形象。
圖3 客服系統(tǒng)技術(shù)和產(chǎn)業(yè)化路徑
國外的智能客服系統(tǒng)市場發(fā)展較早,信息系統(tǒng)發(fā)展相對完善(尤其是CRM系統(tǒng)),人工服務的成本較高,促使企業(yè)有較大的動力采用智能客服系統(tǒng),智能客服技術(shù)提供商和客戶較多。
而在國內(nèi),由于企業(yè)的信息系統(tǒng)發(fā)展相對滯后,人力成本相對較低,企業(yè)采用智能客服系統(tǒng)的動力嚴重不足。近幾年,隨著大家對智能客服的認知的提高,對新技術(shù)采用相對比較積極的電信運營商、金融領域已有多家采用了智能客服系統(tǒng)。
隨著人們對智能客服系統(tǒng)服務價值的認知度的提高,以及交互習慣的形成,智能客服系統(tǒng)的社會價值和經(jīng)濟價值將會進一步顯現(xiàn)。以中國移動的客服機器人測算,目前移動集團在全國的人工客服坐席以10萬計,一個坐席一年的運營平均成本為10萬,采用智能客服可以節(jié)約20%的開銷,僅移動行業(yè)一年就可以節(jié)約成本20億。據(jù)Gartner預計,到2013年全球1000強公司中至少有15%會采用智能客服系統(tǒng)來提高服務水平。
(二)智能終端
以智能手機、平板電腦、智能電視、智能車載為代表的智能終端是智能語音人機交互技術(shù)最廣泛的應用。在蘋果Siri的帶動下,包括Android、WP以及采用這些操作系統(tǒng)的平板電腦,都有采用類似Siri的智能應用的強烈需求。谷歌預計目前大約有25%的Android設備通過語音進行搜索。Datamonitor預計到2014年語音識別系統(tǒng)在全球移動終端市場的份額將達到2009年的3倍,移動終端有望成為智能語音技術(shù)的一個快速增長市場。
附:盤點國內(nèi)外語音交互公司
一、國外語音交互
Nuance
全球最大的語音技術(shù)公司,超1000項專利技術(shù) ,一度雄霸天下。當然現(xiàn)在依然很牛啦。在中國,有9%的語音識別應用是采用Nuance的核心技術(shù)。它和電信、移動、聯(lián)通、網(wǎng)通都有合作,cctv春晚的呼叫中心也應用此技術(shù)。
微軟
提到微軟在語音交互的布局,不得不說起微軟兩姐妹,小冰和小娜。小娜Cortana是微軟發(fā)布的全球第一款個人智能助理。能夠了解用戶的喜好和習慣, 幫助用戶進行日程安排、問題回答等。小冰目前已發(fā)布第三代,聽說讀寫技能都已解鎖,從最初只能單純的文字對話跨越至純語音的互動聊天。
谷歌
Google一直致力于投資語音技術(shù),此前收購多家語音識別技術(shù)公司及專利。2011年,收購語音通信技術(shù)公司 SayNow 和語音合成技術(shù) Phonetic Arts。2014年收購SR Tech Group的多項語音識別相關的專利,其中包括“搜索引擎語音界面”和“修改、更新語音識別項目系統(tǒng)”的專利。
今年4月份Google還開放了自己的語音識別API,即Google 語音搜索和語音輸入的支持技術(shù)。Google Cloud SPeech API包括了80多種語言,適用于各種實時語音識別與翻譯應用。
蘋果
蘋果收購過Siri、Novauris、VocalIQ等語音技術(shù)公司,且請了不少牛B的人組建基于神經(jīng)網(wǎng)絡算法的語音識別團隊。最近蘋果正依靠語音 助手Siri構(gòu)建更大的生態(tài)系統(tǒng),在最新的HomeKit的合作伙伴名單中,除了國內(nèi)廠商海爾,還有照明廠商飛利浦、科銳(CREE),以及Marvell(美滿電子)、Honeywell(霍尼韋爾)等全球頂級制造商。
初創(chuàng)公司Viv Labs
提到蘋果Siri還容易讓人想到,Siri 的兩位創(chuàng)始人在離開蘋果之后,他們另起爐灶,創(chuàng)辦了一家名為 Viv Labs 的初創(chuàng)企業(yè),他們準備打造一位智能經(jīng)過全新升級的助手:Viv,它能夠理解復雜句子,在用戶對它的使用中自主學習,并且?guī)椭瓿墒虑?。這些簡直就是 iPhone 用戶當初對 Siri 的美好想象。
亞馬遜
Echo音箱就是一個黑色的小柱子,相比起其他的智能語音助手比如 Siri,它實物,不是Siri這樣的虛擬語音助手。一年多下來,Echo已經(jīng)成為了語音控制智能家居的入口。
二、國內(nèi)語音交互
科大訊飛
成立于1999年底,依靠中科大的語音處理技術(shù)以及國家的大力扶持,很快就走上了正軌,是目前國內(nèi)最有影響力的語音技術(shù)公司,08年的時候就已經(jīng)掛牌上市了,目前市值接近500億。
中科信利
中科信利是國內(nèi)第一家具有大規(guī)模商用案例的語音 技術(shù)公司,是專業(yè)的語音核心技術(shù)和解決方案提供商。公司專注于語音識別和音頻信號處理相關技術(shù)和產(chǎn)品的研發(fā),具有國際一流水平的語音識別/處理引擎、語音云系統(tǒng)和語音分析應用產(chǎn)品,產(chǎn)品涵蓋互聯(lián)網(wǎng)、電信平臺、廣電網(wǎng)、教育、音樂檢索以及嵌入式終端等多個領域,是擁有全部核心技術(shù)自主知識產(chǎn)權(quán)。
捷通華聲
捷通華聲科技股份有限公司成立于2000年10月,是一家專注于智能語音、智能圖像、語義理解等人工智能技術(shù)的研究與應用,全面發(fā)展人工智能云服務的高新技術(shù)企業(yè)。2001年,捷通華聲推出代表國內(nèi)最高水平的中文語音合成技術(shù)。2014年,靈云平臺面向產(chǎn)業(yè)全面開放,并以“云 + 端”方式,為產(chǎn)業(yè)界提供語音合成(TTS)、語音識別(ASR)、聲紋識別(VPR)、手寫識別(HWR)、光學字符識別(OCR)、指紋識別 (FPR)、機器翻譯(MT)、自然語言理解(NLU)等全方位人工智能能力。
百度
語音交互其實很早就被百度確立為戰(zhàn)略方向,2010年的時候百度就與中科院聲學 所合作研發(fā)語音識別技術(shù),但是沒搞好。直到14年,百度請來了人工智能領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術(shù),才得以咸魚翻身。到目前為止,已斬獲了近13%的市場份額,技術(shù)實力可與科大訊飛相提并論。
除了技術(shù)外,我們還看到百度積極地布局應用端,CarLife、MyCar以及在上個月CES上推出的CoDriver都是百度在車聯(lián)網(wǎng)語音交互的生態(tài)布局。還有百度之前推出的度秘,之前也在KFC中實現(xiàn)了語音點餐這一功能。
搜狗
7月16日,奇點?極客公園創(chuàng)新者峰會上,王小川表示,目前搜狗一天有1.4億的語音識別量,準確度超過97%,有7%的用戶會使用語音識別。目前搜狗語音的技術(shù)已經(jīng)不僅僅能夠識別語音,更重要的是可以通過完全不依靠雙手進行文字的修改。
搜狗輸入法在語義理解方面的大數(shù)據(jù)積累、搜狗本身就在做的地圖,再加上目前由搜狗自主開發(fā)的語音交互技術(shù),這3者深度結(jié)合,在車聯(lián)網(wǎng)應用領域的確也很具優(yōu)勢的。
思必馳
思必馳初創(chuàng)于07年,由劍橋大學團隊創(chuàng)立于英國劍橋高新區(qū),同科大訊飛一樣,思必馳是國內(nèi)為數(shù)不多的擁有全套語音類知識產(chǎn)權(quán)的公司。在語音識別、語音合成、語義理解、聲紋識別、對話管理、音頻分析等方面均有深厚技術(shù)積累。
目前思必馳把語音相關技術(shù)整合成 AIOS人機對話操作系統(tǒng),作為安卓系統(tǒng)之上的一層標準接口,提供給硬件合作伙伴。針對不同場景,AIOS 又分成了 For Car,F(xiàn)or Home,F(xiàn)or Robot 等版本,針對車載、家居、機器人等產(chǎn)品做垂直領域下的對話式交互。在15年年底,思必馳還獲得了新一輪近2億人民幣的投資。
出門問問
2012年成立,至今已累計融資7500萬美金?,F(xiàn)有投資方包括紅杉資本、真格基金,SIG海納亞洲、圓美光電、及歌爾聲學,最近還拿了Google投資的C輪融資。
出門問問基于語音識別、語義識別、垂直搜索引擎、語音合成以及智能推送幾項自主研發(fā)的核心技術(shù),已推出了不少產(chǎn)品。有Ticwear(語音操控的可穿戴 設備)、魔法小問(語音操控,提供各類生活服務)、開車問問(智能語音車載APP)以及出門問問智能語音助手,語音識別比較紅火的幾個應用場景基本都有鋪路。
云知聲
云知聲成立于2012年,主要團隊來自于盛大研究院。語音識別技術(shù)更多源自于中科院自動化所。其語音識別技術(shù)有一定的獨到之處,有一小段時期內(nèi)語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達到3億人民幣,主要瞄準智能家居市場,現(xiàn)在也有智能車載解決方案。
哦啦語音
哦啦語音于2013年初成立,是威盛電子內(nèi)部孵化的創(chuàng)業(yè)項目。擁有在中文自然語言理解、語音識別、語音控制和語音交互系統(tǒng)等方面的 20 多項自主專利。目前已應用在智能家居、智能車載、可穿戴設備、語義和交互API服務、智能會議系統(tǒng)、手機語音助手幾個方面。他們家最大的特色,是對于中文語義的理解,針對用戶各種問題可以給出生動、活潑、幽默、精確的回答。
耀途資本是國內(nèi)領先的中國-以色列跨境投資機構(gòu),合伙人團隊擁有豐富的高科技產(chǎn)業(yè)和風險投資行業(yè)經(jīng)驗,耀途資本主要投資消費升級(中國)與中以技術(shù)創(chuàng)新(物聯(lián)網(wǎng)、人工智能、企業(yè)級服務-金融科技+網(wǎng)絡安全)領域PreA和A輪的優(yōu)秀創(chuàng)業(yè)公司,基于行業(yè)深度研究與精準狙擊,同時擁有廣泛且深度的產(chǎn)業(yè)合作生態(tài)圈。
耀途資本管理兩期人民幣基金及一期美元基金,公司及基金股東包括高榕資本,大眾點評聯(lián)合創(chuàng)始人團隊,中茵股份等6家A股上市公司高管團隊,耀途資本I期基金超過50%的投資組合獲得包括阿里巴巴,HTC,萬得資訊,達晨創(chuàng)投、華映資本、盛大網(wǎng)絡、水晶光電等一線投資機構(gòu)及產(chǎn)業(yè)資本的后續(xù)投資。
文章來源:前沿技術(shù)研究
耀途之旅是耀途資本旗下專注于技術(shù)創(chuàng)新的產(chǎn)業(yè)分享與交流平臺,也是針對以色列高科技行業(yè)進行深度行業(yè)調(diào)研考察活動的組織者,通過極具深度的產(chǎn)業(yè),文化,歷史等行程安排,幫助中國具有轉(zhuǎn)型需求的企業(yè)家拓展全球視野,洞悉全球創(chuàng)新風口以及資本運作趨勢,專注于智能硬件與物聯(lián)網(wǎng),人工智能,企業(yè)級服務(包括互聯(lián)網(wǎng)金融Fintech以及網(wǎng)絡安全)等行業(yè),每年超過200位包括上市公司董事長及高管在內(nèi)的企業(yè)家群體加入耀途之旅。
歡迎加入耀途之旅,共享國內(nèi)最頂級的企業(yè)家圈層,打造最前沿的終生學習交流平臺。
加入方式:
關注耀途會微信公眾號,后臺回復【真實姓名-機構(gòu)-職位-聯(lián)系方式】
本文鏈接:http://www.sidear.cn/hangyeyedongtai/shuo-shuo-dian-hua-yu-yin-ji-qi-ren-de-si-da-you-dian(-shuo-shuo-dian-hua-yu-yin-sg3.html
熱線電話
18594279421
上班時間
周一到周五
公司電話
18594279421