方言語(yǔ)音識(shí)別輸入在長(zhǎng)三角人日常生活中的應(yīng)用值得期待。對(duì)著手機(jī)的麥克風(fēng)說(shuō)幾句鄉(xiāng)音,就已經(jīng)參與到了方言保護(hù)的工作中。
日前,全國(guó)人大代表、南京市人大常委會(huì)主任龍翔提交了一份關(guān)于深入推進(jìn)漢語(yǔ)方言傳承工作的建議。他認(rèn)為,長(zhǎng)三角地區(qū)城市化快速發(fā)展帶來(lái)的大規(guī)模人口流動(dòng),縮小和降低了方言使用范圍和使用率,或是導(dǎo)致長(zhǎng)三角方言漸失活力乃至逐步萎縮的主因之一。
龍翔指出,以南京為例,統(tǒng)計(jì)顯示南京話在家庭生活中使用比例最高,達(dá)62.8%;而在日常工作中使用的比例最低,僅為39.8%。與此同時(shí),南京暫住人口每增長(zhǎng)1%,普通話使用率約增長(zhǎng)2.3%;人口內(nèi)部流動(dòng)還使南京原下關(guān)區(qū)特有的、具有區(qū)域特色的讀音近乎消失。
方言承載著地域文化內(nèi)涵,更是人們鄉(xiāng)情的根系。然而,在經(jīng)濟(jì)社會(huì)高速發(fā)展的今時(shí)今日,方言卻在我們的日常生活中漸行漸遠(yuǎn)。如何留住正在遠(yuǎn)去的方言?一家長(zhǎng)三角企業(yè)如今正利用人工智能技術(shù),“教”AI說(shuō)蘇州話。此前,一項(xiàng)面向全國(guó)的本土出生人群方言使用情況的調(diào)查顯示,包括上海、蘇州、杭州、寧波、溫州在內(nèi)的多個(gè)長(zhǎng)三角城市,6到20歲人群能夠熟練使用各自方言的比例在全國(guó)普遍偏低,其中墊底的蘇州僅為2.2%。
人工智能+長(zhǎng)三角方言能有啥效果?
復(fù)制方言
在2019年于蕪湖舉辦的首屆長(zhǎng)三角一體化發(fā)展高層論壇上,科大訊飛董事長(zhǎng)劉慶峰的發(fā)言帶著皖南口音,被快速精準(zhǔn)地識(shí)別成文字,并同步放到了大屏幕上??磥?lái),方言和口音不是語(yǔ)言識(shí)別技術(shù)的障礙。總部設(shè)在安徽合肥的科大訊飛目前對(duì)保護(hù)方言的解決方案是“復(fù)制方言”。科大訊飛消費(fèi)者輸入法業(yè)務(wù)部總經(jīng)理程坤這樣解釋訊飛方面的構(gòu)想:“我們的目標(biāo)是利用人工智能技術(shù),不斷提升方言語(yǔ)音識(shí)別、合成和翻譯的能力。一旦能夠?qū)崿F(xiàn)這幾點(diǎn),也就意味著一門方言被完整地‘拷貝’下來(lái)了。即使有朝一日這門方言無(wú)人再使用,也能夠?qū)崿F(xiàn)數(shù)據(jù)留檔,并翻譯成主流的通行語(yǔ)言?!?/p>
聯(lián)合國(guó)教科文組織的統(tǒng)計(jì)數(shù)據(jù)顯示,世界范圍內(nèi),每?jī)芍芫陀幸环N語(yǔ)言消失。為方言留檔,確實(shí)意義重大。然而,雖然2017年科大訊飛就在蘇州成立了分支機(jī)構(gòu),但是人工智能的蘇州話,還是得有人“教”。
程坤說(shuō),“教”AI說(shuō)方言,是一個(gè)手把手、一字一句教學(xué)的過(guò)程。首要任務(wù)是要進(jìn)行大規(guī)模的數(shù)據(jù)采集,采集的數(shù)據(jù)在經(jīng)過(guò)標(biāo)注后,便可以形成語(yǔ)料庫(kù)。然后利用語(yǔ)料庫(kù),結(jié)合機(jī)器學(xué)習(xí)技術(shù),訓(xùn)練方言識(shí)別模型:“語(yǔ)料庫(kù)里有很多方言音頻,每一條音頻有對(duì)應(yīng)的文本。而所謂的教學(xué)過(guò)程,簡(jiǎn)單來(lái)說(shuō)就是告訴AI,這段音頻對(duì)應(yīng)的是這段文字。如此反復(fù),AI最終就能‘學(xué)會(huì)’這門方言?!?/p>
教AI說(shuō)方言,數(shù)據(jù)采集是最吃功夫的部分。據(jù)程坤介紹,傳統(tǒng)的做法是實(shí)地前往各個(gè)方言地區(qū),通過(guò)與當(dāng)?shù)厝说拿鎸?duì)面交流,收集當(dāng)?shù)胤窖灾刑赜械脑~匯、俚語(yǔ)等音頻數(shù)據(jù)。采集完成后,數(shù)據(jù)標(biāo)注工作同樣大量依賴人力。程坤說(shuō):“工作人員首先要對(duì)音頻的質(zhì)量進(jìn)行判斷,剔除音頻質(zhì)量不好的數(shù)據(jù),然后將保留下來(lái)的數(shù)據(jù)轉(zhuǎn)寫(xiě)成文字。”
應(yīng)用前景
由于方言所對(duì)應(yīng)文字相當(dāng)一部分沒(méi)有統(tǒng)一標(biāo)準(zhǔn),因此在進(jìn)行標(biāo)注前,“教材編纂”團(tuán)隊(duì)需要制定方言用字規(guī)范。他們會(huì)大量參考官方文獻(xiàn),逐一進(jìn)行確認(rèn)。對(duì)于在文獻(xiàn)中找不到的文字,則需再調(diào)研當(dāng)?shù)厝说挠米至?xí)慣,選出接受度最高的作為該方言詞語(yǔ)的對(duì)應(yīng)用字。
“想要讓人工智能真正學(xué)會(huì)一門方言,始終離不開(kāi)方言母語(yǔ)者的實(shí)際參與。開(kāi)發(fā)方言輸入法,也是為了能夠創(chuàng)造更多的方言應(yīng)用場(chǎng)景,為語(yǔ)料庫(kù)的數(shù)據(jù)錄入創(chuàng)造條件。”程坤坦言,如何讓更多的方言母語(yǔ)者參與到語(yǔ)料庫(kù)的建設(shè)和數(shù)據(jù)標(biāo)準(zhǔn)的工作中,是“教”AI說(shuō)方言的一大難點(diǎn)。
5月18日,訊飛方面與蘇州博物館的一次跨界合作,或可視作為AI尋找更多民間“方言老師”的嘗試:在第44個(gè)國(guó)際博物館日,雙方合作推出一款微信小程序,用戶可以用蘇州話講述蘇博館藏文物的歷史,并進(jìn)行上傳和分享。而用戶上傳的這些蘇州話音頻,在經(jīng)過(guò)篩選和標(biāo)注后,將成為AI“學(xué)習(xí)”蘇州話的“教材”。
程坤表示,蘇州話是吳方言中重要的一支和典型代表,因此蘇州話的保護(hù)極具標(biāo)桿意義。另一方面,蘇州話近年來(lái)的活力不容樂(lè)觀,尤其在青少年中的使用率下降可謂斷崖式。程坤說(shuō):“訊飛輸入法跨界聯(lián)動(dòng)蘇州博物館,借助方言講述文物歷史的形式,是希望激發(fā)大眾參與方言傳承和保護(hù)的熱情,就像保護(hù)以蘇州話為載體的昆曲、評(píng)彈、蘇劇那樣,增強(qiáng)蘇州市民對(duì)蘇州話的認(rèn)同感和自豪感。”
如果說(shuō)訊飛與蘇博的此次合作尚是一次“應(yīng)景”之舉,那么方言語(yǔ)音識(shí)別輸入在日常生活中的應(yīng)用則更值得期待。當(dāng)操著各自方言的長(zhǎng)三角人拿著手機(jī)用語(yǔ)音進(jìn)行輸入時(shí),遠(yuǎn)在云端的AI的“教材”也在不斷地被充實(shí)。這也意味著,僅僅是對(duì)著手機(jī)的麥克風(fēng)說(shuō)幾句鄉(xiāng)音,就已經(jīng)切實(shí)參與到了方言保護(hù)的工作中。隨著越來(lái)越多的人在日常生活中參與到“教材編纂”的工作中,AI掌握一口正宗吳儂軟語(yǔ)的日子或許為期不遠(yuǎn),未來(lái)智能語(yǔ)音識(shí)別也將應(yīng)用到更多的生活場(chǎng)景中去。
轉(zhuǎn)自:解放日?qǐng)?bào)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65367254。
延伸閱讀
版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964