
吳華博士講解百度機器翻譯技術

中新網(wǎng)12月22日電 機器翻譯距今已有70年的發(fā)展歷史。自上世紀40年代起,基于規(guī)則、實例以及統(tǒng)計的機器翻譯方法漸次登場,各領風騷。近兩年,神經(jīng)網(wǎng)絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質(zhì)量的大幅躍升。
12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯(lián)席主席、自然語言處理部技術負責人吳華博士表示,基于領先的人工智能、神經(jīng)網(wǎng)絡以及自然語言處理技術,百度早在1年多以前就率先發(fā)布了世界上首個互聯(lián)網(wǎng)NMT系統(tǒng),引領機器翻譯進入神經(jīng)網(wǎng)絡翻譯時代。
先發(fā)制人:百度率先進入NMT時代
眾所周知,一項新的技術從實驗室誕生到真正的工業(yè)化應用,往往需要很長時間。以統(tǒng)計機器翻譯(SMT)為例,它自上世紀90年代初提出,直到15年之后,才出現(xiàn)了第一個基于SMT技術的互聯(lián)網(wǎng)翻譯系統(tǒng),得到了大規(guī)模的應用。
而神經(jīng)網(wǎng)絡翻譯技術從2014年9月提出,到百度2015年5月上線首個互聯(lián)網(wǎng)NMT系統(tǒng),只用了短短8個月時間。這既體現(xiàn)了百度對于新技術敏銳的洞察力,也體現(xiàn)了百度翻譯的雄厚的技術實力。事實證明,NMT這一技術帶來了翻譯質(zhì)量的大幅躍升,極大的提升了用戶體驗。
隨后,NMT以驚人的發(fā)展速度席卷學術界和工業(yè)界。在2016年學術界頂級會議上,幾乎全是圍繞NMT相關的創(chuàng)新工作,今年9月,谷歌、微軟等公司也相繼發(fā)布NMT系統(tǒng)。
NMT技術緣何受到追捧?據(jù)吳華介紹,它克服了傳統(tǒng)方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文信息,對句子進行整體的編碼和解碼,從而產(chǎn)生更為流暢的譯文。
攻堅克難:NMT時代的百度式創(chuàng)新
“上線過程充滿挑戰(zhàn),然而,對于每一個難題,我們都率先給出了高效的解決方案”回顧一年多前的上線歷程,吳華不無自豪的說。
盡管敏銳地洞察到NMT的優(yōu)勢和潛力,在最初計劃上線該技術時,工程師們?nèi)匀槐硎玖藫鷳n。畢竟,線上傳統(tǒng)的SMT系統(tǒng)經(jīng)過長時間打磨,運作良好。而NMT剛剛提出幾個月的時間,盡管有優(yōu)勢,但技術本身仍存在諸多缺陷,學術界也對其性能存在爭論甚至質(zhì)疑。更不要提將其發(fā)布上線,面對廣大的互聯(lián)網(wǎng)用戶了。
“既然我們相信并且驗證了它是有用的,我們應該盡快讓它上線,提升用戶體驗”。簡單可依賴,百度工程師文化深入大家的骨髓。
彼時,對于NMT面臨的多個難題,并無成熟的解決方法。‘既要看準方向,又要摸著石頭過河’。百度翻譯技術人員系統(tǒng)化地提出了一整套解決方案。譬如,通過引入SMT中的特征解決NMT系統(tǒng)集外詞(OOV)無法翻譯、譯文不完整(漏詞)的問題,借助算法改進將解碼速度提升數(shù)十倍;開創(chuàng)性地提出首個基于深度學習的多語言翻譯框架,解決數(shù)據(jù)稀疏問題;同時將模型壓縮70倍便于移動用戶在本地運行等。
在這一系列努力之下,吳華表示,“百度翻譯在中英的測試集上,翻譯質(zhì)量比之前傳統(tǒng)的方法提升了7個百分點以上。”而通常,提升1個百分點,效果就非常顯著了。2015年5月20日,百度翻譯正式上線NMT系統(tǒng),成為世界范圍內(nèi)第一個真正實用的NMT系統(tǒng)。
隨后,在7月份的自然語言處理頂級會議ACL年會上,百度NMT翻譯系統(tǒng)又擔任了終身成就獎頒獎典禮的實時翻譯,在眾多世界級專家面前亮相展示。
同年,百度翻譯獲得了國家科技進步二等獎。百度也成為首個獲此殊榮的互聯(lián)網(wǎng)企業(yè)。
服務大眾:場景落地與大規(guī)模工業(yè)化應用
技術最終要服務大眾,否則就是鏡中月、水中花。在一系列技術創(chuàng)新的同時,百度翻譯結(jié)合用戶真實的使用場景,不斷豐富產(chǎn)品功能,優(yōu)化用戶體驗。目前,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。
民警用百度翻譯救助外國友人、公交車售票員用百度翻譯幫助巴基斯坦小伙子找回失物、游客利用‘對話翻譯’、‘拍照翻譯’功能在國外自由溝通等等,都表明了百度翻譯越來越多的融入了我們的生活。
此外,百度翻譯還開放了API接口,助力廣大企業(yè)國際化。目前已有超過2萬個第三方應用接入。華為、OPPO、中興、三星等手機廠商,金山詞霸、靈格斯詞霸、敦煌網(wǎng)等眾多產(chǎn)均接入了百度翻譯API。世界知識產(chǎn)權組織(WIPO)也將百度翻譯API集成到官網(wǎng),供用戶將專利信息翻譯成不同語種查詢。
砥礪前行:不斷創(chuàng)新,擴大領先優(yōu)勢
“NMT時代我們走在了世界前列,我們需要適應并一直保持領跑者的角色。以前我們是跟跑、并跑,現(xiàn)在我們要帶著別人跑”吳華在活動上如是說道。
事實上,這不僅是對機器翻譯而言,對于整體的科學技術領域,中國科技企業(yè)正逐步擺脫跟跑、并跑。