如何突破語言障礙,讓機器完成不同語言之間的自動翻譯,最終實現(xiàn)任意時間、任意地點、任意語言之間的無障礙自由通信,是人類長期以來的夢想。
近年來,隨著計算機性能的提高,云計算、大數(shù)據(jù)和機器學習等相關(guān)技術(shù)迅速發(fā)展,人工智能再度崛起,機器翻譯重新成為人們關(guān)注的焦點。一時間,機器翻譯系統(tǒng)如雨后春筍般涌現(xiàn),各種報道隨之呈井噴式爆發(fā),“機器翻譯將取代人類”的說法也時有耳聞。然而,機器翻譯的真實水平如何,夢想與現(xiàn)實的距離到底有多遠?
從低迷到興盛
機器翻譯概念于1947年被提出,隨后成為人工智能研究的核心問題。在70多年的發(fā)展歷程中,機器翻譯研究經(jīng)歷了幾個不同的歷史階段:
從概念提出到1954年美國喬治敦大學(Georgetown University)在IBM公司的幫助下實現(xiàn)第一個機器翻譯演示系統(tǒng),可以認為是機器翻譯的初創(chuàng)時期。
1966年,美國國家科學院語言自動處理咨詢委員會(Automatic Language Processing Advisory Committee,ALPAC)發(fā)布題為《語言與機器》的報告,宣稱“目前給機器翻譯研究以大力支持沒有太多的理由”,“機器翻譯遇到了難以克服的語義障礙”,從而導致機器翻譯研究在世界范圍內(nèi)走向低迷。
20世紀70年代中后期至80年代前期,部分機器翻譯系統(tǒng)在特定領(lǐng)域得到初步應用(如加拿大蒙特利爾大學研制的天氣預報翻譯系統(tǒng)TAUM-METEO)。歐洲共同體實施的歐洲翻譯體系(European Translation System,EUROTRA)計劃和日本對第五代計算機的研究都對機器翻譯研究給予了支持,機器翻譯研究開始復蘇。
20世紀80年代末期,IBM公司實現(xiàn)了基于噪聲信道模型的統(tǒng)計機器翻譯系統(tǒng),并在美國國防部高級研究計劃署(ARPA)組織的評測中取得了較好成績,推動了機器翻譯技術(shù)的快速發(fā)展。尤其進入2000年之后,GIZA++、Pharaoh、Moses等一批開源工具相繼發(fā)布,2006年谷歌翻譯正式上線運行,2011年百度翻譯上線,各大公司陸續(xù)推出了自己的翻譯系統(tǒng),整個機器翻譯領(lǐng)域呈現(xiàn)出蓬勃發(fā)展、遍地開花的大好局面。
2013年基于神經(jīng)網(wǎng)絡(luò)模型的機器翻譯(簡稱“神經(jīng)機器翻譯”)方法被提出,機器譯文的質(zhì)量得到大幅提升,并且很多開源工具被相繼公布,機器翻譯技術(shù)研究和系統(tǒng)推廣應用均出現(xiàn)前所未有的盛況。統(tǒng)計機器翻譯和神經(jīng)機器翻譯的基本原理都是基于已有的大規(guī)模句子級雙語對照語料進行模型訓練,建立最優(yōu)的翻譯模型,最終實現(xiàn)從一種語言到另一種語言的翻譯。通常情況下,用于訓練模型的語料規(guī)模越大,模型性能表現(xiàn)就越好。
被夸大的技術(shù)
機器翻譯技術(shù)的進步和系統(tǒng)性能的提升在為人們?nèi)粘I詈凸ぷ鲙砀啾憷耐瑫r,也為該技術(shù)的產(chǎn)業(yè)化發(fā)展帶來了更多商機。這種空前局面不僅讓人們看到了夢想成真的希望,也點燃了部分人心中按捺不住的欲望。從傳統(tǒng)媒體到新媒體,對機器翻譯技術(shù)夸大宣傳的聲音不絕于耳,但一個不可否認的事實卻是,目前的機器翻譯技術(shù)尚不成熟,無論是文本翻譯,還是口語翻譯,機器翻譯的質(zhì)量遠沒有達到令人滿意的水平。
當前所有的商用文本機器翻譯系統(tǒng)普遍存在的問題:
一是錯翻、漏翻和重復翻譯比比皆是,尤其對成語、縮略語、專業(yè)術(shù)語和人名、地名、組織機構(gòu)名稱等的翻譯更是招數(shù)無幾。
二是難以實現(xiàn)篇章范圍內(nèi)的指代消解,常常張冠李戴,例如,前面說的是美國與伊朗之間的事情,后面翻譯“美伊兩國”時卻譯成了美國與伊拉克。
三是缺乏足夠的在線優(yōu)化能力,無法從譯員修改譯文的過程中自動學習和更新翻譯知識,即使譯員對系統(tǒng)給出的某個錯誤譯文反復修改,系統(tǒng)依然照錯不誤。
四是對口語而言,說話人的語氣、重音、語調(diào),甚至肢體語言無法得到充分利用,尤其當說話人的口音較重、用詞過于生僻、話語主題超出先驗知識范圍時,譯文的質(zhì)量無法保障。
高端翻譯不可取代
我們并不否認機器翻譯技術(shù)的進步,正如前文所述,機器譯文的質(zhì)量已有顯著改善。在日??谡Z對話中,對于資源較為充分的語言(如英漢、日漢等),在說話場景不是非常復雜、口音基本標準、語速基本正常、使用詞匯和句型不是非常生僻的情況下,口語翻譯的性能基本可滿足正常交流的需要。專業(yè)領(lǐng)域的文本機器翻譯在訓練語料較為充分時,譯文準確率可達到80%以上。而對于資源匱乏的語言之間的翻譯(如波斯語或達利語等與漢語之間的翻譯),譯文質(zhì)量還十分有限。
毋庸置疑,機器翻譯可能替代那些任務重復性較大、翻譯難度較低的低端翻譯人員,如天氣預報查詢、旅館預訂服務、交通信息咨詢等翻譯,但不可能取代高端翻譯(如重要文獻、偉人著作、文學名著等翻譯)人員,更不可能消除翻譯職業(yè)。“信、達、雅”是翻譯的終極目標,我們可以預期,未來的機器翻譯系統(tǒng)能夠輔助高端翻譯人員提高翻譯效率,但要實現(xiàn)無須人工干預的高質(zhì)量全自動翻譯恐怕還是一個愿望。
不得不說的是,任何負責任的科學家和企業(yè)界都有責任和義務把技術(shù)或產(chǎn)品的真實水平和性能告知公眾,而不是一味地宣揚,甚至為了利益而故弄玄虛。實事求是是一種態(tài)度,也是一種品格。
宗成慶:中國科學院自動化研究所研究員
機器翻譯:夢想與現(xiàn)實
作者:江蘇翻譯小編(南京翻譯公司)
發(fā)布時間:2019-10-12 14:39????
瀏覽量: