神武八荒一颗小说,魔天记忘语小说

本文從 NMT 技術(shù)出發(fā)，分析了該技術(shù)存在的問題，給出了明確態(tài)度及答案：AI的翻譯水平還遠不能和人類相比。
最近，諸多媒體報道了有關(guān)人工智能翻譯已經(jīng)可以達到人類譯者水平的新聞，如：

The Verge
– Google's AI translation system is approaching human-level accuracy
The Verge
– 谷歌 AI 翻譯系統(tǒng)的準(zhǔn)確度趨近于人類
Quartz
– AI-based translation to soon reach human levels
Quartz
– 基于人工智能的翻譯即將達到人類水平
ZDNet
– Microsoft researchers match human levels in translation news from Chinese to English
ZDNet
– 微軟研究員表示，機器翻譯中文新聞的水平可與人類匹敵

這一顯著突破源于神經(jīng)機器翻譯（Neural Machine Translation, NMT）的出現(xiàn)，該方法使用神經(jīng)網(wǎng)絡(luò)來進行機器翻譯。這項技術(shù)應(yīng)用起來非常出色，是因為它有處理大規(guī)模翻譯數(shù)據(jù)的能力。谷歌、Facebook 等大型科技公司在過去幾年都引入了 NMT，并開發(fā)出了較高水平的翻譯功能。

一個例子：引入 NMT 后，谷歌翻譯的水平有明顯提升
但 NMT 系統(tǒng)真的可以像上述題目說的那樣，已經(jīng)可以和人類譯者相比了嗎？還差得遠呢。我們發(fā)現(xiàn)，目前的 NMT 系統(tǒng)并沒有他們所說的那么好用，他們忽視了翻譯中的許多關(guān)鍵問題。

▌ 什么是 NMT？

NMT 在整個 AI 領(lǐng)域中的位置
機器翻譯（MT）是 AI 的一個分支，它致力于通過軟件來進行不同語言之間的翻譯。神經(jīng)機器翻譯（NMT）是一種較新穎的方法，它利用神經(jīng)網(wǎng)絡(luò)實現(xiàn)機器翻譯。神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練，對數(shù)據(jù)進行模式識別，從而將輸入數(shù)據(jù)轉(zhuǎn)換為我們所需要的形式。接下來，我們看一個有關(guān) NMT 系統(tǒng)的例子：
一個例子：將法語翻譯成英語，引入 NMT 后質(zhì)量有所提高
如果要將一句法語翻譯成英語，NMT 的執(zhí)行過程如下：先把需要翻譯的法語句子輸入網(wǎng)絡(luò)，其中每個單詞都會被編碼成由數(shù)字組成的向量，這樣網(wǎng)絡(luò)才能對其進行處理。接下來，這些數(shù)字經(jīng)過一系列數(shù)學(xué)公式的計算，最終生成一個新的數(shù)字序列，這個序列就代表了要輸出的英文句子。
除了上述過程，在實際情況中，還有幾個重要步驟：
在進行翻譯前，人類工程師需要決定網(wǎng)絡(luò)的具體結(jié)構(gòu)；
工程師若要運行這樣的網(wǎng)絡(luò)，需要使用具備強大處理能力的計算機；
網(wǎng)絡(luò)需要基于大量的語料數(shù)據(jù)，進行反復(fù)訓(xùn)練，才能具備合格的翻譯水平；
最后，在測試 NMT 系統(tǒng)過程中，工程師要使用訓(xùn)練數(shù)據(jù)集中沒有的語句進行測試，以確保系統(tǒng)在處理外部數(shù)據(jù)時也能正常工作。

▌ 強大的神經(jīng)網(wǎng)絡(luò)來源于強大的數(shù)據(jù)

引入海量數(shù)據(jù)后，深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)超過了其他模型
神經(jīng)網(wǎng)絡(luò)近期獲得的成功源于大規(guī)模數(shù)據(jù)的出現(xiàn)。當(dāng)有了足夠多的數(shù)據(jù)作支撐，深度神經(jīng)網(wǎng)絡(luò)的提升尤為明顯。同時，網(wǎng)絡(luò)達到足夠的深度，NMT 系統(tǒng)翻譯的語句相比于過去技術(shù)翻譯的結(jié)果也更為流暢。這里的“流暢”是指，輸出的文本不會過于生硬，甚至有時候會被認為是人工翻譯的結(jié)果。

▌ NMT 存在什么問題？
回想文章開頭提到的幾個題目 -- NMT 聽起來極其卓越，但它真的可以與人工翻譯相比嗎？根本不可能。事實上，與人類相比 NMT 在很多方面都存在缺陷。
這些缺陷可歸為三類：可靠性、記憶力和判斷力。
可靠性：這可能是最令人擔(dān)憂的一點，NMT 翻譯并不可靠。NMT 系統(tǒng)無法保證準(zhǔn)確度，常常出現(xiàn)漏掉否定詞、整個單詞甚至整個短語的情況。
記憶力：NMT 系統(tǒng)還有嚴(yán)重的短期記憶缺陷。目前，我們所建立的系統(tǒng)每次只能翻譯一句話，導(dǎo)致其忽略了上文中可能包含的信息。
判斷力：NMT 系統(tǒng)對外部的信息與知識幾乎沒有判斷能力。對翻譯工作來說，把握一段內(nèi)容在特定語境中的理解是很重要的，但對機器來說這很難做到。
在接下來的內(nèi)容里，我會闡述有關(guān)這三個缺陷的細節(jié)。

▌ 可靠性
NMT 無法檢查其輸出的信息是否真實。例如，NMT 系統(tǒng)可能漏掉否定詞或整段信息。這些錯誤會導(dǎo)致什么后果呢？
“The US did not attack the EU! Nothing to fear,”
這是著名報紙 Le Monde 中用法語報道的內(nèi)容，然后機器翻譯成英語的結(jié)果是：
“The US attacked the EU! Fearless.”
試想象，如果這樣錯誤的翻譯遍布互聯(lián)網(wǎng)，在假新聞病毒式傳播之前我們來得及更正嗎？令人沮喪的是，這樣的災(zāi)難幾乎無法挽回。

▌ 記憶力
當(dāng)前的 NMT 系統(tǒng)還有一個明顯的不足：每次只能單獨翻譯一個句子。這意味著機器并不知道它們當(dāng)前翻譯的句子之前的內(nèi)容。而作為人類，我們閱讀文章的時候會聯(lián)系上下文。
那么為什么我們在訓(xùn)練 NMT 系統(tǒng)時，每次只用一個句子而不是整段文檔呢？這里面有技術(shù)原因：首先，對神經(jīng)系統(tǒng)來說，讀取一段長文檔，儲存所有信息并快速調(diào)用都很困難；其次，當(dāng)輸入的信息量過大時，系統(tǒng)運行的時間也會更長。所以為了提高效率，我們在訓(xùn)練過程中都使用了單獨的語句。
總之，不能聯(lián)系上下文是 NMT 的主要問題，尤其對于翻譯一個故事來說至關(guān)重要。講故事是人類的行為，是創(chuàng)造力、智慧和表達的結(jié)合，也因此將我們與動物區(qū)分開來。如果 AI 翻譯系統(tǒng)連有條理地翻譯一個故事都做不到，更不用說文法上是否優(yōu)雅，怎么能說它們達到了人類的水平呢？

▌ 判斷力
假設(shè)你在讀一篇關(guān)于音樂會的文章，然后使用 NMT 系統(tǒng)把英語翻譯成法語，發(fā)給了你講法語的朋友。在英文原文中，文章記錄了對許多音樂會參與者的采訪，其中包括一位年輕人的感慨：
“I’m a huge metal fan!”
但這句話被翻譯成了：
“Je suis un énorme ventilateur en métal” (“I’m a large ventilator made of metal.”)
在這篇文章中，系統(tǒng)并不知道 "metal fan" 是指熱愛金屬音樂的一類人，直接翻譯成了由金屬制造的通風(fēng)裝置。

這個問題在機器發(fā)展初期就存在了，但至今無法解決。早在 1958 年的相關(guān)論文中就提到了該問題，這里有一個經(jīng)典的例子：
The box was in the pen.
對此 NMT 系統(tǒng)會被 "pen" 這個單詞困擾：它在這里指寫字的工具還是圍欄呢？
對 NMT 系統(tǒng)來說，關(guān)于世界的常識知識對翻譯來說尤為重要。然而，對這些知識全部進行編碼以及從大量數(shù)據(jù)中提取都是很困難的。我們需要一個有自主判斷力的機制，并將常識知識引入到神經(jīng)網(wǎng)絡(luò)中。

▌ 什么是好的翻譯？
我們應(yīng)該如何評估機器翻譯系統(tǒng)的水平？目前，最常用的方法是 BLEU score。我們把機器翻譯出的內(nèi)容與人工翻譯的內(nèi)容做對比，分別計算其 BLEU 分數(shù)。如果機器翻譯結(jié)果中的單詞和短語與人工的結(jié)果相似度很高，那么系統(tǒng)就會得到較高的 BLEU 分數(shù)。
BLEU score 是一種簡單卻有效的翻譯評估方法，尤其在評估性能低的系統(tǒng)時。然而研究者發(fā)現(xiàn)，BLEU score 也經(jīng)常與人類的觀點不同。這意味著 BLEU 指標(biāo)只能在若干低性能系統(tǒng)中挑選出最佳的一個，而面對性能更好的系統(tǒng)進行評估時比較吃力。
相比于 BLEU 評估方法，對翻譯結(jié)果直接進行人工評估的方法更加出色，但也并非沒有缺點。關(guān)于人工對機器翻譯進行評估，存在兩個不可忽視的問題：
人工評估不是自動的，所以成本較高且效率低。
人工評估往往會出現(xiàn)分歧。這個問題不僅存在于 BLEU 方法與人類之間，也存在于人類評估者之間。
總地來說，雖然人工評估效果更好，但它需要很高的成本，同時要求盡量不能出錯。進一步來說，在將 NMT 系統(tǒng)與人類譯者做對比時，要考慮到評估機制的限制因素。

▌ 我們?nèi)栽诶^續(xù)努力！未來會如何發(fā)展？
NMT 正在飛速發(fā)展，新的進步與突破也在被頻繁報道著。新的研究正致力于解決以上提出的所有問題：可靠性、數(shù)據(jù)偏差、無意義輸出、記憶力、對常識的判斷力以及評估標(biāo)準(zhǔn)。
過去幾年，NMT 在表現(xiàn)和效率方面都有所突破。這源于新系統(tǒng)不再需要連續(xù)處理數(shù)據(jù)，如按照從左到右或從右到左的順序，從而使我們可以同時訓(xùn)練更多的數(shù)據(jù)，最后生成更合理的翻譯結(jié)果。
同時，我們可以期待會有越來越多關(guān)于新研究的報道。哈佛的 OpenNMT：一個可用于 LuaTorch、PyTorch 和 Tensorflow 的開源神經(jīng)機器翻譯工具包，正在迅速融入新的方法，以便于大家可以建立最好的翻譯系統(tǒng)。由前谷歌研究員開發(fā)的新型商業(yè)系統(tǒng) deepL，聲稱已經(jīng)超越谷歌的翻譯系統(tǒng)。這是一個發(fā)展迅速的領(lǐng)域，這也是一個見證 NMT 不斷突破的時代。

翻譯服務(wù)熱線:18951973021

為什么AI的翻譯水平還遠不能和人類相比?

關(guān)于我們

專業(yè)筆譯

口譯同傳

南京知名翻譯機構(gòu)翻譯社翻譯院-南京華彥翻譯服務(wù)有限公司