mainvisual

NewsPicksをのぞいてみると、こんな記事があった。

お!マジカ!

早速試してみることに!

では、試しに「Golangドキュメント」を翻訳してみました

翻訳結果

が!!( д) ゚ ゚
つ、次!

次は、英語の看護系の論文です。専門用語が頻出するので、いままでは医学専門の翻訳機にかけていました。 なので、さすがにGoogle先生でも難しはずなのでは?と思いつつも、検証

翻訳結果

よ、読める。翻訳した言葉をスラスラ読むことが出来ます。凄すぎです。

Google翻訳の歴史

フレーズベース翻訳(PBMT)を使ったGoogle翻訳サービスの始まり

10年前の2006年4月28日、Googleは当時画期的な翻訳システムとして、「フレーズベース翻訳(PBMT)のシステム」を発表しました。 当時最新の主流の翻訳システムは、ルールベースの手法を用いて開発されていて、 語彙や文法を定義するために多くの言語学者による登録作業が必要でした。 ところがGoogle、全く別の方向からのアプローチをとりました。 数十億語のテキスト(ターゲット言語の単一言語のテキストと言語間の人間の翻訳の例からなるテキスト) をコンピュータに送り、統計的学習手法を適用して翻訳モデルを構築することにより、翻訳システムを実現しました。

この頃の、翻訳システムの性能をここからみることが出来ます。

また、この頃は翻訳システムは、「アラビア語 - 英語」「英語 - アラビア語」の翻訳サービスを開始した頃でした。

フレーズベース翻訳(PBMT)のシステムの課題

フレーズベースの翻訳では、単語を膨大のデータベースと照合することにより、翻訳を実現しています。 よって、データベースに存在しない単語や、その周囲の状況により単語の意味が変わったりすると、 翻訳の質が低下する事がありました。

リカレントニューラルネットワーク(RNN)を用いた翻訳システムのプロトタイプを作成

数年前、入力シーケンス(例えば、ある言語の文)と出力シーケンス(別の言語の同じ文)との マッピング(言語対応表)を直接学習するためにリカレントニューラルネットワーク(RNN)を使い始めました。 フレーズベースの機械翻訳(PBMT)は、入力文を独立する単語ごとに分解して、翻訳を行いますが、 ニューラルマシン翻訳(NMT)は、入力文全体を翻訳の単位とみなします。 のアプローチの利点は、従来のフレーズベースの翻訳システムよりも設計の選択肢が豊富なことです。 最初に出てきたNMTは、既存のフレーズベースの翻訳システムと同等の精度を示しました。

ex. リカレントニューラルネットワーク(RNN)について

リカレントニューラルネットワーク(RNN)を用いた翻訳システムの精度向上

それ以来、研究者らは、外部のアライメントモデルを模倣して珍しい言葉を扱う作業や、 入力語と出力語の整列に注意を払い、希少語に対処するための小さな単位に単語を分割するなど、 NMTを改善する多くの手法を試しましたが、翻訳は正確ではありませんでした。

Google神経機械翻訳システム(GNMT)を用いた翻訳精度の向上

2016年9月27日、Googleは全く新しい翻訳システム「Google神経機械翻訳システム(GNMT)」を発表しました。 リカレントニューラルネットワーク(RNN)の開発で得た技術を用いて、 論文「Googleのニューラルマシン翻訳システム:人間と機械翻訳のギャップを橋渡しする」の方法を用いる事により、従来の弱点を克服し、 Googleのユーザーやサービスの翻訳を十分に高速かつ正確に行うためのシステムを構築しました。

人の評価者が特定のソースセンテンスの翻訳品質を比較する、横並びの評価からのデータ。 スコアの範囲は0〜6です.0は「完全にナンセンスな翻訳」を意味し、6は「完璧な翻訳」を意味します。

Google神経機械翻訳システム(GNMT)の仕組み

次の図は、Google神経機械翻訳システム(GNMT)が中国語の文章を英語に翻訳する際の仕組みを示しています。 第1に、ニューラルネットワークは、中国語をベクトルのリストとして符号化します。 ここで、各ベクトルは、これまでに読み出されたすべての語(エンコーダ)の意味を表します。 文全体が読み込まれると、デコーダが始まり、一度に1語の英文を生成します(復号器)。 各ステップで翻訳された単語を生成するために、デコーダは、 英語の単語を生成するのに最も関連する符号化された中国語ベクトルを利用します。 (「注意」:青いリンクの透明度は、復号器が符号化された単語にどれだけ注意を払うかを表す)。

GNMTシステムは、人間の言語解釈のレベルと比較することで、従来のフレーズベースの翻訳システムと比較して、 大幅に性能が向上した翻訳機能を提供します。GNMTシステムは翻訳の結果をバイリンガルや、 一般ユーザーから評価を受けることで、Wikipediaやニュースサイトのサンプル文章の翻訳エラーを55%~85%以上削減することに成功しています。

ニュースサイトから抽出された入力文のために生成された翻訳の例。 ニュースサイトや書籍から無作為に抽出された入力文の翻訳例については、ここをクリックしてください。

参考サイト