blog.鶯梭庵

二〇一六年 霜月 廿三日 水曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その1 [/language]

この記事は書かれてから1年以上経過しています。内容が古くなっている可能性があります。コメントの受付は終了しました。

Google翻訳は、従来、統計に基づくシステムを使っていたが、最近になってニューラルネットワークを採用した新しいシステムに移行している。16 日には、英日・日英翻訳が新しくなった

機械翻訳(Machine Translation:MT)の基盤である人工知能(Artificial Intelligence:AI)には、大きく分けて3つのアプローチがある。

最初期に実用化された人工知能は、ルールベースのアプローチを取っていた。つまり、「こういう場合はこうする」というルールを機械に覚えさせる。機械翻訳でいえば、与えられた原文を構文解析し、その結果得られた構文構造にルールを当てはめて対象言語の構文構造に変換し、訳文を生成する。

このアプローチはうまくいかなかった。ルールは人間が機械に教える必要があるが、翻訳を含めほとんどの領域で、覚えさせるべきルールが膨大になり、とても教えきれないということがわかったからだ。この事実は、人間の知能が単なるルールの集合ではないということも示している。

そこで、人間の知能の模倣をあきらめて、コンピューターが得意とする計算によって作業をこなすというアプローチが考えられた。具体的には、コンピューターに多数の例を覚えさせて、それを統計的に処理することにより、未知の例に対するもっとも適切な処理を確率的に計算する。

たとえば、電子メールがスパムかどうかを判定したいとしよう。1つの方法として、メールメッセージを単語に分け、それぞれの単語がスパムメールに使用される確率を基に、メールがスパムである確率を計算すればよい。単語がスパムメールに使用される確率を求めるには、スパムメールとそうでないメールをそれぞれ多数用意して、単語の出現回数を数えればよい。ここでベイズ理論を用いると、メールのサンプルが増えるたびに判定の精度を上げることができる。そのようにして機械が「学習」する。

実際には、スパムメールの判定でも、もっと手の込んだ計算をしなければ精度が上がらない。翻訳となれば、ますます手の込んだ計算が必要となる。そして、その計算方法や計算に用いるパラメーターは、やはり人間が機械に教えなければならない。日本語と韓国語のあいだの翻訳やラテン系言語同士の翻訳ならともかく、英語と日本語のように言語的な距離の遠い言語間の翻訳では、精度に限界がある。

その問題に対処すると期待されているのが、ディープラーニング(深層学習)だ。これには、人間の脳における神経細胞のネットワークを模したニューラルネットワークを用いる。ディープラーニングでもやはり、多数のサンプルをコンピューターに覚えさせるが、人間がすることは、コンピューターの判断が正解か不正解かを示すことだけだ。その入力を基にして、サンプルのどこに注目してどういう計算をするべきかを、コンピューター自身が学習する。

ディープラーニングは統計アプローチの問題点を確かに解決する。画像認識では大きな進歩をみせ、囲碁でも人間のチャンピオンに勝った。翻訳でも確かに進歩しており、日英・英日のgoogle翻訳は学生レベルにはなっているが、プロレベルにはほど遠い。しばらくのあいだはプロの翻訳家を脅かすことはないだろう。

それには2つの理由がある。1つは翻訳ビジネスに関する問題であり、もう1つは特に日本語で顕著な問題だ。

その2に続く。

[このカテゴリをまとめて読む。] [最新の記事を読む。]

RSS feed

カテゴリ

[/language] (98)
[/links] (254)
[/mac] (114)
[/music] (36)
[/origami] (406)
[/this_blog/ajax] (7)
[/this_blog/blosxom] (4)
[/this_blog/history] (12)
[/this_blog/perl] (9)

最新記事

パスワードについてのあなたの常識はもはや非常識かもしれない・その1 [/links]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]
HTTPS 対応 [/links]
ひらがな・カタカナ学習ウェブアプリ [/links]
日本語の「た」と英語の過去形 [/language]
ORI-REVO で回転楕円体を折る・その2 [/origami]
ORI-REVO で回転楕円体を折る・その1 [/origami]
折り紙建築 [/origami]
折鶴に松図小柄 [/origami]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その6 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その5 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その4 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その3 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その2 [/links]

羽鳥 公士郎