blog.鶯梭庵

二〇一七年 睦月 廿一日 土曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その3 [/language]

この記事は書かれてから1年以上経過しています。内容が古くなっている可能性があります。コメントの受付は終了しました。

その2から続く

ディープラーニングは画像認識で大きな成果をあげている。画像認識では、機械は「教師あり学習」という方法で学習する。「教師」は、ある画像について、これは犬だとか猫だとかと教える。あるいは、機械の判断に対して正解か不正解かを教える。

画像認識であれば、ほとんどの人が教師役になれる。しかし翻訳では、教師役になれる人が少ない。画像認識でたとえれば、犬か猫かではなく、オーストラリアン・シェパードなのかボーダー・コリーなのか、あるいはシャルトリューなのかロシアンブルーなのかを教えるようなレベルが求められる。それができる人を集めて機械に教えるとなると、学習にコストがかかる。コストを削減するためにクラウドソーシングに頼ったりすると、品質が確保できない。

それを言うなら、囲碁だって、教師役になれる人は少ない。それでも、Google の AlphaGo は世界トップレベルの棋士を相手に連戦連勝している。どうして機械が囲碁を学習できるかというと、機械が勝ち負けを判定できるからだ。コンピューターが自分自身を相手に対局すると、こう打ったときは勝つ、こう打つと負けるというデータが膨大に得られる。それを学習することで AlphaGo は強くなった。このような学習方法は「強化学習」と呼ばれる。

では、翻訳で強化学習ができるだろうか。翻訳には原文の解釈と訳文の表現の2段階があるが、表現には正解がない。ある原文に対する「正しい」訳文は、いくつも考えられる。しかも、それらのどれを使ってもよいわけではない。囲碁なら、対戦相手がどんな人であっても、勝ちは勝ちだし負けは負けだ。ところが翻訳では、想定される読者が変われば適切な訳文も変わる。だから、機械で正誤を判定するのは難しい。

ターゲット言語が日本語の場合、それが顕著だ。日本語には正書法がない。たとえば、「たとえば」を「例えば」と書いてもよいし、「コンピューター」を「コンピュータ」と書いてもよい。数字には漢数字とアラビア数字があり、デジタルデータならアラビア数字でも全角と半角がある。さらに常体(である調)と敬体(ですます調)という2つの文体もある。

翻訳の現場では、クライアントから「このスタイルで」と言われる場合もあるが、何も言われなくても、まともな翻訳家なら、特許の明細書には全角アラビア数字を使うし、ユーザーマニュアルは敬体で訳す。また、特許では正確さを優先し、マニュアルではわかりやすさを優先する。映像翻訳なら、吹き替えでは口の動きを合わせるし、字幕では文字数を少なくする。

その点で、翻訳は囲碁よりも自動車の運転に近い。運転にもやはり正解がない。だから自動運転はまだ実用にいたっていない。もっとも、運転では事故を起こさず目的地に着くというわかりやすい基準があるが、翻訳にはそれもない。機械にとっては、翻訳は運転より学習が難しい。自動翻訳が自動運転より先に「実用化」されているのは、自動運転が人命にかかわるのに対し自動翻訳がそうではないからだ。実際には、自動翻訳より自動運転の方が実用レベルに近い。

その4に続く。

[このカテゴリをまとめて読む。] [最新の記事を読む。]

RSS feed

カテゴリ

[/language] (98)
[/links] (254)
[/mac] (114)
[/music] (36)
[/origami] (406)
[/this_blog/ajax] (7)
[/this_blog/blosxom] (4)
[/this_blog/history] (12)
[/this_blog/perl] (9)

最新記事

パスワードについてのあなたの常識はもはや非常識かもしれない・その1 [/links]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]
HTTPS 対応 [/links]
ひらがな・カタカナ学習ウェブアプリ [/links]
日本語の「た」と英語の過去形 [/language]
ORI-REVO で回転楕円体を折る・その2 [/origami]
ORI-REVO で回転楕円体を折る・その1 [/origami]
折り紙建築 [/origami]
折鶴に松図小柄 [/origami]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その6 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その5 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その4 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その3 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その2 [/links]

羽鳥 公士郎