blog.鶯梭庵

二〇一六年 師走 十八日 日曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その2 [/language]

その1から続く

統計的なアプローチにせよ、ディープラーニングにせよ、機械が学習するためには機械に大量のデータを与える必要がある。翻訳では、2か国語(あるいは多国語)の対訳になっているデータが必要だ。大量の対訳を集めるには、どうすればよいだろうか。

Google なら、ウェブから集めようとするだろう。自社の検索エンジンのためにウェブの隅々まで日々クローリングしているのだから、すでに大量のデータを持っているわけで、そのなかには対訳になっているデータもある。また、Google は出版された書籍のテキストデータも大量に持っている。そのなかには、他言語から翻訳された書籍もある。しかし、それらのデータには問題がある。品質が保証されないのだ。

出版された書籍なら品質が保証されるはずと思うかもしれないが、実際には品質の低い訳文も出版されている。翻訳には3つの要素が必要だと言われる。ソース言語の理解力、ターゲット言語の運用力、そして背景知識だ。特に専門書を訳す場合、プロの翻訳家なら前者2つを持っていることが期待されるが、背景知識を持っているとは限らない。そのため、翻訳家ではなくその分野の専門家が翻訳をする場合がある。専門家はもちろん背景知識を持っているし、ターゲット言語が母語であればそれなりの運用力が期待されるが、ソース言語の理解力に優れているとは限らない。

ウェブ上の訳文となれば、3つの要素のいずれにも問題がある人でも訳文を公開できる。それを機械に教えて翻訳エンジンを作るのは、学位論文を書くのに Wikipedia に頼るようなものだ。条約や特許といった官公庁の公式訳は、ウェブでも閲覧でき、品質が高い。それでも、書籍と同じ理由で、品質の低い訳文が完全に排除されているわけではない。それに、官公庁のサイトだけから対訳を集めると、データが特定の分野や文体に偏ってしまう。

Google もその問題点に気がついているのだろう。翻訳家向けに Translator Toolkit というツールを無料で提供している。これは、プロの翻訳家の多くが使っている CAT(computer aided translation)ツールの1つだ。CAT ツールは、原文を取り込んで、スプレッドシート形式で表示する。翻訳者が訳文を入力すると、原文と訳文のペアが TM(translation memory)と呼ばれるデータベースに登録される。翻訳者が原文を翻訳するためにフォーカスすると、それと同じまたは似ている原文が TM から検索され、見つかったら原文と訳文が表示される。

Google の目論見は、このツールを多くの翻訳家に使ってもらうことで、高品質な対訳データを集めることだろう。しかし、まともな翻訳家なら、このツールは使わない。というより、使えない。また、まともな翻訳エージェントなら、翻訳者に対して Google などのオンラインツールの使用を禁じている。

まず、多くの翻訳家は機密情報も扱うので、秘密保持契約を結んでいる。そのため、原文や訳文を第三者に渡すことはできない。また、TM というのはクライアントにとって貴重な財産である。TM を適切に管理していれば、将来翻訳を発注するときに価格を安く納期を短くできる。それを第三者に無償で提供するのは、職業倫理にもとる。もっとも、そこまで考えず安易に Google のツールを使う翻訳家もいるだろうが、そのような翻訳家が質の高い翻訳をするとは思えない。

その3に続く。

[この記事にコメントを書く。] [このカテゴリをまとめて読む。] [最新の記事を読む。]

RSS feed

カテゴリ

[/language] (98)
[/links] (254)
[/mac] (114)
[/music] (36)
[/origami] (406)
[/this_blog/ajax] (7)
[/this_blog/blosxom] (4)
[/this_blog/history] (12)
[/this_blog/perl] (9)

最新記事

パスワードについてのあなたの常識はもはや非常識かもしれない・その1 [/links]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]
HTTPS 対応 [/links]
ひらがな・カタカナ学習ウェブアプリ [/links]
日本語の「た」と英語の過去形 [/language]
ORI-REVO で回転楕円体を折る・その2 [/origami]
ORI-REVO で回転楕円体を折る・その1 [/origami]
折り紙建築 [/origami]
折鶴に松図小柄 [/origami]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その6 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その5 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その4 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その3 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その2 [/links]

羽鳥 公士郎