blog.鶯梭庵

二〇一六年 師走 十八日 日曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その2 [/language]

その1から続く

統計的なアプローチにせよ、ディープラーニングにせよ、機械が学習するためには機械に大量のデータを与える必要がある。翻訳では、2か国語(あるいは多国語)の対訳になっているデータが必要だ。大量の対訳を集めるには、どうすればよいだろうか。

Google なら、ウェブから集めようとするだろう。自社の検索エンジンのためにウェブの隅々まで日々クローリングしているのだから、すでに大量のデータを持っているわけで、そのなかには対訳になっているデータもある。また、Google は出版された書籍のテキストデータも大量に持っている。そのなかには、他言語から翻訳された書籍もある。しかし、それらのデータには問題がある。品質が保証されないのだ。

出版された書籍なら品質が保証されるはずと思うかもしれないが、実際には品質の低い訳文も出版されている。翻訳には3つの要素が必要だと言われる。ソース言語の理解力、ターゲット言語の運用力、そして背景知識だ。特に専門書を訳す場合、プロの翻訳家なら前者2つを持っていることが期待されるが、背景知識を持っているとは限らない。そのため、翻訳家ではなくその分野の専門家が翻訳をする場合がある。専門家はもちろん背景知識を持っているし、ターゲット言語が母語であればそれなりの運用力が期待されるが、ソース言語の理解力に優れているとは限らない。

ウェブ上の訳文となれば、3つの要素のいずれにも問題がある人でも訳文を公開できる。それを機械に教えて翻訳エンジンを作るのは、学位論文を書くのに Wikipedia に頼るようなものだ。条約や特許といった官公庁の公式訳は、ウェブでも閲覧でき、品質が高い。それでも、書籍と同じ理由で、品質の低い訳文が完全に排除されているわけではない。それに、官公庁のサイトだけから対訳を集めると、データが特定の分野や文体に偏ってしまう。

Google もその問題点に気がついているのだろう。翻訳家向けに Translator Toolkit というツールを無料で提供している。これは、プロの翻訳家の多くが使っている CAT(computer aided translation)ツールの1つだ。CAT ツールは、原文を取り込んで、スプレッドシート形式で表示する。翻訳者が訳文を入力すると、原文と訳文のペアが TM(translation memory)と呼ばれるデータベースに登録される。翻訳者が原文を翻訳するためにフォーカスすると、それと同じまたは似ている原文が TM から検索され、見つかったら原文と訳文が表示される。

Google の目論見は、このツールを多くの翻訳家に使ってもらうことで、高品質な対訳データを集めることだろう。しかし、まともな翻訳家なら、このツールは使わない。というより、使えない。また、まともな翻訳エージェントなら、翻訳者に対して Google などのオンラインツールの使用を禁じている。

まず、多くの翻訳家は機密情報も扱うので、秘密保持契約を結んでいる。そのため、原文や訳文を第三者に渡すことはできない。また、TM というのはクライアントにとって貴重な財産である。TM を適切に管理していれば、将来翻訳を発注するときに価格を安く納期を短くできる。それを第三者に無償で提供するのは、職業倫理にもとる。もっとも、そこまで考えず安易に Google のツールを使う翻訳家もいるだろうが、そのような翻訳家が質の高い翻訳をするとは思えない。

その3に続く。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一六年 師走 十六日 金曜日

帝王切開の「帝王」は誤訳なのか [/language]

分娩時に母親のお腹を切開して赤ちゃんを取り出すことを「帝王切開」という。なぜ「帝王」なのか。

日本語の「帝王切開」はドイツ語の Kaiserschnitt を訳したものだと言われている。ドイツ語の Kaiser は、一般に「皇帝」と訳され、ラテン語の Caesar に由来する。Caesar は、ローマ帝国の君主号の1つであり、帝政の基礎を築いたユリウス・カエサル(英語読みではジュリアス・シーザー)に由来する。

「帝王切開」は英語で Caesarean section または Cesarean section という。これもラテン語の Caesar に由来することは明らかだ。英英辞典を見ると、カエサルが帝王切開で生まれたという伝説が元だと書いてある。ドイツ語から日本語に翻訳するときも、カエサルという帝王が生まれたとされる方法だから「帝王切開」としたのだろう。

ところが、現在では、Kaiserschnitt や Cesarean section の語源はカエサルではないとされている。とすると、「帝王」というのは誤訳なのか。

帝王切開の「帝王」は「切られた」を意味するラテン語の誤訳だとする説がある。これには2つのパターンがあって、ラテン語の sectio caesarea をドイツ語に訳したときに caesarea と Caesar を混同して誤訳したとする説(ドイツ人が誤訳した説)と、ドイツ語の Kaiser には「切る」という意味もあるのに、日本語に訳すとき誤って「帝王」としたとする説(日本人が誤訳した説)がある。

そもそも、カエサルが帝王切開で生まれたはずはない。カエサルが生まれた時代に、あるいはもっと後でも、帝王切開をしたら母親は確実に死んでしまうが、カエサルの生母はカエサルが成長したあとでも生きていた。この伝説の大本は、大プリニウスが『博物誌』のなかで、Caesar という家名が「切られた母親の胎内(caeso matris utero)」から来ていると主張していることにある。

この主張、すなわち Caesar が caeso(「切られた」)に由来するという主張は、現在では疑問視されている。したがって、caesarea が「切られた」を意味するというのも、ありそうにない。「帝王」は「切られた」の誤訳だという説は退けてよいだろう。そもそも、sectio が「切開」の意味なので、caesarea が「切られた」だとすると、sectio caesarea は「切られた切開」になってしまう。

ローマ時代には、妊娠した女性を埋葬することが忌避されていたそうだ。そのため、分娩時に母親が死亡した場合、母親のお腹を切って胎児を取り出すことが法律で義務づけられていた。この法律が Lex Caesarea と呼ばれる。これが、英語の Caesarean section やドイツ語の Kaiserschnitt の語源だというのが、現在の通説になっている。

すると問題は、Lex Caesarea をどう訳すかということになる。日本語版の Wikipedia によると、これは「遺児法」という意味だという。caesarea は caeso に由来し、「切り取られた者」から「遺児」になったというのだが、caesarea と caeso の関連は先ほど退けた。「遺児法」は出鱈目に違いない。

英語版の Wikipedia によると、件の規定は Lex Caesarea の前身である Lex Regia からあるという。Lex Regia は、英語では royal law と訳される。「王国法」のような意味だ。それを受け継ぐ Lex Caesarea は、英語では imperial law と訳される。日本語に訳すとしたら「帝国法」あたりだろうが、「帝王の法」と訳して訳せないことはない。してみると、Lex Caesarea に由来する Kaiserschnitt を「帝王切開」と訳すのも、あながち誤訳ではないともいえる。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一六年 霜月 廿三日 水曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その1 [/language]

Google翻訳は、従来、統計に基づくシステムを使っていたが、最近になってニューラルネットワークを採用した新しいシステムに移行している。16 日には、英日・日英翻訳が新しくなった

機械翻訳(Machine Translation:MT)の基盤である人工知能(Artificial Intelligence:AI)には、大きく分けて3つのアプローチがある。

最初期に実用化された人工知能は、ルールベースのアプローチを取っていた。つまり、「こういう場合はこうする」というルールを機械に覚えさせる。機械翻訳でいえば、与えられた原文を構文解析し、その結果得られた構文構造にルールを当てはめて対象言語の構文構造に変換し、訳文を生成する。

このアプローチはうまくいかなかった。ルールは人間が機械に教える必要があるが、翻訳を含めほとんどの領域で、覚えさせるべきルールが膨大になり、とても教えきれないということがわかったからだ。この事実は、人間の知能が単なるルールの集合ではないということも示している。

そこで、人間の知能の模倣をあきらめて、コンピューターが得意とする計算によって作業をこなすというアプローチが考えられた。具体的には、コンピューターに多数の例を覚えさせて、それを統計的に処理することにより、未知の例に対するもっとも適切な処理を確率的に計算する。

たとえば、電子メールがスパムかどうかを判定したいとしよう。1つの方法として、メールメッセージを単語に分け、それぞれの単語がスパムメールに使用される確率を基に、メールがスパムである確率を計算すればよい。単語がスパムメールに使用される確率を求めるには、スパムメールとそうでないメールをそれぞれ多数用意して、単語の出現回数を数えればよい。ここでベイズ理論を用いると、メールのサンプルが増えるたびに判定の精度を上げることができる。そのようにして機械が「学習」する。

実際には、スパムメールの判定でも、もっと手の込んだ計算をしなければ精度が上がらない。翻訳となれば、ますます手の込んだ計算が必要となる。そして、その計算方法や計算に用いるパラメーターは、やはり人間が機械に教えなければならない。日本語と韓国語のあいだの翻訳やラテン系言語同士の翻訳ならともかく、英語と日本語のように言語的な距離の遠い言語間の翻訳では、精度に限界がある。

その問題に対処すると期待されているのが、ディープラーニング(深層学習)だ。これには、人間の脳における神経細胞のネットワークを模したニューラルネットワークを用いる。ディープラーニングでもやはり、多数のサンプルをコンピューターに覚えさせるが、人間がすることは、コンピューターの判断が正解か不正解かを示すことだけだ。その入力を基にして、サンプルのどこに注目してどういう計算をするべきかを、コンピューター自身が学習する。

ディープラーニングは統計アプローチの問題点を確かに解決する。画像認識では大きな進歩をみせ、囲碁でも人間のチャンピオンに勝った。翻訳でも確かに進歩しており、日英・英日のgoogle翻訳は学生レベルにはなっているが、プロレベルにはほど遠い。しばらくのあいだはプロの翻訳家を脅かすことはないだろう。

それには2つの理由がある。1つは翻訳ビジネスに関する問題であり、もう1つは特に日本語で顕著な問題だ。

その2に続く。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一六年 神無月 卅日 日曜日

「幼虫」と「蛹」を英語で [/language]

昆虫には、完全変態をするものと不完全変態をするものがある。完全変態する昆虫は、卵、幼虫、蛹、成虫と姿を変える。不完全変態する昆虫は蛹にならない。

「幼虫」にあたる英語は"larva"(複数形は"larvae"または"larvas")だが、これは昆虫の幼虫だけでなくオタマジャクシなども包含するので、日本語の「幼生」に近い。蛹は英語で"pupa"(複数形は"pupae"または"pupas")という。不完全変態する昆虫で卵と成虫のあいだの段階は、一般には幼虫といっているが、幼虫と区別して「若虫」ということがある。これに対応する英語は"nymph"だ。

ちなみに「卵」はもちろん"egg"、「成虫」は"adult"が普通だが、"imago"(複数形は"imagines"または"imagoes")ということもある。

完全変態する昆虫のうち、チョウやガの仲間、ハエやカの仲間、甲虫の仲間の幼虫は身近に見かける。チョウやガの蛹も身近だ。そのため、日本語でも英語でも、特別な呼び名がある。

チョウやガの幼虫は、英語では"caterpillar"という。日本語では、毛が生えていたら「毛虫」、緑色なら「青虫」、それ以外なら「芋虫」となるが、"caterpillar"にはそのような区別はない。なお、"caterpillar"の語源について以前書いたことがある。「芋虫」は「芋の葉を食べる虫」の意味だそうだ。

チョウやガの蛹は、日本語では単に「蛹」だが、英語では"chrysalis"(複数形は"chrysalides"または"chrysalises")という。ガの蛹は多くの場合繭に入っているが、「繭」は英語で"cocoon"という。

甲虫の幼虫は、英語では"grub"という。日本語では「地虫」というが、この言葉はあまり使われないように思う。

ハエの幼虫は、日本語で「蛆虫」、英語で"maggot"とよばれる。カの幼虫は、日本語で「ぼうふら」、英語で"wiggler"または"wriggler"という。カの蛹は、蛹としては例外的に泳ぐことができる。日本語で「鬼ぼうふら」、英語で"tumbler"という。ただし、"wiggler"、"wriggler"、"tumbler"はいずれも、それほど使われないようだ。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一六年 長月 卅日 金曜日

匹と頭 [/language]

日本語は助数詞が豊富だ。多すぎて、ネイティブの日本語話者でも使いこなすのが難しい。

中でも使い分けが難しいものに「匹」と「頭」がある。大まかには、小さな動物に「匹」を使い、大きな動物に「頭」を使う。ところが、昆虫は小さいのに「頭」を使うのが正しいとされる。また、犬やワニなど、どちらを使えばよいか迷うことも多い。

「匹」と「頭」の意外なルーツによると、もともとは「匹」が動物一般に使われており、「頭」は英語からの翻訳語として明治の終わり以降に使われるようになったそうだ。英語で、家畜や狩猟対象の動物などを数えるときに"20 head of cattle"などという(この場合、headは複数扱い)。これが学術論文で使われていたのを、日本語で文字通り「頭」と訳したようだ。

昆虫については、チョウの数え方によると、英米圏で動物園の動物一般に"head"を使うようになり、それがやはり学術論文で「頭」と訳されたそうだ。

大型動物の「頭」は学問の世界を越えて一般に定着したのに、昆虫の「頭」は一般にはそれほど広まっていないのも不思議な話だ。昆虫学より畜産学の方が生活と密着しているということなのだろうか。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

[もっと古い 5 件の記事を読む] [もっと新しい 5 件の記事を読む]

RSS feed

カテゴリ

[/language] (98)
[/links] (254)
[/mac] (114)
[/music] (36)
[/origami] (406)
[/this_blog/ajax] (7)
[/this_blog/blosxom] (4)
[/this_blog/history] (12)
[/this_blog/perl] (9)

最新記事

パスワードについてのあなたの常識はもはや非常識かもしれない・その1 [/links]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]
HTTPS 対応 [/links]
ひらがな・カタカナ学習ウェブアプリ [/links]
日本語の「た」と英語の過去形 [/language]
ORI-REVO で回転楕円体を折る・その2 [/origami]
ORI-REVO で回転楕円体を折る・その1 [/origami]
折り紙建築 [/origami]
折鶴に松図小柄 [/origami]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その6 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その5 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その4 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その3 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その2 [/links]

羽鳥 公士郎