blog.鶯梭庵

二〇一八年 睦月 卅日 火曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]

その4から続く。

機械翻訳に限らず、人工知能が人間の仕事を奪うのではないかという議論がよくある。機械翻訳についての私の考えでは、品質度外視のボランティアおよびそれに毛の生えたような翻訳は機械にとってかわられるとしても、プロの翻訳家の仕事がなくなることはないだろう。ただし、仕事の内容が変わる(あるいは変える)ことは避けられないだろう。

もちろん、自動車の自動運転でレベル4にあたるような、限定された領域での完全な自動翻訳では、人工知能が人間の翻訳者にとってかわることになる。その場合は翻訳家の仕事はなくなるが、それを実現できるのは、その領域で過去の翻訳が膨大に蓄積されている場合に限られる。

今の人工知能のアルゴリズムでは、領域が少しでもずれてしまうと、とたんにうまくゆかなくなるようだ。たとえば Google の画像認識では、黒人の写真に「ゴリラ」というタグがつけられてしまうという問題がある。これが話題になったのは 2015 年だが、いまだに解決できておらず、現在は「ゴリラ」というタグを削除している。

想像するに、白人の顔に最適化されたシステムでは黒人の顔をうまく認識できず、さりとて白人と黒人の両方に最適化されたシステムを作ることはまだできないということなのだろう。翻訳でいえば、特定のソフトウェアメーカーの製品に最適化された自動翻訳システムを作ることができても、それを別のメーカーの製品に使えるとは限らないということになる。

したがって、新しいメーカーや新しい製品に関する翻訳では、引き続き人手による翻訳が必須となる。ただし、その人力翻訳はますます機械翻訳で支援されるようになるだろう。現在広く行われている機械翻訳+ポストエディットも機械翻訳により支援された人力翻訳であるし、より効率的なシステムが将来できるかもしれない(私は翻訳者として、そういうものがほしいとつねづね思っている)。

ニューラル機械翻訳が登場する前は、欧米語同士の翻訳はともかく、たとえば英日翻訳では、機械翻訳の品質が低すぎて、人力翻訳を機械翻訳で支援しようとしても生産性は全く上がらず、むしろ下がるくらいだったが、ニューラル機械翻訳によって英日翻訳でも機械翻訳が翻訳支援として役立つレベルになった。

しかし、機械翻訳によって翻訳者の処理能力が向上すると、分量当たりの単価は低下する。機械翻訳の支援を利用しない翻訳者にとっては、単価の低下は単純に収入の減少を意味する。そのような翻訳者は生き残ることができないだろう。逆に、クライアントからすれば、分量当たりの単価が下がるのは大歓迎だ。しかし、あまり単価が下がりすぎて、翻訳者の時間当たりの収入が下がるようでは、優秀な翻訳者が仕事を断るから、訳文の品質が低下する。

これはよく考えれば当たり前のことで、機械翻訳を使っても翻訳をするのは人間だから、対価をケチればそれなりの品質しか得られない。そのため、クライアントがある程度の品質を求めるなら、単価はある程度の水準に落ち着くだろう。その水準は、翻訳者にとって時間当たりの単価がいままでと変わらないような水準であるに違いない。

もっとも、現実には、多くの場合クライアント(正確にはソースクライアント、つまり発注者)は訳文を読めないから訳文の品質を判断できず、いきおい単価が安ければ安いほどよいとなりがちだ。ただし、これは機械翻訳とは別の問題で、翻訳一般に対価は(品質も)下がる傾向にある。この方が翻訳業界にとって機械翻訳よりも大きな問題だろう。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一七年 師走 卅日 土曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]

その3から続く。

自動車の自動運転には、いくつかのレベルがある。現在、公道を走る自動車ではレベル2(部分的な自動運転)までが実用化されており、2018 年にレベル3(特定の条件下での自動運転)を実現した自動車が販売されるという。レベル3までは、人間のドライバーが運転の責任を持つ。機械で対応できるうちは機械が人間の代わりに運転してくれるが、人間は常に運転状況を監視して、機械で対応できなくなったらすぐに運転を換わらなければならない。言ってみれば、機械は人間の運転を支援するにとどまる。

レベル4になると、特定の条件下で機械が運転の責任を持つ。人間は何もしない。現状では、鉱山などのような極めて限定された状況に対応できるシステムが実用化されている。レベル5は完全な自動運転であり、あらゆる条件下で機械が運転する。この実現はだいぶ先になるだろう。

さて、この自動運転のレベルを翻訳に当てはめてみよう。現在多くの翻訳者が使っている翻訳支援ツール(CAT ツール)も、一種の自動翻訳をする。具体的には、入力された原文に対して過去の翻訳のデータベースを検索し、完全に一致する原文があったら、それに対応する訳文を出力する。しかし、原文が文レベルで同一であっても異なる文脈では別に訳さなければならない場合があるので、本来は機械が出力した訳文を人間の翻訳者が逐一チェックしなければならない。原文が同一という条件があることも考え合わせれば、CAT ツールを使用した翻訳はレベル3に相当すると言えるだろう。

実際の翻訳の現場では、原文が過去の原文と完全に一致している場合に、人間の翻訳者が全く作業しないことがある。だからといってレベル4が実現されているとは言えない。人間の作業を省略するのは、訳文が多少不自然になることがあってもかまわないからコストを削減しようということだ。一方、自動車の運転では、不自然な運転は命にかかわる。不自然な運転でもよいからドライバーの負担を軽減しようというのでは、実用化されたとはいえない。

ニューラルネットワーク翻訳を含めたいわゆる自動翻訳でも、現状では訳文の品質が保証されないので、業務としての翻訳では機械に翻訳を任せることはない。機械が訳した訳文を人間の翻訳者が直している。この修正作業を「ポストエディット」と呼ぶ。これにより品質が保証されるが、訳文に責任を持つのは翻訳者だから、自動運転のレベルで言えばやはりレベル3になる。

とはいえ、ニューラルネットワークを使った場合、分野を限定すれば十分な量のデータを集めて十分な学習をさせることができ、人間が何もしなくても済むような品質が得られる場合がある。たとえば Microsoft のサポートサイトでは、以前から人間が翻訳したページと機械が翻訳したページが混在していたが、Microsoft がニューラル機械翻訳を採用した後で機械翻訳されたページは、人間が訳したページとほとんど遜色がない。Microsoft の製品のサポートという限定された分野ではあるが、人間の介入を必要としないという点で、レベル4の自動翻訳が実現されていると言ってよいだろう。

では、レベル5の自動翻訳、すなわちあらゆる分野に対応できる汎用翻訳エンジンはできるだろうか。これまで述べてきたように、不可能とは言わないとしても、極めて難しい。Google 翻訳などは汎用翻訳エンジンを目指しているのかもしれないが、現状の品質は、自動運転で言えばあちこちで交通事故が起こるようなレベルだ。機械翻訳の訳文をそのまま使える場面は、自分が理解できない言語の文章があって、大まかでもよいから意味を知りたいというときに限られる。自分が書いた文章を他言語話者に読んでもらうためには使えない。

その5に続く。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一七年 長月 廿三日 土曜日

日本語の「た」と英語の過去形 [/language]

「着いたら連絡して。」を英語でなんというか。"Call me when you arrive." でよいが、"... arrived." と過去形にする誤りが、日本人に多い。「着いたら」に「た」があるので、半ば自動的に過去形にしてしまうのだろう。しかし、この場合、着くのは過去ではなく未来だ。英語では過去形は使えない。では、なぜ日本語では未来の出来事に「た」を使うのか。

「た」は古くは「たり」であり、「たり」は「てあり」の約だとされる。そして、「てあり」は「つ」と「あり」が繋がったものだとされる。「つ」は完了を表す。したがって、「た」の元々の意味は「動作が完了した状態がある」ということだ。「た」の本義は過去ではなく完了であり、だからこそ未来の出来事にも「た」を使える。

一方、英語の過去形も、必ずしも過去の出来事を表すとは限らない。仮定法("If I were you, ..." など)や婉曲表現("I would like to ..." など)でも過去形を使う。英語の過去形は、発話状況から隔たりがあることを示す。過去の出来事が現在から切り離されている場合は過去形を使うが、過去の出来事の影響が現在までおよんでいたら現在完了形を使う。過去の出来事に過去形を使うと、現在からの隔たりが表現される。現在の出来事に過去形を使えば、それが事実と異なることが含意される。これが仮定法だ。また、自分の要望を過去形で言えば、間接的でかしこまった表現になる。

日本語の「た」は完了を表し、英語の過去形は隔たりを表す。両者は元来別物なのだが、過去の出来事を言い表す場合、たまたま日本語では「た」を用い(かつては「き」や「けり」で過去を表したが、今は使われない)、たまたま英語では過去形を用いる。そのため、日本語の「た」と英語の過去形が同じ意味だと思い込んでしまうのかもしれないが、「た」を訳したらいつでも過去形になるわけではないし、その逆も然り。日本語の「た」と英語の過去形は、用法が似ているというだけで、同じ意味ではない。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一七年 睦月 廿一日 土曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その3 [/language]

その2から続く

ディープラーニングは画像認識で大きな成果をあげている。画像認識では、機械は「教師あり学習」という方法で学習する。「教師」は、ある画像について、これは犬だとか猫だとかと教える。あるいは、機械の判断に対して正解か不正解かを教える。

画像認識であれば、ほとんどの人が教師役になれる。しかし翻訳では、教師役になれる人が少ない。画像認識でたとえれば、犬か猫かではなく、オーストラリアン・シェパードなのかボーダー・コリーなのか、あるいはシャルトリューなのかロシアンブルーなのかを教えるようなレベルが求められる。それができる人を集めて機械に教えるとなると、学習にコストがかかる。コストを削減するためにクラウドソーシングに頼ったりすると、品質が確保できない。

それを言うなら、囲碁だって、教師役になれる人は少ない。それでも、Google の AlphaGo は世界トップレベルの棋士を相手に連戦連勝している。どうして機械が囲碁を学習できるかというと、機械が勝ち負けを判定できるからだ。コンピューターが自分自身を相手に対局すると、こう打ったときは勝つ、こう打つと負けるというデータが膨大に得られる。それを学習することで AlphaGo は強くなった。このような学習方法は「強化学習」と呼ばれる。

では、翻訳で強化学習ができるだろうか。翻訳には原文の解釈と訳文の表現の2段階があるが、表現には正解がない。ある原文に対する「正しい」訳文は、いくつも考えられる。しかも、それらのどれを使ってもよいわけではない。囲碁なら、対戦相手がどんな人であっても、勝ちは勝ちだし負けは負けだ。ところが翻訳では、想定される読者が変われば適切な訳文も変わる。だから、機械で正誤を判定するのは難しい。

ターゲット言語が日本語の場合、それが顕著だ。日本語には正書法がない。たとえば、「たとえば」を「例えば」と書いてもよいし、「コンピューター」を「コンピュータ」と書いてもよい。数字には漢数字とアラビア数字があり、デジタルデータならアラビア数字でも全角と半角がある。さらに常体(である調)と敬体(ですます調)という2つの文体もある。

翻訳の現場では、クライアントから「このスタイルで」と言われる場合もあるが、何も言われなくても、まともな翻訳家なら、特許の明細書には全角アラビア数字を使うし、ユーザーマニュアルは敬体で訳す。また、特許では正確さを優先し、マニュアルではわかりやすさを優先する。映像翻訳なら、吹き替えでは口の動きを合わせるし、字幕では文字数を少なくする。

その点で、翻訳は囲碁よりも自動車の運転に近い。運転にもやはり正解がない。だから自動運転はまだ実用にいたっていない。もっとも、運転では事故を起こさず目的地に着くというわかりやすい基準があるが、翻訳にはそれもない。機械にとっては、翻訳は運転より学習が難しい。自動翻訳が自動運転より先に「実用化」されているのは、自動運転が人命にかかわるのに対し自動翻訳がそうではないからだ。実際には、自動翻訳より自動運転の方が実用レベルに近い。

その4に続く。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

二〇一六年 師走 廿四日 土曜日

A Happy New Year か Happy New Year か [/language]

「あけましておめでとう」を英語で何と言うか。多くの日本人が A Happy New Year だと答えるだろうが、それは誤りで Happy New Year が正しいと言う人が増えた。Merry Christmas や Happy birthday には A がつかないので、Happy New Year にも A をつけてはいけないと言うのだ。

それはそれでなるほどと思うが、こんなページを見つけた。


「A Happy New Year」の「A」について


「某カトリック系学校」の英語話者に聞いたところ、ほぼ全員が「どっちでもいい」という反応だったという。

考えてみれば、英語圏には年賀状なるものがない。「あけましておめでとう」に対応する挨拶もない。それを英語で何と言うのが正しいのか、と聞かれても、「知らん、どうだっていい、好きにしろ」というのが素直な反応だろう。どのみち、日本人が日本人に言うことしかないのだから。

(上記のページには「『A』を付けた場合どういう意味になるかと言うと、文面としてみれば『よいお年を!』的なニュアンスになるようです」とあるが、そんなことはない。英語圏で「あけましておめでとう」という挨拶を使うことはないが、「よい〜を」という挨拶は頻繁に(1日に何度も)用いる。だから英語としては「よいお年を!」的なニュアンスになるわけで、A があるかないかは関係ない。)

日本人が長年慣用的に A Happy New Year と使ってきたのだから、それが正しい英語でいいのだ。「A がないほうがネイティブっぽい」と言うならその通りだが、「A がついているのは間違い」と言い出すのは、英語至上主義か、その裏返しの英語コンプレックスの表れだろう。

そもそも、なぜ日本人から日本人に送る年賀状に英語でメッセージを書こうとするのだろう。英語を習い始めたばかりの中学生なら、英語で書いてみたい、英語で書いたほうがかっこいい、と思うのもわかる。日本語を習っている米国人なら、ホリデーカードを日本語で書きたいと思うかもしれない。しかし、それを日本人宛てに出すことはあっても、日本語を知らない米国人宛てに出すことはないだろう。

A をつけるかつけないかと悩むくらいなら、素直に日本語で書けばよいのではないか。

[この記事だけを読む。] [この記事にコメントを書く。] [最新の記事を読む。]

[もっと古い 5 件の記事を読む]

RSS feed

カテゴリ

[/language] (98)
[/links] (254)
[/mac] (114)
[/music] (36)
[/origami] (406)
[/this_blog/ajax] (7)
[/this_blog/blosxom] (4)
[/this_blog/history] (12)
[/this_blog/perl] (9)

最新記事

パスワードについてのあなたの常識はもはや非常識かもしれない・その1 [/links]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]
HTTPS 対応 [/links]
ひらがな・カタカナ学習ウェブアプリ [/links]
日本語の「た」と英語の過去形 [/language]
ORI-REVO で回転楕円体を折る・その2 [/origami]
ORI-REVO で回転楕円体を折る・その1 [/origami]
折り紙建築 [/origami]
折鶴に松図小柄 [/origami]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その6 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その5 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その4 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その3 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その2 [/links]

羽鳥 公士郎