blog.鶯梭庵

二〇一八年 睦月 卅日 火曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]

その4から続く。

機械翻訳に限らず、人工知能が人間の仕事を奪うのではないかという議論がよくある。機械翻訳についての私の考えでは、品質度外視のボランティアおよびそれに毛の生えたような翻訳は機械にとってかわられるとしても、プロの翻訳家の仕事がなくなることはないだろう。ただし、仕事の内容が変わる(あるいは変える)ことは避けられないだろう。

もちろん、自動車の自動運転でレベル4にあたるような、限定された領域での完全な自動翻訳では、人工知能が人間の翻訳者にとってかわることになる。その場合は翻訳家の仕事はなくなるが、それを実現できるのは、その領域で過去の翻訳が膨大に蓄積されている場合に限られる。

今の人工知能のアルゴリズムでは、領域が少しでもずれてしまうと、とたんにうまくゆかなくなるようだ。たとえば Google の画像認識では、黒人の写真に「ゴリラ」というタグがつけられてしまうという問題がある。これが話題になったのは 2015 年だが、いまだに解決できておらず、現在は「ゴリラ」というタグを削除している。

想像するに、白人の顔に最適化されたシステムでは黒人の顔をうまく認識できず、さりとて白人と黒人の両方に最適化されたシステムを作ることはまだできないということなのだろう。翻訳でいえば、特定のソフトウェアメーカーの製品に最適化された自動翻訳システムを作ることができても、それを別のメーカーの製品に使えるとは限らないということになる。

したがって、新しいメーカーや新しい製品に関する翻訳では、引き続き人手による翻訳が必須となる。ただし、その人力翻訳はますます機械翻訳で支援されるようになるだろう。現在広く行われている機械翻訳+ポストエディットも機械翻訳により支援された人力翻訳であるし、より効率的なシステムが将来できるかもしれない(私は翻訳者として、そういうものがほしいとつねづね思っている)。

ニューラル機械翻訳が登場する前は、欧米語同士の翻訳はともかく、たとえば英日翻訳では、機械翻訳の品質が低すぎて、人力翻訳を機械翻訳で支援しようとしても生産性は全く上がらず、むしろ下がるくらいだったが、ニューラル機械翻訳によって英日翻訳でも機械翻訳が翻訳支援として役立つレベルになった。

しかし、機械翻訳によって翻訳者の処理能力が向上すると、分量当たりの単価は低下する。機械翻訳の支援を利用しない翻訳者にとっては、単価の低下は単純に収入の減少を意味する。そのような翻訳者は生き残ることができないだろう。逆に、クライアントからすれば、分量当たりの単価が下がるのは大歓迎だ。しかし、あまり単価が下がりすぎて、翻訳者の時間当たりの収入が下がるようでは、優秀な翻訳者が仕事を断るから、訳文の品質が低下する。

これはよく考えれば当たり前のことで、機械翻訳を使っても翻訳をするのは人間だから、対価をケチればそれなりの品質しか得られない。そのため、クライアントがある程度の品質を求めるなら、単価はある程度の水準に落ち着くだろう。その水準は、翻訳者にとって時間当たりの単価がいままでと変わらないような水準であるに違いない。

もっとも、現実には、多くの場合クライアント(正確にはソースクライアント、つまり発注者)は訳文を読めないから訳文の品質を判断できず、いきおい単価が安ければ安いほどよいとなりがちだ。ただし、これは機械翻訳とは別の問題で、翻訳一般に対価は(品質も)下がる傾向にある。この方が翻訳業界にとって機械翻訳よりも大きな問題だろう。

[この記事だけを読む。] [この記事にコメントを書く。] [このカテゴリをまとめて読む。]

二〇一七年 師走 卅日 土曜日

ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]

その3から続く。

自動車の自動運転には、いくつかのレベルがある。現在、公道を走る自動車ではレベル2(部分的な自動運転)までが実用化されており、2018 年にレベル3(特定の条件下での自動運転)を実現した自動車が販売されるという。レベル3までは、人間のドライバーが運転の責任を持つ。機械で対応できるうちは機械が人間の代わりに運転してくれるが、人間は常に運転状況を監視して、機械で対応できなくなったらすぐに運転を換わらなければならない。言ってみれば、機械は人間の運転を支援するにとどまる。

レベル4になると、特定の条件下で機械が運転の責任を持つ。人間は何もしない。現状では、鉱山などのような極めて限定された状況に対応できるシステムが実用化されている。レベル5は完全な自動運転であり、あらゆる条件下で機械が運転する。この実現はだいぶ先になるだろう。

さて、この自動運転のレベルを翻訳に当てはめてみよう。現在多くの翻訳者が使っている翻訳支援ツール(CAT ツール)も、一種の自動翻訳をする。具体的には、入力された原文に対して過去の翻訳のデータベースを検索し、完全に一致する原文があったら、それに対応する訳文を出力する。しかし、原文が文レベルで同一であっても異なる文脈では別に訳さなければならない場合があるので、本来は機械が出力した訳文を人間の翻訳者が逐一チェックしなければならない。原文が同一という条件があることも考え合わせれば、CAT ツールを使用した翻訳はレベル3に相当すると言えるだろう。

実際の翻訳の現場では、原文が過去の原文と完全に一致している場合に、人間の翻訳者が全く作業しないことがある。だからといってレベル4が実現されているとは言えない。人間の作業を省略するのは、訳文が多少不自然になることがあってもかまわないからコストを削減しようということだ。一方、自動車の運転では、不自然な運転は命にかかわる。不自然な運転でもよいからドライバーの負担を軽減しようというのでは、実用化されたとはいえない。

ニューラルネットワーク翻訳を含めたいわゆる自動翻訳でも、現状では訳文の品質が保証されないので、業務としての翻訳では機械に翻訳を任せることはない。機械が訳した訳文を人間の翻訳者が直している。この修正作業を「ポストエディット」と呼ぶ。これにより品質が保証されるが、訳文に責任を持つのは翻訳者だから、自動運転のレベルで言えばやはりレベル3になる。

とはいえ、ニューラルネットワークを使った場合、分野を限定すれば十分な量のデータを集めて十分な学習をさせることができ、人間が何もしなくても済むような品質が得られる場合がある。たとえば Microsoft のサポートサイトでは、以前から人間が翻訳したページと機械が翻訳したページが混在していたが、Microsoft がニューラル機械翻訳を採用した後で機械翻訳されたページは、人間が訳したページとほとんど遜色がない。Microsoft の製品のサポートという限定された分野ではあるが、人間の介入を必要としないという点で、レベル4の自動翻訳が実現されていると言ってよいだろう。

では、レベル5の自動翻訳、すなわちあらゆる分野に対応できる汎用翻訳エンジンはできるだろうか。これまで述べてきたように、不可能とは言わないとしても、極めて難しい。Google 翻訳などは汎用翻訳エンジンを目指しているのかもしれないが、現状の品質は、自動運転で言えばあちこちで交通事故が起こるようなレベルだ。機械翻訳の訳文をそのまま使える場面は、自分が理解できない言語の文章があって、大まかでもよいから意味を知りたいというときに限られる。自分が書いた文章を他言語話者に読んでもらうためには使えない。

その5に続く。

[この記事だけを読む。] [この記事にコメントを書く。] [このカテゴリをまとめて読む。]

二〇一七年 霜月 卅日 木曜日

HTTPS 対応 [/links]

www.ousaan.com 以下のベージをリニューアルした。ついでに、このブログを含めサイト全体を HTTPS 化した。

もう何年も前から、すべてのウェブサイトは「常時 SSL 化」すべしと言われている。SSL とはデータを暗号化して通信するプロトコルであり、常時 SSL とは、ウェブサイトの全てを暗号化することだ。実際のところ、SSL には脆弱性が見つかっていて、今では TSL が使われているのだが、それでもウェブの暗号化通信を「SSL」と言うことが多い。

従来は、ユーザーが情報を入力して送信する画面のみ暗号化することが多かったが、ウェブサイトに対する攻撃が巧妙になり、それでは安全が確保できなくなった。Google は、常時 SSL 化を促進するため、常時 SSL 化されていないウェブサイトのランクを下げているし、Chrome で暗号化されていないページにデータを入力しようとすると警告を出すようになった。

かつては、SSL の導入には少なからぬ費用がかかったので、個人のウェブサイトを SSL 化するのは敷居が高かった。しかし、昨年から Let's Encrypt が無料で SSL の提供を始め、SSL 化しない理由がなくなった。

私はウェブサーバーを引越ししたいと考えていて(メールサーバーはすでに FastMail に引っ越した)、そのタイミングで SSL 化しようと思っていたが、引越しのスケジュールが延び延びになっていた。そんな折り、現在使っている Lolipop では数回のクリックだけで Let's Encrypt による SSL 化ができることに気がついて、勢いで設定した。常時 SSL 化のためには、サイト自体の暗号化に加えて、HTTP へのアクセスを HTTPS へリダイレクトする設定が必要だが、これはそれほど難しくない。

しかし、画像の読み込みなどで参照先の URL を変更する必要がある。これはなかなか骨が折れるが、いずれにせよサーバーを引っ越すためにすべてのデータを変換する必要があるので、それに合わせて変更することにする。

[この記事だけを読む。] [この記事にコメントを書く。] [このカテゴリをまとめて読む。]

二〇一七年 神無月 廿九日 日曜日

ひらがな・カタカナ学習ウェブアプリ [/links]

私の娘はいま3歳なのだが、ひらがながだいぶ読めるようになった。こういうのは、何歳になったら始めるとかではなくて、本人が関心を持ったタイミングで進めるのがよい。私の娘は今が文字を読みたい時期のようなので、このタイミングを逃してなるものかといろいろ試しているなかで、ひらがなとカタカナを学習するためのウェブアプリを作った。

なにを よむ?

まだ五十音の全てをカバーできていないので、今後問題の数を増やすつもりだが、ひとまず人様に見せられる段階になったと思うので、公開する。小さい子供がいる親御さんに活用していただけたらと思う。

[この記事だけを読む。] [この記事にコメントを書く。] [このカテゴリをまとめて読む。]

二〇一七年 長月 廿三日 土曜日

日本語の「た」と英語の過去形 [/language]

「着いたら連絡して。」を英語でなんというか。"Call me when you arrive." でよいが、"... arrived." と過去形にする誤りが、日本人に多い。「着いたら」に「た」があるので、半ば自動的に過去形にしてしまうのだろう。しかし、この場合、着くのは過去ではなく未来だ。英語では過去形は使えない。では、なぜ日本語では未来の出来事に「た」を使うのか。

「た」は古くは「たり」であり、「たり」は「てあり」の約だとされる。そして、「てあり」は「つ」と「あり」が繋がったものだとされる。「つ」は完了を表す。したがって、「た」の元々の意味は「動作が完了した状態がある」ということだ。「た」の本義は過去ではなく完了であり、だからこそ未来の出来事にも「た」を使える。

一方、英語の過去形も、必ずしも過去の出来事を表すとは限らない。仮定法("If I were you, ..." など)や婉曲表現("I would like to ..." など)でも過去形を使う。英語の過去形は、発話状況から隔たりがあることを示す。過去の出来事が現在から切り離されている場合は過去形を使うが、過去の出来事の影響が現在までおよんでいたら現在完了形を使う。過去の出来事に過去形を使うと、現在からの隔たりが表現される。現在の出来事に過去形を使えば、それが事実と異なることが含意される。これが仮定法だ。また、自分の要望を過去形で言えば、間接的でかしこまった表現になる。

日本語の「た」は完了を表し、英語の過去形は隔たりを表す。両者は元来別物なのだが、過去の出来事を言い表す場合、たまたま日本語では「た」を用い(かつては「き」や「けり」で過去を表したが、今は使われない)、たまたま英語では過去形を用いる。そのため、日本語の「た」と英語の過去形が同じ意味だと思い込んでしまうのかもしれないが、「た」を訳したらいつでも過去形になるわけではないし、その逆も然り。日本語の「た」と英語の過去形は、用法が似ているというだけで、同じ意味ではない。

[この記事だけを読む。] [この記事にコメントを書く。] [このカテゴリをまとめて読む。]

[もっと古い 5 件の記事を読む]

RSS feed

カテゴリ

[/language] (98)
[/links] (253)
[/mac] (114)
[/music] (36)
[/origami] (406)
[/this_blog/ajax] (7)
[/this_blog/blosxom] (4)
[/this_blog/history] (12)
[/this_blog/perl] (9)

最新記事

ニューラルネットワークとディープラーニングで翻訳はどうなる・その5 [/language]
ニューラルネットワークとディープラーニングで翻訳はどうなる・その4 [/language]
HTTPS 対応 [/links]
ひらがな・カタカナ学習ウェブアプリ [/links]
日本語の「た」と英語の過去形 [/language]
ORI-REVO で回転楕円体を折る・その2 [/origami]
ORI-REVO で回転楕円体を折る・その1 [/origami]
折り紙建築 [/origami]
折鶴に松図小柄 [/origami]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その6 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その5 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その4 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その3 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その2 [/links]
改訂版・たぶん、ほとんどの人は viewport meta タグの指定をまちがえてる・その1 [/links]

羽鳥 公士郎