前回のコラムでは従来型の言語ルールにもとづいた機械翻訳について書きましたが、今回は、改良されてきた段階の機械翻訳についてもう少し説明していきます。
辞書の延長上で意味は通じても、なんか怪しい感じがしていたルールベースの機械翻訳から、どうすれば人の翻訳に近づくことができたのでしょうか。
人も様々で、十人十色というように、文章を書かせれば皆様それぞれ文章の書き方は違います。
個性といってもよいでしょう。
以前は翻訳者の人が「これが正しい」といえば、その人の信用次第で正とされていたのかもしれません。こうした人それぞれの解釈のある翻訳があるなか、なにをもって一般的だと判断したらよいのでしょうか。
この答えを決めるものとして、統計的に有意なものを正と判断する考えが生まれました。
皆様が日ごろ使っている言葉、これが一般的であることはいうまでもありません。
言語は時代によって変化し元の意味と変わってしまう言葉も生まれます。
今の時代、より多くの人が使っている表現に基準を求めるため、多くの翻訳者が訳した文章、使った言葉を機械が翻訳していくことです。
いわゆる、統計型機械翻訳と呼ばれるものです。
「本屋」という言葉を例とすれば、「書店」と呼ぶ人もいれば、「ブックストア」と言う人もいます。
どういった内容の文章、文脈で使用されているのかによって、自然に使い分けされている傾向があるかもしれません。
例えば、小さなお店は「本屋」と呼び、大型店舗で店員も大勢いる場合は「書店」と呼ぶ傾向があるとします。
その場合、自然と店舗の大きさで呼び名の違いが生まれる確率が違ってくるでしょう。意味のニュアンスの差というものと理解頂いてOKです。文章のジャンルや目的に応じて訳し分ける傾向を統計的視点から機械翻訳したのです。
このことにより機械翻訳と呼ばれるものの品質は向上されていきました。
しかし、小さな本屋さんでも出版業界などでは書店と呼ぶ場合も多々あり、その使い分けは店舗の大きさだけでは言い切れないのも事実です。統計型機械翻訳の限界はサンプルから得た統計値にのみ頼っているところにあります。より自然な翻訳は機械で実現できるのでしょうか。
次回は Adaptive MT の学習、ディープラーニングについて書こうかと思います。
お楽しみに。