Google翻訳の精度はなぜ上った? どんなしくみ? 翻訳者はもう不要?

このところ精度が上がったと話題のGoogle翻訳。「どうして精度が上がったの?」「自動翻訳が進化したら、人間が翻訳する必要はなくなるの?」こんな疑問を、機械翻訳について研究されている名古屋大学の中岩浩巳先生にお聞きしました!

中岩浩巳(なかいわ・ひろみ)
名古屋大学大学院情報科学研究科メディア科学専攻・特任教授、博士(工学)。アジア太平洋機械翻訳協会・会長。一般財団法人日本翻訳連盟・幹事。専門は、言語文脈理解技術。文脈を踏まえて自然言語をコンピュータに理解させるための機構・資源・翻訳について研究している。

仕組み ">Google翻訳の精度を上げた、新しい 仕組み

――少し前まではあまり実用的ではなかった自動翻訳ですが、今ではかなり精度が高まりましたよね。何か大きな変化があったんでしょうか?

 

中岩:そうですね。機械翻訳の 仕組み は、ここ40年で大きく変わってきました。1970年代後半には「ルールベース翻訳」という 仕組み が一般的だったのに対し、90年代以降は「統計翻訳」が主流となってきました。

 

――ルールベース翻訳と統計翻訳。それぞれどんな 仕組み なのですか?

 

中岩:まずルールベース翻訳とは、「この単語はこう訳す」というルールを機械に登録し、そのルールに沿って翻訳していく 仕組み です。英語であれば、文法や単語の意味などをひとつひとつ登録していく必要があります。

ただこの 仕組み ですと、ルールに当てはまらないものが出てきた時に、困ってしまうんですよね。

 

――たしかに。ルールを登録しなければならないとなると、限界がありそうですね。

 

中岩:そこで、1990年頃に統計翻訳という 仕組み が登場します。統計翻訳は 大量の対訳データを解析し、その統計結果から適した訳し方を割り出す 仕組み です。統計的な考え方を用いるので、統計翻訳と呼ばれています。

この統計翻訳が広まった裏には2つの理由があります。1つ目は、統計翻訳のソフト『Moses』がフリーで公開され、誰でもこの 仕組み を活用できたこと。2つ目は、統計翻訳がルールベース翻訳よりも人間の脳に近い言語 処理 方法だということです。人間の脳も、ルールで解析するのではなく対訳データから学んでいますからね。この 仕組み で、機械翻訳のさらなる精度向上を狙ったのです。

 

――子どもの頃、文法などがわからなくても言葉が話せるようになるのは、「こういう状況では、このような表現をする」と学んでいるからですもんね。

 

中岩:そうですね。この統計翻訳という 仕組み は、対訳データの量がカギとなります。基本的に、対訳データが多くなればなるほど、精度が高くなるんです。統計翻訳が出てきた当初は対訳データの量が 不足 していたり、計算に時間がかかったりしていました。

しかしこの問題点は、その後Webの時代に突入したことで解消されます。 Webの登場によって大量の対訳データが流通し、コンピュータの精度も上がって高速 処理 が可能になった のです。これが機械翻訳における、ひとつのブレークスルーでした。

Google翻訳は、なぜ急に精度が向上したのか

――最近精度が向上したと話題のGoogle翻訳も、統計翻訳の 仕組み を採用しているのですか?

 

中岩:Google翻訳の場合は、 ディープニューラルネットを積極的に活用した翻訳方式によって、精度が一気に向上した と思われます。

 

――「ディープニューラルネット」とはどんなものですか?

 

中岩:ディープニューラルネットは、機械学習のアルゴリズムの1つです。

それまでの統計翻訳では単語ごとの対訳データで翻訳をしていくイメージでした。一方でディープニューラルネットを使った翻訳方式では、単語の意味だけでなく接頭辞や語幹、単語の位置なども考慮し、 自然な文の流れを 分析 して翻訳できるようになった のです。

 

――なるほど、より細かい次元で翻訳することが可能になったのですね。

 

中岩:そうです。ディープニューラルネットを用いたことでより細かい翻訳に対応することができるようになりました。

また、 先に 申し上げた通り統計翻訳はデータの量がカギとなります。大量のクラウドデータを持っている企業、例えばGoogleやBing、中国のバイドゥ(百度)などは、データ収集の点で有利だと言えるでしょう。

 

――中岩教授から見て、Google翻訳はどのような印象なのですか?

 

中岩:データ量もケタはずれで、データの扱い方も上手いですよね。ディープニューラルネットは多層構造になっているので計算量が多く、 時間がかかる のが難点でした。しかしGoogleは情報 処理 の速いコンピューターを導入するとともに、計算アルゴリズムを工夫することでその点を解消したのです。

また、Google翻訳自体は無料で提供されていますが、その翻訳データを集めて別サービスで収入を得ている点も、上手くまわしているなと思います。

おそらく昔は対訳データが足りていなかったと思うのですが、今は網羅的に対訳データを収集できていることも、精度向上の一因となっていると思います。

それと、Googleには優秀な人材が集まっているのも強みですね。機械翻訳に関する人材は 不足 していて、私が出席する学会にも企業からのスカウトが多く来ています。

 

――優秀な人材が集まっていることと、網羅的にデータ収集ができることが、Google翻訳の大きな強みなのですね。

 

中岩:そうですね。通常ならば、分野ごとに対訳データを集めて、その分野の翻訳に活かすのが最も効率的です。例えば特許関連の資料を翻訳しようと思ったら、特許資料の対訳データを機械に学習させて、翻訳するのが一番近道ですよね。

しかしGoogleはWeb全体の対訳データを網羅的に集めることが可能で、分野ごとに集めるというプロセスを経る必要がありませんでした。

ただ、ユーザーが訳そうとしている分野ごとに訳語を変えるなどの調整はしていると思いますよ。例えば利用履歴に基づいて翻訳のスタイルを変えるとか。そういった 仕組み は導入している 可能性 があります。

 

――なるほど。数年前までは「自動翻訳?そんなに精度が高くないから、参考程度にね」なんていう声も多かったように思うのですが、急に成長しましたね。

 

中岩:今、 機械翻訳の世界は激変期 なんですよ。学者の間でも、2年前までは統計翻訳の研究をしていた人が多かったように思いますが、今やニューラルネットを活用した翻訳研究をしている人がかなり増えました。

それまでは単語の意味をつなげていくだけの訳し方でしたが、ディープニューラルネットが実現できたことで、かなりフレキシブルに翻訳ができるようになりました。 今後 活用できる場所はどんどん増えていくことでしょう。

自動翻訳に対する翻訳会社や翻訳家の反応は?

――Google翻訳などの自動翻訳サービスが発展した、翻訳業界はどのような状況にあるんでしょうか?

 

中岩:翻訳業界は今、グローバルな競争の時代です。欧米系の企業では、既に自動翻訳を使って 作業効率化 するのがスタンダードになっています。海外の企業からしてみれば、日本語 に関して も同じように自動翻訳で 作業 効率をアップすることを期待されるでしょう。

だからこそ、日本の翻訳会社も自動翻訳を使っていかないことには、生き残ることは難しいと思います。

 

――翻訳会社や翻訳家の方々は、自動翻訳に対してどのような反応をしていますか?

 

中岩:一概には言えませんが、先進的な企業や個人は興味を持っています。そういう人々は自動翻訳サービスに「仕事を奪われる」というよりも、活用することで「仕事が増える」と考えています。 作業効率化 されれば、今よりも安く早く翻訳結果を提供することができます。結果的に「仕事が増える」ということです。

 

ー―日本の企業で、実務に自動翻訳を生かしているところはありますか?

 

中岩:自動翻訳とは少し違いますが、言語 処理仕組み に関して は、積極的に活用しようとしている企業も多いです。

例えばECサイトを運営している会社だったら、顧客に適した商品をオススメするために、顧客の言語データから思考を 分析 するとか。カスタマーセンターでの会話を 分析 して、商品開発に生かすなどの試みもあります。

ただ自動翻訳 に関して は、日本ではまだまだこれからといった印象ですね。

 

――日本語と英語は文のつくりが違うので、自動翻訳の 仕組み をつくるのも難しそうです。既に日英・英日の翻訳でも実務で活用できるレベルになっているのでしょうか?

 

中岩:特定の分野であれば、既に活用できるレベルだと思います。公文書などの実務翻訳といったような、ある程度定型文が決まっている分野ですね。

ただ欧米言語に比べると、日本語の自動翻訳は発展途上です。欧米の言語は文のつくりも似ていて翻訳しやすいですが、日本語は同じようにはいきません。

それと、精度を高めるためには日本語の対データの数がもっと必要だと思います。

日本の課題は企業間の対訳データを共有すること

――日本語の対訳データの数は、足りていないのですか?

 

中岩:そうですね。日本のグローバル企業なんかは、対訳データをたくさん持っています。例えば商品の説明書ひとつとっても、日本語版の説明書と英語版の説明書があるわけですから、そこに対訳データが生まれますよね。ただ、社内では共有できても、社外に出すこと に関して は積極的ではないのです。

 

――データ共有に積極ではないのは、なぜでしょうか?

 

中岩:結局は手の内を明かすような形になってしまうので、なかなか積極的に外に出すのは難しいのでしょう。

クラウド上でそういった対訳データを蓄積していければ良いのですが、日本の企業は「クラウドで 保管 するのは不安、自社サーバーの方が 安心 」と考えるところが多いですからね。安全性に対する 懸念 が強いのが実情です。

 

――自動翻訳が進んでいる欧米では、どのように共有しているのですか?

 

中岩:欧米では、日本よりも対訳データの共有に対してオープンです。 例えば  TAUS という翻訳ツールのプロモート組織では、会員になるために自社の対訳データを登録することが期待されています。会員になれば、他の会員が登録したデータを使うこともできるので、翻訳 に関して 協力 関係を築けるのです。

 

――日本では、組織的にデータ収集をしようという動きはないのですか?

 

中岩:日本でもデータを収集するための動きが複数あります。例えば総務省が打ち出している「 グローバルコミュニケーション計画 」では、2020年の東京オリンピックに向けて「言葉の壁」をなくすための動きがあります。

また、研究者によって、データ収集プロジェクトも複数立ち上がっています。こういった動きが活性化することで、日本語の対訳データも集まっていくと思います。

人が翻訳する必要はなくなるの?

――対訳データが集まることで日本語の自動翻訳もますます精度が向上していくと思うのですが、将来的に人が翻訳する必要はなくなりますか?

 

中岩:それはないですね。人がまったく翻訳しなくて良くなるということはないと思います。と言うのも、データが取りにくい分野も多くあるからです。えば通訳などは、現状のところデータが十分ではないと思います。

また新聞などを翻訳しようと思ったら、文字数の上限がありますよね。文字数をふまえた上で翻訳するのは、自動翻訳では難しいでしょう。

それと、小説などの読み物も難しいですね。映画の字幕も、もはや翻訳というよりは創作です。こういった人の感情を揺さぶるための翻訳は、機械にはできないと思います。人間の創造性や知性が必要な部分まで、自動翻訳がカバーすることはできません。

 

――人が翻訳する部分は、なくならないのですね。

 

中岩:そう思います。ただ、自動翻訳を活用しなければ生き残れないという流れは、もう止めることができません。 日本語は欧米言語とは大きく構造が異なるので、まだそれほど自動翻訳の活躍が目立ってはいませんが、これからの翻訳業界は確実に自動翻訳と上手く付き合わなければならなくなります。

翻訳を勉強している人は、環境の変化を意識してカリキュラムを組むことが大事です。先進的な大学では、既にそのようなカリキュラムになってきています。

 

――上手く付き合うというと、 具体的に はどのようなことになりますか?

 

中岩:例えば今まで100%人の手で翻訳していたところを、自動翻訳を活用すれば30%に削減できるなど、 効率化 をはかることができます。

また、求める品質によっては自動翻訳だけに頼ることも可能でしょう。情報収集などで自分が読むだけの資料であれば、内容が理解できるレベルで良いですよね。自動翻訳で英語の記事を日本語に変換し、ちょっと変なところがあっても意味が理解できれば良いと思います。

一方で 外部に出す文章は、自動翻訳に100%頼るのは難しいでしょう 。情報を出す側には責任もありますし、誤解を与えない表現になっているか、正しい文章になっているかなどは、 今後も 人がチェックする必要があります。

まとめ

「自動翻訳と上手く付き合わなければならないという翻訳業界の流れは、止めることができない」というお話が印象的でした。 一方で、 今後も 翻訳に人の手は必要であると、中岩教授は 指摘 しています。すべてを自動翻訳に頼るのではなく、上手く活用するのが最も良い付き合い方なのです。 これから自動翻訳がどれだけ進化していくのか、どのように活用されていくのか、要注目ですね!

取材 協力アジア太平洋機械翻訳協会

こちらもおすすめ!

構成・文:GOTCHA!編集部
GOTCHA(ガチャ、g?t??)は、I GOT YOUから生まれた英語の日常表現。「わかっ た!」「やったぜ!」という意味です。英語や仕事、勉強など、さまざまなテー マで、あなたの毎日に「わかった!」をお届けします。

ChatGPT翻訳術 新AI時代の超英語スキルブック

AI翻訳研究の第一人者が教える! ChatGPTの翻訳活用術!

ChatGPTなどの生成AIの登場によって、ChatGPT語を使ったコミュニケーションに、新たな時代の扉が開きました。本書では、AIによる翻訳技術を上手く使いこなし、外国語の壁を乗り越える「これからの時代に求められる」英語スキルを身につけられます。英語のメール、プレゼン、広告、レポート、etc...、あらゆる英語の発信に対応するためのノウハウが満載です。

本書の特徴
まず、AIを上手く操るために言語をどのように捉えればよいのかを理解し、ChatGPTへの指示(プロンプト)をどう書いていくのか、という活用方法を深めていきます。

技術の進化に左右されない核心的な言語スキルが身につく一方、今日からすぐに使える便利なテクニックも満載です。

本書の構成
Chapter 1 AI翻訳の進化の核心を掴む
Chapter 2 AI翻訳を駆使する「言語力」を身につける
Chapter 3 ChatGPTで翻訳する
Chapter 4 実践で学ぶChatGPT翻訳術
Chapter 5 AIと英語学習の未来予測

購入特典:プロンプトテンプレート集
本書掲載のプロンプト(ChatGPTへの指示)のテンプレートを集めたウェブサイトを用意しました。本書の内容を、今日からすぐに実践に移すことができます。

SERIES連載

2024 12
NEW BOOK
おすすめ新刊
キクタンタイ語会話【入門編】
詳しく見る