機械翻訳

論文翻訳で加速する科学の進歩

文献レビューは、論文執筆において不可欠です。研究題目に関する基礎知識だけでなく、研究を裏付けし、促進するための論拠を特定し、重複を避けるのにも役立ちます。技術革新により、かつてないほど簡単に情報共有ができるようになりました。また、英語で出版される論文数が増え、世界の研究が共有されることで科学の進歩は加速しています。 なぜノンネイティブ研究者による文献レビューに論文翻訳が有効なのか? ポーランド出身のマリー・キュリーはフランス語で論文を出版し、ドイツ出身のアルベルト・アインシュタインは最初の論文をドイツ語で書き、イングランド出身のアイザック・ニュートンは『プリンシピア 自然哲学の数学的原理(原題:Philosophiæ Naturalis Principia Mathematica)』をラテン語で記しましたが、今では、どのような分野の研究論文を発表するのにも英語が使われるようになっています。 英語以外の言語の使用割合は年々低下し、近年では英語がネイティブか否かに関わらず、出版されている科学論文の98%は英語で書かれているとのことです。これは裏を返せば、英語を母語としないノンネイティブの研究者の中には、情報に「アクセス」できても研究内容を「理解することが難しい」人もいる可能性を示します。その場合、公開されている論文にアクセスし利用するために、翻訳が有効なのです。 機械翻訳の進歩は論文翻訳の精度向上につながったか 機械翻訳とは、米科学者ウォーレン・ウィーバーが1947年に提起した概念であり、以降、日々進歩してきました。最新技術であるニューラル機械翻訳(NMT)は、ニューラルネットワーク、ディープラーニング(深層学習)といった人間の脳のニューロンの活動を単純化したモデルを採用することで、それまでの機械翻訳では難しいとされていた翻訳精度を飛躍的に向上させました。単語ではなく文全体を1つとして捉えることで、より高い精度の翻訳を実現したのです。世界の研究にアクセスし、自分の研究の基礎固めをするために英語論文翻訳を必要とするノンネイティブ研究者にとって、ニューラル機械翻訳の自動かつ迅速な論文翻訳は大いに役立っています。 なぜ論文翻訳が研究にとって重要なのか 簡単に言うと「1つの発見は別の発見につながる」からです。新型コロナウイルスは、知識の共有と協力する努力が対策を進めるための道筋となることを示したひとつの例です。1つ1つの研究成果は、それが成功したかしないかにかかわらず、後続の研究を成功に導く糧となるのです。つまり研究者にとって、自分の活動地域や言語に制限されることなく、あらゆる先行研究にアクセスし、内容を理解することが非常に重要なのです。ほとんどの論文が英語で出版される中、論文翻訳は英語に不慣れな研究者の言語ギャップを埋めることに役立っています。機械翻訳は、どのような言語で書かれた論文であってもそれを翻訳し、参照するための便利なオプションのひとつであり、研究者がより広範な文献レビューを行う助けとなります。研究者が自分の研究成果を向上させられる可能性のある幅広い参考文献にアクセスできることを意味しているのです。 論文翻訳において翻訳者と機械翻訳をどう使い分けるのが得策か 機械翻訳がいつか人間の翻訳者よりも優先される日が来るのでは―という話はよく話題にされますが、それぞれの翻訳には特有の長所と短所があり、いろいろな意味で双方が補い合うことが可能です。例えば翻訳者はコストとスピードでは機械翻訳に勝てませんが、機械翻訳は正確さと、あまり使われない言葉や研究分野に特化した言い回しの翻訳において完璧ではありません。そのため研究者は、翻訳者と機械翻訳の両方の利点を使いこなすことが最適解と言えるでしょう。既存の研究論文の大まかな概要把握には機械翻訳を利用し、学術雑誌(ジャーナル)に投稿するための翻訳には専門的なサービスを提供している翻訳会社に依頼するのが、時間とコストの削減につながるでしょう。 参考文献 Does…

英語が苦手でも英語論文を読める最強の翻訳ツール

論文執筆のためのリサーチで、必要な情報にアクセスできないことほどもどかしいことはありません。論文の参考となる完璧な研究論文を見つけたとしても、それが英語で書かれていて理解できないとすれば、大いに問題です。 このような言葉の壁に直面したとき、最初に思いつくのは、Google翻訳やDeepLなどの一般的な翻訳ツールに頼ることかもしれません。しかし、機械翻訳(MT)に飛びつく前に、研究ニーズに最も適したツールを選択することをおすすめします。どの翻訳ツールも同じと思われるかもしれませんが、間違った翻訳ツールを選んでしまうと、作業効率が落ちる可能性があります。 ここでは、英語論文を読むための最も信頼できる翻訳ツールを選ぶ際に考慮すべき重要な要素について見ていきます。 その機械翻訳は使用言語に適しているか それぞれの翻訳ツールがすべての言語ペアに対応していないように、使おうとしている翻訳ツールが使用言語で英語論文の翻訳に適した訳出ができる十分な技術が備わっているかを確認する必要があります。 例えば、英語からトルコ語に論文を翻訳したい場合、みらい翻訳は適したツールではないでしょう。 採用している技術によって、特定の言語の組み合わせを管理する能力は異なるのです。この性質は翻訳後言語の希少性に応じて、より顕著に表れます。希少言語への対応には、あらゆる言語のニーズに対応できる ユレイタスのような翻訳会社を選択することが最良の選択でしょう。 論文を複数の言語に翻訳したい場合は、それぞれの言語ペアに最も適合する 機械翻訳エンジンを組み合わせて使用すると効果的ですどのツールが最も良い出力結果を得られるかを確認したい場合は、文書の一部で試してみて、目指す訳文に一番近いツールを確認することができます。 研究分野に対応できるか 使用する言語ペアに強いツールであることは大前提ですが、論文に使用されている特有の専門用語を翻訳できるツールであるかどうかも重要なポイントです。例えば、医療や法律の分野で使われる用語は、非常に専門性の高いため、機械では意味を汲み取ることができないことが多いのです。 さらに、新しい医療機器について書かれた論文など新情報の多い内容を翻訳しようとすると、まだ多くの単語に機械学習が対応できず、理解不能な訳文のまま出力されることがあります。そのため、専門分野に対応した翻訳を行うには、その分野の翻訳に特化したツールが必要です。 訳文の精度 どの翻訳ツールが論文に適しているかを判断するための最も重要な指標は、何といっても「正確さ」です。言い変えれば、出力が不正確なツールの使用は避けるべきです。…

翻訳学と 脳科学

バイリンガルな人が翻訳もできるとは限りません。また、言語が得意な人はたくさんいますが、すべての人が優秀な翻訳者になれるとも言えません。言語を話すことと翻訳すること――人間の頭の中のプロセスに何か違いがあるのでしょうか。何が翻訳を可能にしているのか?不思議です。 そして、人間の脳の学習処理を模したニューラル機械翻訳(NMT)。実務翻訳において、翻訳支援ツール(CATツール)や機械翻訳(Machine Translation; MT)が日常的に利用されるようになり、翻訳効率の向上につながりました。特に、ニューラル機械翻訳は翻訳精度が格段に進歩しており、利用が拡大しています。それでも、さまざまなところで人間の翻訳者にしかできない部分が残されていると述べられているように、人間の脳における電気的な動きをコンピューターで再現できるとしても、まだ人間の脳と同じ翻訳結果を生み出すことはできないのです。これだけIT技術が進んだのに、なぜなのでしょう? 自分で翻訳作業を行っていると、機械翻訳の利用方法や仕組みを学ぶのに手一杯で、翻訳と脳の働きについて考える機会はあまりないかもしれませんが、この謎に取り組まれているのが、関西大学の山田優教授です。翻訳学と 脳科学 の関係を探求されている山田教授の研究で、人間が翻訳作業を行う時には脳の色々な部分を使っていることが判明しました。翻訳作業を行う時に活性化する脳の部位を調べる実験で、翻訳(深い処理)を行うときにはさまざまな部位が反応していることが確かめられたのです。それだけ翻訳作業は複雑な脳のプロセスを経て行われているということであり、脳の一部(左脳)の動きを再現するニューラル機械翻訳は、言語を置き換える「直訳」はできても、脳全体の複合的な働きの結果得られる「翻訳」と同じレベルのアウトプットを出せるまでに至っていないということでしょう。このプロセスを理解することは、我々人間が、言語をどのように理解しているか、そしてどのように他言語に置き換えているかを探ることでもあります。機械翻訳が、言葉をカウントベース(共起行列)で捉える意味と形式(文法など)から把握しているのに対して、人間は、言葉の意味と形式に加えて、その言葉を使っている社会で共有される文化的背景や価値観なども鑑みた上で、その言葉の使われている状況ではどの訳語への置き換えが適切かどうかを判断しています。このような複雑な処理を脳が行うためには、さまざまな知識や情報が事前にインプットされていなければなりませんが、人間は自分の経験や学習を通して膨大な量の情報を脳に蓄積させているのです。これは、まだ機械に追いつかれていない部分です。 実際、機械翻訳ではコーパス(過去の翻訳メモリなどから得られる異なる言語間の文と文の対訳データ)の量が翻訳の精度を左右するため、コーパスが多ければ多い言語ペアほど、翻訳の品質が向上すると言われています。これは経験を積んだ翻訳者がよりよい翻訳ができるのと同じです。コーパスの蓄積が進み、言語だけでなくあらゆる情報がデータ化され、それらの膨大な情報を使って今以上に人間の脳の処理に近い計算処理ができる画期的なアルゴリズムが実装されたら……ニューラル機械翻訳による結果が人間の翻訳者の出した結果と区別できなくなる日が来るかもしれません。幸いにして、それまでにはまだまだ多くの研究と時間が必要そうです。 急速にグローバル化が進み、ますます翻訳のニーズが高まっている現代における翻訳には、品質・コスト・スピード(納期)が求められており、機械翻訳は現時点で既にコストとスピードで人間の翻訳者を上回っています。残された品質について、どこまで重視するかは翻訳プロダクトの用途次第です。例えば、ビジネスメールの翻訳は内容が理解できるレベルになっていれば問題ないと判断されることがある一方、製品の解説書などはユーザーが適切に使えるように正確かつ分かりやすく書かれていることが求められるといった具合です。このような場合、前者は機械翻訳でも対応が可能でしょう。後者の、「ユーザーにとってわかりやすい解説」は、人間の翻訳者の腕の見せどころです。人間は、「自分がこの解説書を見たときに、どう書かれていればわかりやすいのか」を考えて翻訳することができるからです。翻訳に求められる3つの評価基準(品質・コスト・スピード)が変わることは考えにくい以上、翻訳者は翻訳技術の変化に追従しつつ、翻訳者(人間)ならではの翻訳ができるようにスキルを磨かなければなりません。 翻訳者として、どのようなスキルを向上させていくかを考えるとき、あるいは言語を学習するとき、自分の脳がどのように言語を理解しているのか想像してみるのも面白いと思います。翻訳学、言語処理研究の視点から人間の脳の働きを探る山田教授の研究において、今後どんなことが分かってくるかも楽しみです。 山田 優(やまだ まさる)教授の紹介 関西大学外国語学部・外国語教育学研究科教授 実務翻訳者としての経験を経て、現在は大学で翻訳プロセス論、翻訳テクノロジー論、翻訳教育論(TILT)などの研究に従事されている。日本通訳翻訳学会(JAITS)理事。関西大学の先生のご紹介はこちら(研究室のサイトはこちら)

機械翻訳はここまで来た!

機械翻訳の性能が飛躍的に向上しています。特にこの10年程度の技術の躍進には目を見張るものがあります。日本では外国人観光客と2020年の東京オリンピック・パラリンピックに対応すべく、機械翻訳機能を登載した案内サービスが増えており、その性能に驚かされた方も少なくないかもしれません。一体どのような仕組みになっているのでしょう。人間による翻訳とは何が違うのでしょう。今回は 機械翻訳 の進歩の歴史に迫ります。 ■ 精度は今も上昇中 機械翻訳は、文章を単語や文節(フレーズ)にバラバラにしてから逐語訳をするルールベース翻訳(RBMT: Rule-Based Machine Translation)から始まりました。それが対訳コーパスを利用する統計翻訳(SMT: Statistical Machine Translation)、そして第3世代のニューラル機械翻訳(NMT: Neural machine translation)の登場で、さらなる精度の向上が図られています。スマートフォンやPC利用者には身近なGoogle翻訳ですが、これはまさに、NMTのニューラルネットワークを利用した機械翻訳です。 これまでは、欧米の言語と日本語など、文法や単語の類似が少ない言語を翻訳する際には、逐語訳したものをつなげ直す従来の翻訳技術だけで精度を上げることは困難でした。そこで、翻訳機械に学習機能をつけるという技術革新、つまりNMTが開発され、近年の飛躍的な進歩が成し遂げられたのです。膨大な対訳データをコンピュータ自身が「学習」することで翻訳精度を上げるNMTは、データ処理能力と速度が格段に進歩した現代だからこそ可能になった技術です。…

機械翻訳には負けない――翻訳者に求められるもの

グローバル化の急激な進行により、近年、コミュニケーションやビジネスに必要とされる言語の数が一気に増加しました。このような社会的ニーズ、そしてIT技術の発達により、言語をメモリーとアルゴリズムを使って翻訳する機械翻訳が登場したわけですが、驚くような「誤訳」を目にした経験がある人も多いのではないでしょうか。今回は機械翻訳の可能性ならびに翻訳者に求められるものを考えます。 ■ 機械は人間を凌駕するか 自動翻訳(機械翻訳)の進化の早さは驚異的とも言えます。簡単な内容であれば、ごく自然に訳してくれるまでになりました。即時性と利便性が高いため、公共機関や宿泊施設などでは、2020年の東京オリンピック・パラリンピックに向けて機械翻訳機能を搭載した人型ロボットや音声案内を設置する動きが加速しています。 このまま翻訳技術やAIが進化すれば、機械翻訳は人間の翻訳者の代用になるのでしょうか?「否」との答えが多く見受けられます。どんなに機械翻訳が発達しても、プロフェショナルな人間の翻訳者は必要とされ続けると言われており、その理由として以下の4点があげられます。 1.言語とは、数学的アルゴリズムだけで処理できるものではない 2.人にしかできない翻訳がある 3.機械翻訳による誤訳の恐れ 4.誤訳は誤解の元 ■ 言語はアルゴリズムだけで処理できない すべての言語には文脈があり、それはコンピュータには読み取るのが難しいものです。また、言語はその使用者の文化と社会環境と強く結びついており、これらは「生きて」絶えず変容しているため、単純なアルゴリズムに落とし込むことができません。有機的な言語を無機的なアルゴリズムだけで処理すると、無理が生じるのです。 文法や語彙に共通性のある言語同士なら、機械翻訳をしやすいものがありますし、翻訳する方向(A語→B語、B語→A語)によってやりやすさが異なる言語もあります。例えば、英日と比較して日英のほうが難しいと言われますが、それは日本語に助詞や同音異義語が多く、その上、主語が省略されることが多々あることから解析しづらいのが一因です。解析できない部分は「推定」されるため、誤訳の可能性が高くなります。統計的な手法を使う機械翻訳では「推定」か所が多ければ多いほど誤訳の確率が高くなるのは否めません。しかしこれが翻訳者であれば、同音異義語であっても文脈から意に合った訳語を当て、主語の省略に対しても適宜補足することが可能です。翻訳は、単純なアルゴリズム解析だけで対処できるものではないのです。 ■ 人にしかできない翻訳がある 機械翻訳とは「力技」とも言えます。人の生活に密着した言語の変換処理を、コンピューターに蓄積されたデータと格段に進化した処理速度によって可能にするためです。 一方で、人が行う翻訳は、知識と経験に裏打ちされた「技能」と言えるのではないでしょうか。この翻訳者の「技能」こそが、人にしか持つことができない能力です。「外国語がわかる人であれば翻訳もできる」、「言語がわかれば誤訳など簡単に見つけられる」、あるいは「翻訳の正誤の確認は身近なネイティブにやってもらえば十分」との声があることは確かですが、翻訳や校正には訓練が必要です。言語に詳しいだけでなく、その言語の背景やTPOに応じた適切な表現方法、文法、綴り字、句読法などをマスターし、正確な文章に仕立て上げる能力が必要です。 ■ 機械翻訳による誤訳が顧客流出につながる…

翻訳ツールにできること、人間にしかできないこと

この10年ほどの間、まさに目覚ましい進化を遂げたIT技術により、世の中はとても便利になりました。特に、PCの普及というハード面からアプリケーションの多様化というソフト面での拡充により、携帯電話やオンラインショッピングなど、かつては夢物語でしかなかったコミュニケーションが現実化しています。 これと同時に、翻訳に関連する技術も進化してきました。その一つがCATツール(Computer-Aided Translation tools:コンピューター翻訳支援ツール)です。今回は、CATツールの利便性、そして限界に焦点を当ててみます。 ■ CATツールとは? まず、CATツールとは何かという基本に立ち返ってみましょう。 CATツールとは世界中で利用されている翻訳支援ソフトウェアの総称で、専用のデータベース(翻訳メモリ)に訳語を記憶し、テキスト中に同一もしくは類似の用語が出てきた際にデータベースに登録された訳語を再利用できるようにし、翻訳作業のスピードアップと生産性の向上を図るものです。品質の維持と効率化が図れることから、グローバル市場向けの翻訳やローカライゼーションには、CATツールの使用が発注条件になっているものも見られます。大量の情報を短時間で翻訳するためには、ツールの活用が不可欠になってきているのです。とはいえ、CATツールの利用だけで翻訳の質が保証されるのでしょうか? ■ CATツールにできること-翻訳メモリで作業を短縮&効率化 CAT ツールは、翻訳者の効率的な業務遂行を支援するものです。CATツール上では原文が細かい分節に区切られ、訳文が、いわゆるTM(Translation Memory:翻訳メモリ)に保存されます。以後、テキスト中に同じ語句を含む文章や類似の文章が出てきた場合、文節単位でTMから訳文を転用することが可能になります。 繰り返される部分があれば自動的に訳文案が挿入されるため、翻訳者は語句の検索やコピー&ペーストの負担から解放され、結果として作業時間の短縮および訳語の統一につながります。 CATツールを通じて辞書や専門用語事典の照会もできるため訳語の正確性も増し、用語集の作成に時間を取られることもありません。同時に、複数の翻訳者が作業に関わる場合でも用語の整合性が確保できるのです。用語だけではありません。原文を訳しやすいように分割し、原文と訳文が並列に記載されるバイリンガルファイルを作成してくれるので作業の効率化も図られます。 しかし、このように有用なCATツールでも、万能とは言いがたい部分があるのです。 ■ CATツールにまだできないこと-文意の再構築…