PDFやWord、Excelファイルを読み込み、レイアウトなどはそのまま内容だけを翻訳。Google Translation APIに新機能
Googleは、機械学習を用いて翻訳を行う「Translation API」の新機能として、PDF、Word、Excel、PowerPointのファイルを読み込み、レイアウトなどを保ちつつ内容だけを別の言語へ翻訳して出力する「Document Translation」を発表しました。
With Translation API Advanced, translate documents in100+ languages & formats such as Docx, PPTx, XLSx & PDF while preserving document formatting. Learn more about this new feature added to @googlecloud’s Translation services, Document Translation ↓https://t.co/jWmkLOXg0t
— Google Cloud Tech (@GoogleCloudTech) May 12, 2021
具体的にはPDF、DOCX、PPTX、XLSXの形式のファイルを読み込み、元のファイルのレイアウトやフォーマット、見出し、パラグラフごとの区切りなどは変更せずに内容を翻訳し、元のファイル形式のままで出力をします。
Document Translation機能は、Translation API Advancedの機能に含まれています。Translation API Advancedには既存の機能として、用語集を設定して翻訳時に反映できる「用語集」機能や、複数のドキュメントをまとめてバッチ処理できる「一括処理」機能、機械学習のモデルとしてGoogleの汎用翻訳モデルかAutoMLによるカスタムな翻訳モデルを選択できるモデル選択機能などがあり、これらを組み合わせて利用することもできます。
これまでPDFやWordファイルなどのいわゆるビジネスドキュメントを翻訳するには、内容をプレーンテキストに変換するためにコピー&ペーストを行い、翻訳を実行。出力された翻訳済みのプレーンテキストを元のビジネスドキュメントのレイアウトに戻すため、手作業でテキストをペーストして見出しなどのレイアウトを整える、などの作業が発生していました。
ファイル形式もレイアウトもそのままに変換してくれるDocument Translation機能は、こうした手間を大幅に削減してくれることでしょう。
ただし利用にはTranslation APIの呼び出しが必要なため、ファイルのドラッグ&ドロップなどの簡単な操作で行えるようにするには、そうしたアプリケーションをTranslation APIを用いて作る必要があります。今後そうしたアプリケーションの登場も期待されるでしょう。
あわせて読みたい
「Angular 12」正式リリース。Webpack 5正式サポート、IE11のサポートが非推奨、Strictモードがデフォルトに、「Ivy」レンダリングエンジンへの移行が事実上完了など
≪前の記事
WindowsがまたLinuxを取り込む。マイクロソフト、Linuxカーネルが備える拡張機能「eBPF」互換機能をWindowsにもオープンソースで実装へ