Firefox、オンデバイスAIで画像のAltテキストを自動生成する実験的機能を導入、スクリーンリーダーのユーザーに利便性

2024年6月14日

Firefoxの開発元であるMozillaは、Webページ上の画像のAltテキストをオンデバイスAIモデルを使用して自動的に生成する実験的な機能を、9月にリリースされる予定のFirefox 130で導入することを明らかにしました

fig

この機能は、Firefoxに搭載されているPDFエディタの一部となる予定です。

最終目標としては、Webページを音声で読み上げるスクリーンリーダーを使用している視覚障害者などのユーザが一般的なブラウジングで利用できるようにすることとされています。

オンデバイスAIでAltテキストを生成する理由

画像のAltテキストは、Webページで画像が表示できないときに、画像の代わりに使われるテキストの情報です。しかし、Altテキストが設定されていない画像は多くのWebページで存在します。

今回のMozillaの取り組みは、こうしたAltテキストが設定されていない画像を含むWebページでも、Altテキストを自動生成することで、画像の説明をスクリーンリーダーに対してきちんと提供できるようにすることです。

クラウドで提供されている高度な生成AIを用いればこうしたことは比較的容易に実装できそうですが、その場合にはユーザーが見ているWebページの画像をクラウドに送信することになるため、ユーザーのプライバシーの問題や生成AIの利用コストの問題などが発生します。

そのため、今回の実験的実装では小規模なオンデバイスAIが用いられることになりました。

Mozillaによると、オンデバイスAIの利点は次のようになっています。

プライバシー: すべての処理がデバイス内で行われるため、データのプライバシーが保証されます。また、ユーザーのデータがモデルの学習に使用されることはありません。
資源効率: クラウド上で稼働する高性能GPUが不要になるため、リソースの消費量が削減され、環境にやさしくなります。
透明性の向上: AIモデルを組織内で管理することでトレーニングデータセットを直接監視できるため、一部の大規模言語モデル(LLM)と比べて透明性が高まります。
カーボンフットプリントのモニタリング: AIモデルを組織内でトレーニングすることで、CodeCarbonなどのツールを使ってCO2排出量を正確に追跡できます。
改善の容易さ: 再トレーニングは1台のハードウェアで1日以内に完了するため、モデルの頻繁な更新と改良が可能です。

オンデバイスAIを用いたAltテキストの出力例

オンデバイスAIを用いた実際のAltテキストの出力例も紹介されています。

下記の画像の「FIREFOX」は、1億8200万パラメータの蒸留済みGPT-2とVision Transformer(ViT)画像エンコーダを用いた結果です。「BASELINE MODEL」はやや大きめのViT+GPT-2モデル。「HUMAN TEXT」は人間が記述したAltテキストです。

fig

手の位置のせいで「BASELINE MODEL」は女性がケーキを持っていると説明していますが、「FIREFOX」はおおむね画像の概要を説明したテキストになっています。

Mozillaは今後も継続的にこのAIモデルを改良していくとしています。

あわせて読みたい

Web技術 機械学習・AI Firefox Mozilla




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本