Google、AIでファイルの種類を高速正確に判別するオープンソース「Magika 1.0」公開。Rustで再構築し、より高速かつ対象を200種類に拡大へ

2025年11月14日

Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるオープンソースのツール「Magika 1.0」を公開したと発表しました

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

最初のバージョンが昨年(2024年)2月にオープンソースとして公開されており、Googleはその時点でGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用していると説明していました。

特に拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するため、ファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価を行うためなどに活用されていたとのことです。

今回のバージョン1.0では、Rustによって内部の判別エンジンが完全に書き直されてより高速化され、また判別できるファイルの種類も以前の100種類から200種類へと倍増。テキストで書かれたコードや構成ファイルの種類と言った判別が難しいものに対する正確性も向上しています。

200種類ものファイル形式に対応

検出可能なファイルの種類の増加により、本バージョンでは以下のようなモダンなファイルの種類にも対応しました。

データサイエンス&機械学習
Jupyter Notebooks(ipynb)、Numpy arrays(npy, npz)、PyTorch models(pytorch)、ONNXファイル(onnx)、Apache Parquet(parquet)、HDF5(h5)

モダンプログラミング言語&Web
Swift(swift)、Kotlin(kotlin)、TypeScript(typescript)、Dart(dart)、Solidity(solidity)、WebAssembly(wasm)、Zig(zig)

DevOps&構成ファイル
Dockerfiles(dockerfile)、TOML(toml)、HashiCorp HCL(hcl)、Bazelビルドファイル(bazel)、YARAルール(yara)

データベース&グラフィックス
SQLiteデータベース(sqlite)、AutoCAD(dwg,dxf)、Adobe Photoshop(psd)、Web Fonts(woff, woff2)

Googleによると、一般的なファイル形式のファイルは豊富に入手できるものの、新しい専門的なファイル形式や過去のものとなったファイル形式については学習データが不足していたため、Geminiを活用して既存のファイルを別のファイル形式に変換することで学習データの不足に対応したとのことです。

Magikaは、実際の動作を試すことができるデモページ「Magika Demo」が用意されています。

あわせて読みたい

セキュリティ Google オープンソース




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本