AWSとFacebookが機械学習「PyTorch」で協力。「TorchServe」と「TorchElastic」をオープンソースでリリース
機械学習ライブラリ「PyTorch」の開発チームは、PyTorch 1.5のリリースと同時に、AWSとFacebookが協力して開発した新たなライブラリ「TorchServe」と「TorchElastic」を発表しました(AWSによる発表)。
TorchServe and [TorchElastic for Kubernetes], new libraries for serving and training models at scale. Learn more: https://t.co/j6tSOaG6yU
— PyTorch (@PyTorch) April 21, 2020
PyTorchはFacebookのAIリサーチラボが開発した、Python言語によるオープンソースの機械学習ライブラリです。世の中にある機械学習ライブラリのなかでも、もっとも人気があるものの1つといえます。
TorchServeとTorchElasticは、PyTorchをクラウドやKubernetesで活用するためのソフトウェアです。
TorchServe:PyTorchのモデルを迅速に本番環境で実行
TorchServeは、PyTorchのモデルをカスタムコードなどを書かなくともそのまますぐに本番環境で実行できるというもの。
一般的な用途であるオブジェクトの検出やテキストの分類用のデフォルトハンドラーに加え、マルチモデルサービング、A/Bテストのためのモデルバージョニング、メトリクスによるモニタリング、アプリケーションと統合するためのRESTfulエンドポイントなども備えています。
AWS上ではEC2やAmazon SageMakerなどで実行可能と説明されています。
TorchElastic:スケーラブルでフォールトトレラントな実行
TorchElasticは、PyTorchのトレーニングを分散環境においてフォールトトレラントかつスケーラブルに実行できるようにするソフトウェア。
これまでの分散トレーニングは、フォールトトレラントではなく、またノードの追加などスケールの変更に対してはリスタートが必要であり、TorchElasticはこうした課題に対応するものだと説明されています。
TorchElasticはKubernetesに対応しており、Amazon EKSのようなKubernetes環境で分散トレーニングが実行できるようになります。
TorchServeおよびTorchElasticともにまだ実験的実装の段階であり、今後さらに開発が進められていくことになります。
あわせて読みたい
Google、マルチクラウド基盤「Anthos」のAWS正式対応を発表、Azure対応も作業中。サービスメッシュのVM対応も
≪前の記事
GitLab、有償版の機能をオープンソースへ移植すると発表。カンバン表示やカナリーデプロイ、複数のKubenretesクラスタの使い分けなど18機能