Fastlyが「AI Accelerator」正式リリース、生成AIからのレスポンスをキャッシュし高速化とコスト削減を実現
Fastlyは、生成AIへのAPIコールに対するレスポンスをセマンティックに基づいてインテリジェントにキャッシュすることで、高速なレスポンスとAPIコール回数の低減によるコスト削減などを実現する「Fastly AI Accelerator」の正式リリースを発表しました。
生成AIをAPI経由で呼び出す場合、通常のサービスの呼び出しと比較するとレスポンスまでに時間がかかることが多く、呼び出しごとにかかる料金も高額になりがちです。
Fastly AI Acceleratorは、こうした生成AIからのレスポンスをキャッシュし、似たような質問に対するレスポンスであればキャッシュの内容を高速に返すことで、生成AIのレスポンスを高速にし、また呼び出しにかかるコストを削減できると説明されています。
キャッシュは「セマンティックキャッシュ」として、呼び出しの内容をベクトルとして保持するため、似たような意味を持つ呼び出し内容であればキャッシュが利用される仕組みとなっています。
同社はFastly AI Acceleratorのベータ版の利用実績として、応答速度が平均で9倍高速になったとしています。
Fastly AI AcceleratorはOpenAI ChatGPTに加え、 Microsoft Azure AI Foundryにも対応しています。