AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現

2020年11月17日

データを基に分析を行う場合、対象となるデータがきちんと整っている必要があります。

しかし多くの場合、日付データの中に日付に変換されなかった数値データが混ざっていたり、同じ会社なのに「株式会社」と「（株）」と「(株)」の表記が揺れているせいで別の会社に分類されたり、名前や住所のどこかに余計なスペースが入っていて別のデータになったり、データをインポートしたときのミスで2つの列が連結されて1つの列に入っていたりと、整っていないデータが紛れ込んでいるものです。

これらを整理しなければ、正確なデータ分析はできません。そこで、データ分析の前処理としてデータを整える、いわゆる「データクレンジング」と呼ばれる作業が行われます。

データクレンジングは一般に手間と時間がかかる作業です。どんな外れ値や未整理のデータが存在するのかはデータを見てみないと予想できないことも多いため、ときには目視でえんえんとデータを眺めることさえあるでしょう。

多数の外れ値や未整理の値を一括して変換するためのデータ操作も簡単ではありません。

そのため以前からさまざまなデータクレンジングツールが存在していました。

今回AWSが発表した「AWS Glue DataBrew」は、このデータクレンジングをビジュアルに行えるツールです。同社によれば、従来よりも80％速く作業ができるとのこと。

AWS Glue DataBrew, a visual data preparation tool that enables data scientists and data analysts to clean &
normalize data up to 80% faster, is now generally available. Read this AWS News Blog to learn more: https://t.co/BVp3PA5n4z pic.twitter.com/XUc8s3NPka
— Amazon Web Services (@awscloud) November 11, 2020