【PythonでCIVID-19分析】データの準備編 1

データ分析を始めるにあたってまずはデータを用意する必要があります。

4月の時点でCOVID-19には興味があったので、今の自分が分析できそうなデータを探し始めてはいました。

しかし、WEB上では既に完成された情報が日々の動向が数字・ビジュアルで提供されていましたが、その元となるデータとなると見つけることができないでいました。

これからまさに同じようなことをしたいのでお手本があるのは良いのですが、いかんせん元データがなければ始まりません。

かといって、今から数ヶ月分を自分で用意するとなると難しい。

その中で見つけたひとつがSIGNATE。

日本最大のデータサイエンティストコミュニティ。

日本版Kaggle。

企業とデータ分析のプロであるデータサイエンティストをつなぐプラットフォームとして、データサイエンス関連のコンペティションを開催しています。

こちらのSIGNATEはUdemyで受講した【ゼロから始めるデータ分析】ビジネスケースで学ぶPythonデータサイエンス入門で知りました。

いずれはコンペティションに挑戦したいと思っているのですが、残念ながら今現状のレベルでは難しい状況です。

そのSIGNATEで開催されているコンペティションが『COVID-19チャレンジ』。

内容を確認してみると、以下URLからGoogleスプレッドシートでデータが配布されているようです。

https://bit.ly/signate_covid-19_dataset

四月の時点ではもっと雑然としたデータ内容で、実際にテストで取り組んでみると、今の私のレベルでは扱えるデータに加工するだけで相当な時間が必要と判断しました。

しかし、今回あらためて覗いてみると、現在は罹患者に関して非常に整理されたデータが用意されていました。

日本の都道府県別の1/16〜現在までのデータが時系列で存在します。

これなら今の私でも何とかなりそうです。

と、いってもそれなりに四苦八苦しながらの作業になりそうですが・・・

まずはこちらのデータを使って自分なりにデータ分析を試みたいと思います。

最終的には、この情報に西日本・東日本、近畿や北陸といったエリア、人口・面積・人口密度・気温などの情報を追加して、それらが罹患者数と相関関係があるのかを調べたいと思っています。