前々回・前回に引き続き今回もデータの準備編になります。
前々回でSIGNATEで開催されているコンペティションCOVID-19チャレンジで提供されているsignate_covid-19_datasetをお借りすることに、前回で東洋経済オンライン編集部の荻原和樹氏がGitHubで公開しているデータを使わせていただくことにしました。
これで自分が目的としている日本の分析は可能かと思います。
せっかくなので世界のデータにも手を伸ばしてみたと考え、探してみたところジョンホプキンス大学が以下URLでGitHubにて公開しているデータがあることを知りました。
https://github.com/CSSEGISandData/COVID-19
利用規約を読むと
This website and its contents herein, including all data, mapping, and analysis (“Website”), copyright 2020 Johns Hopkins University, all rights reserved, is provided solely for non-profit public health, educational, and academic research purposes. You should not rely on this Website for medical advice or guidance.
すべてのデータ、マッピング、分析(「ウェブサイト」)を含む、このウェブサイトとそのコンテンツ、著作権2020ジョンズホプキンス大学、すべての権利は留保され、非営利の公衆衛生、教育、および学術研究の目的でのみ提供されます。医学的なアドバイスやガイダンスについては、このウェブサイトを信頼すべきではありません。
とのことでした。
今回の私の場合だと教育、および学術研究の目的に該当するので使用させていただこうと思います。
実はこちらのデータ、四月の段階で一度データの分析に挑戦してみたことがあります。
その時点で何とかデータの前処理をして世界各国の感染者数・死亡者数・回復者数をBIソフトを使って可視化にまでは漕ぎ着けることができました。
その時使用したのはarchived_dataフォルダ内のarchived_daily_case_updates内あった2020/1/21から2020/2/14のデータです。
今現在同じ内容かを確認してみたところ、アーカイブされているデータに関しては特に変更はないようです。
今回はcsse_covid_19_daily_reportsフォルダ内の2020/1/22から現在までのデータで可視化までを試みようと思います。