今回から日本版(2)に取りかかろうと思います。
使用するのは東洋経済オンライン編集部の荻原和樹氏がGitHubで公開しているデータ。
その中のsummary.csvを使用させていただきます。
まずはデータの読み込みから。
import pandas as pd
import numpy as np
c19_j2 = pd.read_csv("summary.csv" , encoding = "utf=8")
c19_j2.head()
c19_j2.tail()
上記コードで表示した内容が以下となります。
2020/02/05〜2020/06/08までの22のカラムを持つデータのようです。
カラムの内容を調べてみると以下が表示されました。
今後、この中から必要なカラムを選択しデータを整形してゆく必要があります。
今回の日本版(2)で私が追いかけたいのは感染者数・回復者数・志望者数・PCR検査数の4項目。
それを前提に内容をあらためて確認するとyear・month・date・pcr_tested_positivedischarged・death ・pcr_testedが必要な項目だと判断できます。
最後にinfoメソッドを使ってデータ内容の確認を行います
c19_j2.info()
22列120行のデータだと分かりました。
次回以降はこれを感染者数・回復者数・志望者数・PCR検査数に日付を加えた5列120行のデータに整形してゆこうと思います。