【PythonでCIVID-19分析】日本版(2) Part1:データの前処理 1-1(データの読込・内容確認)

今回から日本版(2)に取りかかろうと思います。

使用するのは東洋経済オンライン編集部の荻原和樹氏がGitHubで公開しているデータ。

その中のsummary.csvを使用させていただきます。

まずはデータの読み込みから。

import pandas as pd
import numpy as np
c19_j2 = pd.read_csv("summary.csv" , encoding = "utf=8")

c19_j2.head()
c19_j2.tail()

上記コードで表示した内容が以下となります。

2020/02/05〜2020/06/08までの22のカラムを持つデータのようです。

カラムの内容を調べてみると以下が表示されました。

今後、この中から必要なカラムを選択しデータを整形してゆく必要があります。

今回の日本版(2)で私が追いかけたいのは感染者数・回復者数・志望者数・PCR検査数の4項目。

それを前提に内容をあらためて確認するとyear・month・date・pcr_tested_positivedischarged・death ・pcr_testedが必要な項目だと判断できます。

最後にinfoメソッドを使ってデータ内容の確認を行います

c19_j2.info()

22列120行のデータだと分かりました。

次回以降はこれを感染者数・回復者数・志望者数・PCR検査数に日付を加えた5列120行のデータに整形してゆこうと思います。