今回は完成したプログラムc19j1_df_ver1.0が最新のSIGNATE COVID-19 Case Datasetに対して問題なく動作するかを確認しようと思います。
https://bit.ly/signate_covid-19_dataset
上記にアクセスしてまずWEB上でデータ内容の確認を行います。
本稿執筆の2020/05/26時点で目的の罹患者統計のページを確認すると、以下のように2020/01/16から2020/05/24までのデータが存在することが確認できます。
実際にプログラムc19j1_df_ver1.0を走らせて確認し、先頭が北海道の2020/01/26で、末尾が沖縄県の2020/05/24になっていれば問題ないと判断できます。
c19j1_df = pd.read_csv("c19j1_df_20200524.csv" , encoding = "utf=8")
c19j1_df.head()
c19j1_df.tail()
でデータを読み込み、先頭を末尾を表示したところ以下が表示されました。
予定どおり、先頭が北海道の2020/01/26で末尾が沖縄県の2020/05/24になっています。
念の為に行数も確認しておこうと思います
len(c19j1_df)
で確認すると以下のとおり表示されました。
6110を47都道府県で割ると130。
各130日分のデータが47都道府県分入っていることが分かります。
2020/01/16から2020/05/24まで1月が16日、2月が29日、3月が31日、4月が30日、5月が24日。
それぞれを合計すると130日となるので、データが正しいと分かりました。
念の為に欠損値も確認しておこうと思います。
c19j1_df.isnull().sum()
で確認すると以下が表示され、問題のないことが確認できました。
プログラムc19j1_df_ver1.0が有効に使えることが分かりました。
次回はこのデータを使って、分析を試みてみようと思います。