前回、ようやく期間累計数字を日別数字のデータセットを作成するプログラムが完成したのですが、わずか数日でプログラムの変更を余儀なくされました。
これまでお世話になっていた東洋経済オンライン編集部の荻原和樹氏がGitHubで公開しているデータが更新されなくなった為です。
7/15までで更新が止まっており、調べたところ氏のREADME.mdに次の文言を見つけました。
厚生労働省のオープンデータ公表に伴い、7月15日以降は更新していない。
上記の厚生労働省のオープンデータは以下のアドレスで公開されていました。
https://www.mhlw.go.jp/stf/covid-19/open-data.html
公開されているデータを見ると感染者数・死亡者数・回復者数・PCR検査数と必要なデータがcsv ファイルで時系列で公開されていました。
よって、今後はこちらのデータを使って日本版(2)の更新を行いたいと思います。
これまでお世話になった東洋経済オンライン編集部の荻原和樹氏には心よりお礼申し上げます。
さて、また振り出しに戻ったわけですが、これまでの経験には無駄にならないはず。
早期にプログラムを組み直したいと思います。
とはいえ、まずは状況とデータの内容を確認しなくては始まりません。
データは
pcr_positive_daily.csv
death_total.csv
recovery_total.csv
pcr_tested_daily.csv
の4つのcsvファイルに分けて公開されています。
単純に考えると、これら4つのデータをそれぞれデータフレームに読み込み、結合すれば完了、となるわけですが、これまでもそうでしたがそうは問屋が卸さないでしょう。
その為、まずはそれぞれのデータの中身を確認することから始めることにします。
以下のコードを実行し、それぞれのcsvファイルのデータをデータフレームに読み込み、先頭と末尾を表示します。
Confirmed = pd.read_csv("./Origina_data/" + "pcr_positive_daily.csv" , encoding = "utf=8")
Confirmed.head()
Confirmed.tail()
Deaths = pd.read_csv("./Origina_data/" + "death_total.csv" , encoding = "utf=8")
Deaths.head()
Deaths.tail()
Recovered = pd.read_csv("./Origina_data/" + "recovery_total.csv" , encoding = "utf=8")
Recovered.head()
Recovered.tail()
PCR_TEST = pd.read_csv("./Origina_data/" + "pcr_tested_daily.csv" , encoding = "utf=8")
PCR_TEST.head()
PCR_TEST.tail()
まず分かるのは日付のスタートがバラバラであること。
Confirmedが1/16、Deathsが2/14、Recoveredが1/29、PCR_TESTが2/5とそれぞれスタートがバラバラです。
また、ConfirmedとPCR_TESTが日別の累計数字であるのに対し、DeathsとRecoveredは通期の累計数字となっています。
その為、DeathsとRecoveredに関しては当日−前日をして日別の数字に変換する必要があります。
まず、スタートの日付に関しては日本版(1)が1/16からになっているので、こちらに併せようと思います。
次に、通期数字から日別数字への変換ですが、こちらは以前に経験済なので、問題なく行えそうです。
今後の方針についてまとめてみると、まずはDeathsとRecoveredの通期数字から日別数字への変換。
データの結合。
カラムのリネーム等の調整といった感じになります。
いずれも以前に経験済なので、比較的容易に進められそうです。
今後の方針も決まったので、次回から本格的に作業を行おうと思います。