今回はいよいよ前回のデータを結合して視覚化様のデータセットc19w_dfVer2.0を作成し、それを使って視覚化を行いたいと思います。
まずは以下コードを実行しデータセットc19w_dfVer2.0を作成します。
import pandas as pd
import numpy as np
#各データセットの読み込み
c19w_R= pd.read_csv("c19w_Recovered.csv",encoding = "utf-8")
c19w_C= pd.read_csv("c19w_Confirmed.csv",encoding = "utf-8")
c19w_D= pd.read_csv("c19w_Deaths.csv",encoding = "utf-8")
#ConfirmedとRecoveredの結合
c19w_f = pd.merge(c19w_C , c19w_R , left_on=["Date","Country"],right_on=["Date","Country"])
#Confirmed・RecoveredとDeathsの結合
c19w_f = pd.merge(c19w_f , c19w_D, left_on=["Date","Country"],right_on=["Date","Country"])
#csvファイルへの書き込み・再読み込み
c19w_f.to_csv("c19w_df_20200711.csv" , encoding = "utf-8" , index = None)
c19w_df = pd.read_csv("c19w_df_20200711.csv" , encoding = "utf-8" )
c19w_df.head()
c19w_df.tail()
完成したデータセットが以下となります。
188カ国×2020年1月22日〜2020年8月9日までのデータ201日なので37,788行のデータとなり上記内容と合致します。
続いてこのデータセットを用いて可視化を行います。
グーグルデータポータルで可視化したデータが以下となります。
全世界
日別の累計感染者数
2020/08/09時点
全世界
月別の累計感染者数
2020/08/09時点
全世界
直近四週間の累計感染者数
2020/08/09時点
無事に可視化できました。
さらに確認も兼ねて日本のデータのみのデータでも表示をおこないます。
これで問題がなければ他の国を表示しても問題ないはずです。
日本
日別の累計感染者数
2020/08/09時点
日本
月別の累計感染者数
2020/08/09時点
日本
直近四週間の累計感染者数
2020/08/09時点
表示された内容を確認する限り、日本版(2)とほとんど変わらない内容となっています。
どのタイミングでデータを集計するかで数字は変わってくるので、多少の数字の違いは当然の結果かと思います。
ようやく、これで世界版のバージョンアップが完了しました。
今日から本プログラムをc19w_dfVer2.0と呼称したいと思います。