Part9から引き続き、今回も分析編です。
Part8・9では日本全国の2020/01/16から2020/05/24時点の累計感染者数の分析を試みましたが、今回は特定の都道府県に絞って分析を試みようと思います。
興味があるのは居住する兵庫県。
こちらを東京都比較して分析してみようと思います。
兵庫県のみを表示したいので、c19j1_dfからget_groupメソッドを使って兵庫県のみを抽出します。
c19j1_df_hyogo = c19j1_df.groupby("Location").get_group("兵庫県")
c19j1_df_hyogo
表示された内容が以下となります。
2020/01/16から2020/05/24時点の兵庫県の日付毎の累計感染者数が表示されました。
ただ、これだと中間部分が省略され、表示されている前半部分だけではいつから感染者がではじめたのか分かりません。
その為、目的の部分が表示されるようにコードを変更します。
以下のようにhead関数を使い目的の行まで表示するようにしました。
c19j1_df_hyogo.head(60)
表示された一部抜粋が以下になります。
3/1に初の感染者が出て以降徐々に感染者数が増え始め、3/11からは二桁に突入しています。
一方で5/4に感染者数が0人に一時的になり、それ以降は0人が徐々に増え始め、5/17以降は0人が続いています。
ゴールデンウィーク期間中も続いた外出自粛の結果が数字となって現れていると思います。
次に感染者数の多かった日付を調べてみようと思います。
以下のコードで感染者数の多い順に20件表示します。
c19j1_df_hyogo = c19j1_df.groupby("Location").get_group("兵庫県").sort_values(by='Confirmed',ascending=False)
c19j1_df_hyogo.head(20)
2020/04/11:42人
2020/04/09:39人
2020/04/16:31人
2020/04/10:29人
2020/04/17:27人
2020/04/24:25人
2020/04/18:21人
2020/04/23:20人
2020/04/15:20人
2020/04/07:20人
2020/04/21:19人
2020/04/14:19人
2020/04/08:19人
2020/04/22:17人
2020/04/12:17人
2020/04/04:15人
2020/04/25:15人
2020/04/01:14人
2020/03/11:13人
2020/04/05:13人
4/11の42人を最高に、以下30人台が2件、20人台が7件、10人台が10件。
いずれも3月、4月ばかりで、5月は見当たりません、
このことからもゴールデンウィーク期間中も続いた外出自粛は効果があったと判断していいかと思います。
それも油断していると、どうなるかは分かりませんが・・・。
次は東京都のデータを表示して、比較してみようと思っていましたが、やはりグラフにして比べた方が効率が良さそうです。
次回からは視覚化してより分析と理解を進めたいと思います。