【PythonでCIVID-19分析】日本版(2) Part10: プログラムの追加3(日別累計の可視化)

投稿者: | 2020年7月20日

今回は前回完成した日別数字のデータセットの可視化を行いたいと思います。

プログラムc19j2_df_ver1.01で作成された累計データセットを日別に変換したデータセットc19j2_day_dfが以下となります。

各項目の合計や先頭・末尾の数字の変換に問題がないことは確認済みです。

このデータセットを使って可視化を行ったのが以下となります。

一見すると問題がなさそうですが、よく見るといくつか気になる部分が見つかりました。

赤丸で囲ってある部分がそれに該当します。

まず、Confirmedの3/31がマイナスになっています。

さらに、PCR_TESTの5/14もマイナスになっています。

日毎に上乗せしているので、基本的にマイナスの数字にはならないはずなのですが、この二日分だけマイナス表示になってしまっています。

プログラムで処理する際に、何か問題が出ている可能性を考えましたが、調べて見る限り問題はなさそうです。

元より『当日の数字から前日数字を引く』を繰り返すだけで、複雑な処理をしているわけではありません。

それではと元データを調べてみると、こちらに原因があることが判明しました。

Confirmedの該当する箇所を確認すると、3/31は1,823、3/30は1,886となっています。

当日1,823−前日1,886の計算をすると-63とマイナスになります。

PCR_TESTの方も確認してみます。

結果は、5/14が194,323、5/13が196,816なので当日194,323−前日196,816の計算をすると−2,493とマイナスになりました。

データを収集・記録する時点でのミスか、それとも数字併せの意図的なものなのか、判前としません。

しかし、データは当日より前日の方が数字の方が多い、奇妙な内容になっています。

マイナスの日を抹消したり、別の数字で置き換えることも考えましたが、累計と日別のグラフで累計数字が合わなくなり、整合性が取れなくなってしまいます。

悩んだ結果、グラフ上は0表示にすることにしました。

また、PCR_TESTにはもう一カ所気になる部分があります。

6/17の数字だけが47,511と突出して多いことです。

他の日を見ると多くても11,000台なので、この数字も先の二件同様にデータを収集・記録する時点でのミスか、それとも数字併せの意図的なもののようです。

こちらも元データを確認します。

6/17が334,250、6/16が286,739なので当日334,250−前日286,739の計算をすると47,511となります。

4万件という数字はやはり他に比べて多すぎるので、こちらは外れ値として非表示とすることにしました。

上記を踏まえて、再度、手直ししたグラフが以下となります。

感染者数・死亡者数
日別累計
2020/02/05〜2020/07/12

回復者数・PCR TEST数
日別累計
2020/02/05〜2020/07/12

感染者数・死亡者数
日別累計
直近二週間
2020/06/29〜2020/07/12

回復者数・PCR TEST数
日別累計
直近二週間
2020/06/29〜2020/07/12

これで日本版(2)の分析を、これまでとは違った角度から行えることになりました。

この調子で世界版も日別の数字のデータセットを作成し視覚化を目指したいと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です