今回は前回完成した日別数字のデータセットの可視化を行いたいと思います。
プログラムc19j2_df_ver1.01で作成された累計データセットを日別に変換したデータセットc19j2_day_dfが以下となります。
各項目の合計や先頭・末尾の数字の変換に問題がないことは確認済みです。
このデータセットを使って可視化を行ったのが以下となります。
一見すると問題がなさそうですが、よく見るといくつか気になる部分が見つかりました。
赤丸で囲ってある部分がそれに該当します。
まず、Confirmedの3/31がマイナスになっています。
さらに、PCR_TESTの5/14もマイナスになっています。
日毎に上乗せしているので、基本的にマイナスの数字にはならないはずなのですが、この二日分だけマイナス表示になってしまっています。
プログラムで処理する際に、何か問題が出ている可能性を考えましたが、調べて見る限り問題はなさそうです。
元より『当日の数字から前日数字を引く』を繰り返すだけで、複雑な処理をしているわけではありません。
それではと元データを調べてみると、こちらに原因があることが判明しました。
Confirmedの該当する箇所を確認すると、3/31は1,823、3/30は1,886となっています。
当日1,823−前日1,886の計算をすると-63とマイナスになります。
PCR_TESTの方も確認してみます。
結果は、5/14が194,323、5/13が196,816なので当日194,323−前日196,816の計算をすると−2,493とマイナスになりました。
データを収集・記録する時点でのミスか、それとも数字併せの意図的なものなのか、判前としません。
しかし、データは当日より前日の方が数字の方が多い、奇妙な内容になっています。
マイナスの日を抹消したり、別の数字で置き換えることも考えましたが、累計と日別のグラフで累計数字が合わなくなり、整合性が取れなくなってしまいます。
悩んだ結果、グラフ上は0表示にすることにしました。
また、PCR_TESTにはもう一カ所気になる部分があります。
6/17の数字だけが47,511と突出して多いことです。
他の日を見ると多くても11,000台なので、この数字も先の二件同様にデータを収集・記録する時点でのミスか、それとも数字併せの意図的なもののようです。
こちらも元データを確認します。
6/17が334,250、6/16が286,739なので当日334,250−前日286,739の計算をすると47,511となります。
4万件という数字はやはり他に比べて多すぎるので、こちらは外れ値として非表示とすることにしました。
上記を踏まえて、再度、手直ししたグラフが以下となります。
感染者数・死亡者数
日別累計
2020/02/05〜2020/07/12
回復者数・PCR TEST数
日別累計
2020/02/05〜2020/07/12
感染者数・死亡者数
日別累計
直近二週間
2020/06/29〜2020/07/12
回復者数・PCR TEST数
日別累計
直近二週間
2020/06/29〜2020/07/12
これで日本版(2)の分析を、これまでとは違った角度から行えることになりました。
この調子で世界版も日別の数字のデータセットを作成し視覚化を目指したいと思います。