Part1に引き続きデータの前処理となります。
Part1ではデータの読み込みと内容の確認までを行いました。
読み込んだデータが22列120行、22のカラムを持つ2020/02/05〜2020/06/08のデータであることが分かっています。
今回からBIソフトで視覚化・分析できるようにデータの前処理を本格的に行おうと思います。
まずは必要な列の選択から行います。
日本版(2)で私が分析を行い体のは感染者数・回復者数・死亡者数・PCR検査数の4項目。
pcr_tested_positive・discharged・death ・pcr_testedが該当するので、これらの項目と時系列データなのでyear・month・dateだけを表示する必要があります。
またyear・month・dateに関しては年・月・日と現在個別に表示されているので、それらを年月日にまとめ1列で表示するようにデータの整形も必要です。
具体的には2020/02/05〜2020/06/08までのデータなので、最初が20200205、最後が20200608になるようにします。
やり方はいろいろなのでしょうが、私はyear・month・dateをそれぞれリストに格納し、それらを加算でひとつに。
さらにそれをリストに格納。
最終的にはデータフレームにあらたな列Dateとして追加する手順で進めようと思います。
次回から実際にその処理を行っていこうと思います。