【PythonでCIVID-19分析】日本版(2) Part2:データの前処理 1-2(処理内容確認)

投稿者: | 2020年6月14日

Part1に引き続きデータの前処理となります。

Part1ではデータの読み込みと内容の確認までを行いました。

読み込んだデータが22列120行、22のカラムを持つ2020/02/05〜2020/06/08のデータであることが分かっています。

今回からBIソフトで視覚化・分析できるようにデータの前処理を本格的に行おうと思います。

まずは必要な列の選択から行います。

日本版(2)で私が分析を行い体のは感染者数・回復者数・死亡者数・PCR検査数の4項目。

pcr_tested_positive・discharged・death ・pcr_testedが該当するので、これらの項目と時系列データなのでyear・month・dateだけを表示する必要があります。

またyear・month・dateに関しては年・月・日と現在個別に表示されているので、それらを年月日にまとめ1列で表示するようにデータの整形も必要です。

具体的には2020/02/05〜2020/06/08までのデータなので、最初が20200205、最後が20200608になるようにします。

やり方はいろいろなのでしょうが、私はyear・month・dateをそれぞれリストに格納し、それらを加算でひとつに。

さらにそれをリストに格納。

最終的にはデータフレームにあらたな列Dateとして追加する手順で進めようと思います。

次回から実際にその処理を行っていこうと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です