【PythonでCIVID-19分析】日本版(2) Part3:データの前処理 1-3(カラムの選択・リネーム)

投稿者: | 2020年6月15日

Part2に引き続きデータの前処理編となります。

前回は今後の方針として、読み込んだ元データを日付・感染者数・回復者数・死亡者数・PCR検査数の5列2020/02/05〜2020/06/08までの120行の持つデータに整形することを決定しました。

今回は現在22あるカラムから必要なカラムだけを選択し、さらに名前も私の希望するそれに変更してみようと思います。

まずはカラムの選択から始めます。

復習を兼ねて元データの内容を確認しておきます。

この中から必要なカラムyear・month・datepcr_tested_positive・discharged・death ・pcr_testedのみを選択します。

c19_j2 = c19_j2[["year","month","date","pcr_tested_positive","discharged"
,"death","pcr_tested"]]

c19_j2.head()
c19_j2.tail()

上記コードを実行し、表示された結果が以下となります。

無事、指定した列のみが表示されました。

さらにカラムの名前を変更します。

PCR検査陽性のpcr_tested_positiveを感染者のConfirmed、退院のdischargedを回復者のRecoverydeathDeathpcr_testedPCR_TESTにそれぞれリネームを行います。 

c19j2_df = c19_j2.rename(columns={"pcr_tested_positive" : "Confirmed",
"discharged" : "Recovery" , "death": "Death" , "pcr_tested" : "PCR_TEST"})

c19j2_df.head()

上記コードを実行し、表示された結果が以下となります。

year・month・dateに関しては、年月日にまとめた新しい列Dateを作成した後、最終的には削除する予定です。

次回は個別になっているyear・month・date年月日にまとめ、新しい列Dateに格納しようと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です