【PythonでCIVID-19分析】日本版(1) Part5: データの前処理 1-5(データの結合)

前回に引き続き、今回も日本版(1)のデータの前処理編です。

前回は元データから「Date」「Confirmed」「Location」の３列を持つ47都道府県のデータフレームを作成し、リストに格納しました。

今回は、このリストに格納した47個のデータフレームを、Pandasのconcat関数を使って結合することにします

c19j1_df = pd.concat(lo_df , sort=False, ignore_index=True)
c19j1_df.head()
c19j1_df.tail()

上記コードを実行したことろ、結果は以下のとおりになりました。

行の先頭が0スタートなので、末尾の行番号5733に1を加えた5737が、このデータの行数になり、それを都道府県数47で割ると122となります。

各都道府県のデータが122行だったので、問題なくデータが結合されていることが分かりました。

ここで少し気になったのがカラムの並びです。

これは主観の問題なのですが、個人的には「Date」「Confirmed」「Location」より「Location」「Date」「Confirmed」の方が分かりやすいように思われました。

c19j1_df = c19j1_df.reindex(columns=["Location","Date","Confirmed"])
c19j1_df.head()
c19j1_df.tail()

上記コードを実行し内容を確認します。

無事カラムがの並び替えが行われました。

念の為にデータの行数と欠損値の有無も再度確認しておくことにします。

len(c19j1_df)

で行数を確認。

c19j1_df.isnull().sum()

で欠損値の有無を確認。

どちらも問題にないことが確認できます。

ようやく希望するデータが完成しました。

次回はこのデータをcsvファイルに書き込みしようと思います。