前回はPythonによる機械学習にて重回帰モデルを作成、CIVID-19の感染者数を、当日の数字から翌日の数字の予測を行いました。
前回のVer1.00での予測結果は以下の通りでした。
予測に対する結果との差は1,151人。
まだまだ、改良の余地があります。
今回からは特徴量を作成・追加し予測結果の改善に取り組みます。
初回の今回に行おうと思うのは3日毎(当日+直近過去2日)の数字の追加です。
Ver1.00では日毎に加え、7日毎(当日+直近過去6日)と14日毎(当日+直近過去13日)の二つを特徴量に用いたので、今回はそれよりも短い期間の数字を特徴量に加えてみることにしました。
直近の数字の方が新鮮で有効なデータを含んでいるという判断からです。
よって今回は日毎・3日毎・7日毎・14日毎の四つの特徴量で予測を行います。
結果は以下の通り。
予測と実際の誤差は1,761人と前回Ver1.00の1,151人よりも悪化する結果となってしまいました。
先の結果を見る限り、短い期間は予測精度の改善に有効ではなさそうです。
その為、今度は日毎と14日毎の二つに特徴量を絞ってみることにします。
結果は以下のとおりとなりました。
予測と実際の誤差は1,188人と先の特徴量4つの場合の1,761人を上回る結果となりました。
Ver1.00の1,151人には及ばないものの悪くない結果といえます。
よって、次回は14日毎よりも長い期間を用いて予測精度の改善を試みたいと思います。