前回、完成したPythonによる機械学習で作成した重回帰分析モデルを使って予測を行ってみようと思います。
今回作成したのは当日の日毎・7日毎(当日+過去6日)・14日毎(当日+過去13日)の数字から、翌日の感染者数を予測するモデル。
厚生労働省のオープンデータで、5/1の感染者数のデータが更新されたので、4/30のデータを使って5/1の感染者数を予測させてみます。
5/1の感染者数は5,813人でした。
4/30の数字は以下の通り。
日毎:4,658人
7日毎(当日+過去6日):34,301人
14日毎(当日+過去13日):66,102人
上記データを予測モデルに与え、結果が5,813人に近ければ精度の高いモデルということになります。
上記が予測結果ですが、結果は4,662人。
その差1,151人と大きく外れた結果となりました。
もっとも、このモデルの予測精度が低いのは先のPart2でMSE・RMESの結果が0からほど遠い結果だったことから分かっていたことでもあります。
今後は予測に有効な特徴量を作成し、予測精度の向上に取り組みます。
特徴量の作成はSIGNATEのコンペティションでも毎回つまずいている難関。
これを機に一皮剥けて先に進めるようになりたいと思います。