Pythonによる機械学習でCIVID-19の感染者数を予測する試みも今回で三回目。
今回も重回帰モデルを用いて、当日の数字から翌日の数字の予測を行います。
前回Part1では、期間の長い特徴量を追加することで、予測と実際の誤差を298人まで縮めることができました。
が、ここで大きなミスに気が付きました。
学習データに用いるデータと評価するデータの最新の日付が同じになってしまっていました。
予測する当日のデータを学習させているので、当然結果も良くなる訳です。
気が付いたのは汎化性能の確認中。
5/2・5/3の予測を行っている際のことで、この予測結果が異様に精度が高かった為です。
初歩的な間違いですが、これが私の今の現実。
これからも、こういったミスを繰り返すかも知れませんが、ひとつひとつ乗り越えつつ先へと進みたいと思います。