Pythonでの機械学習を昨年10月に開始して約7ヶ月。
SIGNATEのコンペティションに参加し、今年1月にはIntermediateに昇格。
しかし、SIGNATEでのコンペティションの結果は振るわず、Pythonや機械学習の学びは停滞気味。
昨年5月からpythonを使ったCOVID-19の分析を開始してちょうど1年。
ゴールデンウィークの長期休暇を使って、目標だったCOVID-19の予測に取り組もうと思います。
これを機会に停滞状況を打破し、さらなる飛躍を目指したいと思います。
今回行いたいのは感染者数・死亡者数の予想。
過去データから未来を予想する、いわゆる回帰。
Pythonによる機械学習で重回帰分析を使って、未来の感染者数・死亡者数を予測します。
SIGNATEのコンペティションで毎回足踏みしているのが、特徴量の作成。
機械学習で重要なのが、この特徴量の作成なのですが、これがなかなか難しい。
ただ作れば良いというわけではなく、予測に有効なそれを作成しなければ意味がない。
コンペティション参加時は、期限が切られ時間に追われて気ばかり焦り先に進めない状況で終わってしまっている。
今回は、自由に好きなだけ時間を使える状況なので、色々な特徴量を作成し、どれが予測に有効なのかを、じっくりと試してみたいと思います。