Kaggleの「Titanic – Machine Learning from Disaster」に挑戦中です。
評価の推移は以下のとおり
二回目:0.75119 / 42153位
初挑戦:0.73684 / 42456位
僅かずつながら改善が続いています。
目標の評価0.80以上を目指して、今回も改善に取り組みたいと思います。
前回は’Pclass’,’Fare’,’Embarked’,’person’,’Alone’,’honorific’の6つの特徴量を採用しました。
今回は新たに’Ticket2′,’Age2’の二つの特徴量を加えて8つの特徴量で学習を行うことにしました。
‘Ticket2’は’Ticket’のデータを処理し、その一番最初の数字を特徴量にしたもの。
‘Age2’は’Age’をビニングし、特徴量としたものです。
年齢は生存率に関係すると思われるので、普通に’Age’を特徴量として採用したいのですが、私の特徴の組み合わせだと’Age’を採用すると評価が下がってしまいます。
その為、ビニングを行い’Age2’として特徴量として採用してみた次第です。
ビニングも分割数で良くも悪くもなり、このあたりが特徴量作成の難しいところです。
そんなKaggle「Titanic – Machine Learning from Disaster」の挑戦二回目の結果は以下のとおりです。
使用した予測アルゴリズムは前回同様決定木。
評価は0.76794。
順位は32430位。
評価は0.01675、順位は9723位のUPとなりました。
しかし、目標としている評価0.80以上には依然としてまだ開きがあります。
Leaderboardを見る限り、この先が難関。
改善に取り組み達成したいと思います。