Kaggle｢Titanic – Machine Learning from Disaster｣に挑戦：Part3(評価:0.76794)

Kaggleの｢Titanic – Machine Learning from Disaster｣に挑戦中です。

評価の推移は以下のとおり

二回目：0.75119 / 42153位
初挑戦：0.73684 / 42456位

僅かずつながら改善が続いています。

目標の評価0.80以上を目指して、今回も改善に取り組みたいと思います。

前回は’Pclass’,’Fare’,’Embarked’,’person’,’Alone’,’honorific’の6つの特徴量を採用しました。

今回は新たに’Ticket2′,’Age2’の二つの特徴量を加えて8つの特徴量で学習を行うことにしました。

‘Ticket2’は’Ticket’のデータを処理し、その一番最初の数字を特徴量にしたもの。

‘Age2’は’Age’をビニングし、特徴量としたものです。

年齢は生存率に関係すると思われるので、普通に’Age’を特徴量として採用したいのですが、私の特徴の組み合わせだと’Age’を採用すると評価が下がってしまいます。

その為、ビニングを行い’Age2’として特徴量として採用してみた次第です。

ビニングも分割数で良くも悪くもなり、このあたりが特徴量作成の難しいところです。

そんなKaggle｢Titanic – Machine Learning from Disaster｣の挑戦二回目の結果は以下のとおりです。

使用した予測アルゴリズムは前回同様決定木。

評価は0.76794。

順位は32430位。

評価は0.01675、順位は9723位のUPとなりました。

しかし、目標としている評価0.80以上には依然としてまだ開きがあります。

Leaderboardを見る限り、この先が難関。

改善に取り組み達成したいと思います。