この記事は Kaggle Advent Calendar 2020 の16日目の記事です。去年ネタ記事*1を書いたので今年は真面目なやつにしました。 はじめに Kaggler はコンペにおいてあらゆる手段を用いて評価指標の改善を目指します。特徴量エンジニアリング、モデルや学習手法の試行錯誤、特殊な前処理・後処理の考案、はたまた Leakage の利用に至るまで、ルールを破らない範囲であれば何でもする*2のが Kaggler です。今挙げた例はそのコンペ固有の性質(データの生成過程・分布、評価指標、... etc.)に着目することで大きな効果をもたらす場合が多いのですが、一方でいずれのコンペにおいても一定の効果が得られる手法があります。それは複数のモデルの予測結果を統合して予測を行う Ensemble です。Ensemble は統合するモデルに多様性があるほど性能が向上すると一般に知られてお