2021年の振り返り

はじめに

Twitterを眺めていたら2021年の振り返りをいろいろ見てしまったので,私も書くしかないなと思い今年の参加したデータ分析コンペを振り返りをまとめてみます.

参加したデータ分析コンペ

参加したコンペの中で入賞したコンペは以下の通りです.

Kaggle

atmaCup

その他

コンペ振り返り

時系列順に振り返ってみます.

#10 [初心者歓迎!] atmaCup (4th /525 teams)

テーブルデータとしてまとめられている美術作品の属性情報からその作品がどれくらい評価されたかを予測する回帰タスクでした.短期間ではありましたが,可変長なカテゴリデータがあったり,テキストデータが多言語であったりと工夫する点が多くてとてもやりごたえがあったコンペでした.

私たちのチームでは,お互いに独立してモデルを作成してstackingをすると一気に精度が伸びて最終日に上位に食い込めたといった感じでした(solutionはこちら).上位3位には入れなかったものの,敢闘賞3位という結果で物理メダルがもらえてかなり嬉しかったコンペでした.

このコンペで初めてとtuboさんとマージすることなりましたが,この後,他の4つのコンペでマージすることとなり,今年Kaggle Masterになれたのもtuboさんとマージできたおかげといっても過言じゃないかもです.

Indoor Location & Navigation (15th / 1170 teams)

indoorコンペです.スマホのセンサーデータ(WiFiやIMUなど)を使ってショッピングモールでの位置とフロアを推定するコンペでした.絶対位置推定は多くのチームではNNを使っており,またIMUデータから相対位置を推定して,絶対位置の精度を向上させるpost processingが効いたコンペでした.

atmaCup#10が終わった後に参加し,公開notebookを越したあたりにtuboさんとマージして,その直後にpenguinさんこっこさんとマージし,15位で銀メダルを獲得しました.(solutionはこちら

コンペ自体とても面白く,初めてKaggleでメダルが取れたのが嬉しかったです.ただチームメイトの方々に比べてほとんど貢献できずに悔しい思いをしたコンペでした.

Google Smartphone Decimeter Challenge (5th / 810teams)

outdoorコンペです.スマホGNSSデータから位置情報を予測するコンペでした.最初からホスト側が絶対位置推定を行っており,多くの参加者はそのデータに対してpost processingして精度を向上させていたと思います.

indoorコンペであまり貢献できなかったことと,このコンペの終了時期が院試と被っていたため,コンペ序盤に大きく差をつけてやる!という気持ちで取り組みました.それが功を奏してか,序盤から終盤まで金圏内で維持することができました.

序盤にtuboさんとpenguinさんと再度マージして,最終的にindoorコンペで上位だったchrisさんSaitoさんとマージし,結果的に5位で金メダルでCmpetition Expertに昇格しました.

MLB Player Digital Engagement Forecasting (83th / 852teams)

outdoorコンペと同時期に開催されていたコンペで,各MLB選手のエンゲージメントを予測するというタスクでした.outdoorコンペの方を主にやっていたので序盤だけの参加でした.ただtarget以外を特徴量を組み込んだ学習モデルのnotebookを最初に公開することができて,notebookで金メダルを獲得できてよかったです.

NFL Health & Safety - Helmet Assignment 58th / 825teams

大阪勢が強かったコンペです.NFLの試合の動画から検出されたヘルメットがどのプレイヤーかをマッチングさせるタスクでした.これ系のタスクは今までやったことはなかったものの,penguinさんが序盤に上位にいたことから競プロ要素で解けるかも?とメタ的に考えて序盤だけ参加しました.ただ圧力コンペが始まり,そちらのほうが勝算が高そうだったので圧力に注力しました.

Google Brain - Ventilator Pressure Prediction (19th / 2605teams)

圧力コンペです.人工呼吸器のシミュレーションデータから肺の圧力を推定する回帰タスクした.シンプルなテーブルデータで,LSTMやtransformerで比較的高精度のモデルを組むことができたコンペでした.これまでNNが強いコンペにあまり参加したことがなく,またスケーリングや評価指標のMAEがかなり奥深く,学ぶことが非常に多かったコンペでした.

このコンペではtuboさん,mstさんねむりさんTakuさんとチームを組んで参加し,結果的に19位と銀メダルでCmpetition Masterに昇格しました.

#12 Sansan × atmaCup (6th / 245teams; 学生部門1位)

圧力コンペ期間中に開催されたコンペです.NDAの関係上タスク等に触れることはできませんが,非常に楽しいコンペで結果的に学生1位で初めて賞金をいただきました.(コンペタスクやsolutionはSansan Builders Blogにて紹介されています)

MLCAS2021 Crop Yield Prediction Challenge (1st / 29teams)

指導教員の方から紹介されたコンペで,大豆の収量を予測するテーブルデータの回帰タスクです.ワークショップの一環として開催されたコンペらしく,参加者は多くはなかったものの1位を獲得できてとても嬉しかったです.(ただかなりコンペ設計としては怪しいところが多く,私のモデルが何の役に立つのだろうかと不安になりました)

コンペ振り返りの総括

Kaggleでは金1枚,銀2枚,銅2枚(加えてrt4kaidoさんとマージしたOptiver Realized Volatility Predictionで銀か銅か獲得できそうです)と目標としていたKaggle Competition Masterに昇格することができ,またコンペで賞金を獲得できて良かったです.Kaggle自体はちゃんと参加したのはMechanisms of Action (MoA) Predictionで最終的に公開notebookのスコアにも到達できなかったので,そこから考えるとかなり成長できた1年でした.

ただチームで参加がほとんどで,ありがたいことに強い方々とマージしていただけたおかげで獲得したメダルも多かったです.来年以降はなるべくソロで参加して,理想は金圏マージでやっていきたいです.

来年の目標

Kaggleで金メダル2枚以上とatmaCupで総合3位以内を目指して頑張ります.