日経電子版×クックパッド データハッカソン for studentsに参加しました
表題の通り、日経電子版×クックパッド データハッカソン for studentsに参加しました。
一言で言えば、日経電子版さんとクックパッドさんの膨大なデータを用いてなにかを作るというものです。
詳しくは以下のページを参照してください。
参加したきっかけとか動機とか
某社の@tetsuroitoさんの宣伝ツイートよりこのハッカソンを知りました。
機械学習については、まだ駆け出しというかひよこ未満である私なので、抽選とかその手のやつで外れるんじゃないかと思ってましたが、「参加できたら膨大なデータを好きに使えるやん!超!エキサイティン!!」とか思いながら応募しました。
チームについて
元々ホームページとか見ていたら単独参加でもOKっぽそうだったので、一人ぼっちでやる気だったのですが、運良くチームを組むことができました*1。
私がいたチームは全チームでも一番メンバーが多く(4人!)、作業場所も何故か奥の方の窓際でしかも、4人中2人が立ちながらコーディングするという不思議なチームでした。
イカれたメンバーを紹介するぜぇ!みたいな感じで軽くチームの構成を。
とまあこんな感じで、本当にバックグラウンドがバラバラでカオスなチームでした。
したこと
大雑把に言いますと、日経電子版の記事データと、クックパッドの検索履歴のデータの相関性や影響について分析しました。
この相関性や影響というテーマを貫きつつ、まずはデータをいじってみたり、分析かけてみたり・・・という感じです。
4人いたので、2組に分かれて片方が日経、もう片方がクックパッドという感じで行いました。ちなみに、私はクックパッド担当でした。
相関性を決定づけるアプローチというかそもそもどのような記事を選出するかについては、色々取り組んだのですが、結果として、これだ!と決定づけられたのが遅くなり、うまく完全には間に合わなかったのが後悔です。
で、お前なにしたの?
主に、クックパッドの検索履歴ログについて分析できるよう前処理しまくって、ちょこっと分析もかんだという感じです。
うちのMacbookのCPUファンがずっとフル回転だったのが、全てを物語っています。
また、データがでかすぎて、チームメイトの1人は使わないソフトをアンインストールしたりしていました*4。
感想
まずこのようなイベントが珍しく、非常に面白かったです。
周りの発表をきいていると、自然言語処理を行う方が多く、またRよりもPythonでやってる方が圧倒的に多かったので知識・技術の両面から足りないということを感じました。
あと、結構フロントエンドの開発もしていたそうで、分析とか機械学習させた結果をWebサービスとして提供したチームが多く*5、出来というか完成度の高さに驚かされるばかりでした。
Rでは扱いづらいデータもあり、どのように解決するか試行錯誤したのが大変でしたね。また、以前どなたかが仰っていた、データ分析の9割は前処理であり、一番つらいのもそれだと言うのを痛感しました。
単純に結果を評価するのではなく、アプローチに対して評価していただいたのも良かったです。
最後に
当日サポートしてくださった日経電子版およびクックパッドの方々、参加された皆さん、チームメイト、分析できる気がしなくて前日になって憂鬱になってた私を諭してくださった@tetsuroitoさんと@dichikaさんに感謝です。