計量経済学 x テキストデータで知見を抽出するデータサイエンティストの取り組みに迫る
ディップでは「バイトル」「はたらこねっと」などの求人サイトを展開しています。求人原稿の質をより高めるため、どのワードが応募意欲に響き、応募に繋げられるのか。データ分析や応募予測モデルの作成に取り組んでいるdip data design. Labに所属するデータサイエンティストの呉にインタビューを行いました。
応募予測モデル作成のキーはワードのデータ分析と特定
――現在の仕事内容について教えてください
現在の主な業務は、求人原稿のどのワードが応募意欲に響くのかという分析や応募予測モデルの作成をやっています。
この前はディップさんメッセージというサイト施策と電車内広告などのマーケティングOOH・TVCMの効果検証を行いました。
――最近の取り組みを教えてください。
最近は計量経済学のテキスト・アズ・データ(text as data)の中の逆回帰という手法で、バイトルの求人原稿の中から応募者に響きやすいワードを特定しました。
※逆回帰=普通の回帰分析であれば応募者数を従属変数にワードを独立変数にしますが、逆回帰ではワードを従属変数に応募者数を独立変数にします。
――現場ではどのような課題をお持ちでしたか。
社内のとあるプロジェクトのなかに、応募を促進する施策が含まれていました。そこで、まずは応募につながるワードを特定できないか、という相談がデータサイエンティストが所属するdip data design.labに寄せられたんです。そこで、因果推論と計量経済学の知見のあった私がチャレンジすることになりました。
――施策検討の経緯について教えてください。
応募者に響くワードを特定するためには、単純に文字数を数えたりするだけだとうまく行きません。また、地域と職種などの影響を排除しないと、「新宿駅 周辺」や「ラーメン屋」など、明らかに地域と職種の要因に引っ張られたワードばかりになります。
メンバーへ気軽に相談できる環境が業務の質を高めた
――どのような施策を選びましたか。
応募者に響くワードを特定し、その中からワード以外の要因を除去する目的を達成できそうな手法を探しました。
――施策を動かしていくポイント、意識していたことはなんですか。
課題に対応する既存の手法から選びました。また、実行時間の速さも意識しました。
――どのような体制で取り組みましたか。
計量経済学の手法を使った分析は基本的には僕が担当していますが、dip data design.labの他のメンバーと分析依頼者と緊密に連携を取って、分析の質の向上を図っています。
例えば、文字データの前処理はデータブレイン課の他のメンバーのアドバイスのおかげで精度が高まりました。
――プロジェクト推進体制やよかった点について教えてください。
まず、今回の分析に限ったことではないですが、メンバーへ気軽に相談できる環境がいいと思います。また、自分で手法について裁量を持ってどんどん提言できる環境も素晴らしいです。
ディップの意思決定の質を高めるチャレンジを
――今後取り組みたいチャレンジはありますか。
今後はデータ分析の幅をもっと広めて、ディップの意思決定の質を高めたいと思います。また、因果推論と計量経済学と相性がいいレコメンドシステムの構築にもチャレンジしてみたいと思います。
――ディップでデータサイエンティストとして働いている面白さはなんですか
ディップのデータサイエンティストチームはまだできてから一年くらいしか経っていないため、色々新しいことに取り組んだり、自分で新しく施策を提案したり、既存のやり方を計量経済学やコンピューターサイエンスなどの学問の力で改善したりすることができるところが面白いと思います。
幅広いバックグラウンドを持ったメンバーが集まっている
――チームにはどんなメンバーがいますか
僕は社会科学の領域を得意としていますが、自然言語処理、音声処理、地理情報処理、データベースなど幅広いバックグラウンドを持ったメンバーがいます。
――どういう人が向いていると思いますか
自分で積極的に提案したり、ディップでやりたいことが明確な人に向いていると思います。
――読者の方々に一言お願いします
まだまだ人数の少ないチームなので、一緒に働きたいメンバーを募集しています!
――ありがとうございました!