データのノイズを除去し分析の素地を整える 複雑データベース洗浄大作戦!!!
「バイトル」「はたらこねっと」などの求人サイトを展開しているディップでは、営業活動における諸データを蓄積してきました。しかし、組織と事業の拡大に伴い、部署ごとのデータの運用体制に様々なズレが生じてきました。そのような数々のズレが積み重なった結果、データベースに色々な歪みが生じてしまいました。また、これまではデータベースから営業現場の実態に忠実な部分だけを切り取って分析していましたが、今後さらなる効果的な分析施策に取り組むためには、現在データベースが抱えている様々な歪みを綺麗に解消する必要がありました。今回は、上記の経緯に伴いデータベース洗浄プロジェクトに取り組むことになった馬場に話を聞きました。
様々な問題を抱えて複雑化していた営業データベース
――施策実施前の状況を教えてください。
ディップでは現場における営業活動を通して様々なデータを蓄積させてきました。しかし営業組織が大きくなるにつれ、様々な部署が独自の方針に基づいてデータを蓄積・運用するといった事態が起こるようになりました。そのため、ディップが抱える膨大な顧客データベースの部分部分にノイズが発生し、営業活動を効率化するためのデータ利活用が難しい状況になってしまいました。
ノイズを含むデータとは、言い換えると営業活動の実態を正しく反映できていないデータなのですが、そのような実態からズレたデータを分析すると誤った結論を導いてしまうので、良かれと思って試みた分析が逆効果となってしまいます。
また、顧客情報を蓄積したデータベースは営業活動で実際に使われる機会があるので、このノイズを放置していると営業現場でもトラブルが起きかねないという状況でした。
――施策検討の経緯について教えてください。
顧客に関するデータベースにノイズがあると、そのデータがどれだけ価値を持っているのか分からなくなります。すなわち、データに基づいてどのような分析でどのような利益を生み出すのかを検討することからして難しい状況にあったのです。
そのため、「営業活動のためにデータを利活用していくうえでどんなノイズが存在して、それにどう対処していくのか」というところから定義して、現時点でのデータベースの実態と、目指すべき理想的な状態から把握していく必要があるという結論に至りました。
今までも組織内ではこの課題が認識されていたものの、長い期間を経たことで数々の問題が複雑に絡み合ってしまったデータベースに対して、問題構造を俯瞰的に把握しながら改善作業に着手できる人材がいなかったというのが現状です。
しかし、このままではせっかくディップが蓄えてきたデータの価値を十分に引き出せないままですので、データの中身を把握・整理するような経験を既にいくらか有していた私がアサインされ、本腰を据えて着手していくことになりました。
対応方針のパターン化により、複雑な問題構造に挑む
――どのような施策を選びましたか。
これまでに蓄えられてきた顧客データベースの全体を一気に洗浄するというのは現実的でなく、下手に強引な対処をすると更に問題構造がこじれてしまいかねません。
そこで、スモールスタートで着実にノイズパターンを分析・把握していきながら、それぞれのパターンに適した対応方針を定義・実施していくことで、安全かつ効率的にデータベース洗浄を進めていけるだろうと考えました。
具体的には、まず既に他部署で実施されている部分的な洗浄タスクを任せていただきながら、「どういうデータがノイズに相当するのか/どうやって対処するのか」を一つひとつ把握・設計していき、やがてデータベース全体の問題構造を俯瞰的に捉えていくという方針で進めていきました。
――どのような体制で取り組みましたか。
今回私が担当する顧客データベースに関して、既に部分的な管理業務に着手されていた他部署の方とチームを組んでプロジェクトを推進していきました。
その方々も同様の課題を認識してはいたものの、営業活動への寄与を前提としてデータベース全体を体系的に洗浄していくというところまでは手が回っていなかったという状況でした。
他部署の方から基本的な作業の流れを教わりながら、段々と自分自身でデータベース洗浄における課題を意識して立ち回れるよう励んでいきました。
固定観念にとらわれず、想定を覆すような問題に対しても冷静に対処していく
――本取り組みで困難だったことについて教えて下さい。
事前の想定を覆すような突拍子もないノイズも存在するため、データ分析における一般的な感覚に基づいて、事前に「データ中のノイズといえばこのようなものだろう」と決め打ちするのは危険であり、都度内容を確認しながら慎重に進める必要がありました。
様々なデータ(テーブル)において様々な問題が入り乱れて存在するため、対応方針をしっかりと定義したうえで作業を進めていかないと危険であり、場当たり的なやり方では途中で方向性を見失うことになりかねません。
――現在もこの作業は進行中だと聞いています。実際にやっていてどうですか?
“データベースにおけるノイズ”という問題は実に複雑なものであり、1つの正攻法で一気にまとめて解決するというようなウルトラCのセオリーは存在しません。
部分部分では先行事例が存在するケースも多いので、既に存在する知見を積極的に収集しながら、各種ノイズに対する対応方針を一つ一つ固めていくというのは、なかなかにやりがいのある業務です。
データとの睨めっこのような作業はもちろん、ときにはデータの世界を超えて現実におけるビジネスの話にも首を突っ込んでいく必要があり、壁にぶつかって悩むことも多いです。ですが、実際に現場で働く営業職の方々から「データベースにおけるこういう問題を解消してもらえると嬉しい」というような生の声を聞く度に、改めて”自分が成し遂げてやりたい”という闘志が湧いてきます。
価値あるデータ分析のためには、地道で堅実なデータ洗浄業務が欠かせない
――今後取り組みたい改善はありますか。
正直なところあまり余裕がない状況なので、しばらくは本業務に専念したいです。
”データサイエンス”というと、機械学習モデルを組んだり、ディープラーニングを駆使したAIシステムを構築するというイメージが強いのではないかと思いますが、そのような話は全て磐石なデータ体制が敷かれていることが大前提となります。そのため、現在自分が取り組んでいるような作業が達成されないことには、営業データに基づく複雑で高度なデータサイエンス業務に進むことは不適切ですらあります。
データサイエンスの世界においては、“Garbage In, Garbage Out”(ゴミを入れても、ゴミしか出てこない)という言説が有名です。今後ディップのデータサイエンティスト達が有意義かつ本質的な分析業務に取り組んでいけるよう、今の時点でデータベースの抱えている諸問題に終止符を打ってしまいたいと思います。
現在取り組んでいるデータベースの洗浄が完了した暁には、頑張って綺麗にしたデータベースから営業現場の助けとなるような知見をどしどし抽出していきたいです。
また、今回のプロジェクトを通じて培ったデータベース洗浄のノウハウをこれだけで終わらせたくはないので、今回は関与することのなかったデータベースに関しても洗浄業務に挑戦していき、ディップの総合的なデータ利活用体制の構築に貢献していきたいと考えています。
――ありがとうございました!