Androidアプリ兼バックエンドエンジニアの高橋です。

弊社のサービス「バス比較なび」では、たくさんのバス会社さんから頂いた高速バスデータを掲載していますが、バス会社さん間での「データの揺れ」が課題の一つとしてあります。

例えば、バスの「停車地」には以下のような表記揺れがあります。

A社 ： ＪＲ東京駅八重洲南口　鍛冶橋駐車場
B社 ： 八重洲口鍛冶橋駐車場＜東京駅 八重洲南口＞
C社 ： 東京駅八重洲南口

この状態では、停車地をGoogle Mapにマッピングしようとしても、難しいですよね。

実は、弊社ではこれまで手作業によってこういった名称を「名寄せ」しています。

上記の例でいうと、JR東京駅八重洲南口鍛冶橋駐車場 が名寄せ後の名称です。

データが蓄積されている現在では手作業でもある程度はカバーできますが、休日や長期連休などに対応できないので、現在停車地の名寄せ自動化に挑戦しています。

そもそも名寄せとは

「名寄せ」という言葉をなんとなく使っていますが、ここでいう「名寄せ」を具体的(システム的)にいうと、

つまり、統合後のレコード(いわゆるマスター)は運用者の手によって管理しつつ、新たに発生するレコードをマスターと自動で紐付けたい訳です。

共通のIDのようなものがあれば名寄せの必要はありませんが、それがないため表記が不確実なフィールドを基に紐付けを行う必要があります。(冒頭で紹介したような、停車地の呼称など)

また、名寄せの方法には重複のレコードを削除して一つだけ残す方法(deduplication)もありますが、今回やりたいのは、entity matchingとか、record linkageとか呼ばれたりするものです。

どうやるか

まず、「名寄せ」をするにあたって、機械学習を用いるか、ルールベースでやるか、それぞれのメリットとデメリットを検討しました。

機械学習は、手作業で既に名寄せ済みのデータを訓練データとして、教師あり学習で名寄せする方法です、

一方、ルールベースは、独自のロジックを作って、一定の基準に基づいて名寄せをします。例えば、「空白と記号を除去後、異なる文字数が3文字以内　かつ　全体の文字数の差が5文字以内」など。

今回、停車地の名寄せをするには、表記揺れが多すぎて、ルールベースだとあまりにも複雑なルールができそうでしたので、機械学習を取り入れることにしました。

ここからは具体的な名寄せの機械学習について、一部ご紹介します。

機械学習のアルゴリズムそのものには触れませんが、主に学習の前段階として注意した点をご紹介します

以下のpythonライブラリを実験的に使っています。

名寄せに関するライブラリは他にも色々あるのですが、上記がシンプルで使いやすく、pythonのDataFrameをそのまま使えたので採用させていただきました。

SaaSにも以下のようなものがあるにはあるのですが、後述する精度の問題や既存システムへの組み込みの点で、結局は自前で用意するのがベストと判断し、採用しませんでした。

名寄せをするに当たり、フィールドの類似度を測る必要がありますが、より正確な類似度を測るために、以下の点に注意しました。

全角・半角の差異をどちらかに統一
長すぎる文字列を短縮 (先頭~文字までにトリムする)
- 備考や米書きなどがフィールドに入ってくることがあり、類似度を測る邪魔になるので
類似度を測るのに不要な文字を削除
- 主に()「」・、などの記号は類似度を測る邪魔になるので
あったりなかったりするワードを削除
- 「バス停」「乗り場」などのワードがあったりなかったりする表記ゆれがあるので。
- そもそも停車地の類似度を測るのだから、これらのワードは停車地の特徴を示さないので不要。