Skip to content

Build a model to Enrich the Customer Master Data by searching for each Hotel Restaurant Cafe and Fast Food outlet its corresponding entry in TripAdvisor.

License

Notifications You must be signed in to change notification settings

sawadogosalif/Super-Matching-Algorithm

Repository files navigation

Super-Matching-Algorithm

Il s’agit d’enrichir les données de base des clients (CMD) en recherchant pour chaque PdV appartenant au canal Hôtel -Restaurant Café (HORECA), le PdV correspondante dans TripAdvisor. Chaque PdV HORECA du CMD est comparé à tous les PdV de TripAdvisor dans un rayon de 2 km.

La comparaison se fait sur la base de 3 paramètres :

  • Nom
  • Adresse
  • Distance (basée sur la géolocalisation - coordonnées GPS) Ces 3 paramètres n'ont pas la même importance. L'importance relative utilisée est : 75% Nom, 15% Adresse, 10% Distance. Sur cette base, un score global de similarité est calculé, et les entrées TripAdvisor sont classées en fonction de ce score. Le PdV présentant la plus grande similarité est le candidat potentiel.

Dans certains cas, même le candidat potentiel n'est pas un bon candidat, c'est pourquoi nous avons défini un seuil de similarité au-delà duquel le candidat est considéré comme correspondant

Etapes

  • Construction de l’échantillon de Matching manuel

  • Similarité des noms et des adresses

  • Similarité des distances

  • Seuil optimal de similarité et courbe ROC

About

Build a model to Enrich the Customer Master Data by searching for each Hotel Restaurant Cafe and Fast Food outlet its corresponding entry in TripAdvisor.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages