Passer au contenu principal

Comprendre la déduplication et identity resolution

Dans ce guide, nous décrivons comment Splio déduplique et fusionne les données qui proviennent de vos différentes sources de données.

Tout d’abord, il faut distinguer les concepts qui composent cette fonctionnalité :

Déduplication : ce processus empêche votre base de données d'avoir des doublons lors de l'import de nouvelles données dans Splio, en mettant à jour les users, les produits ou les magasins existants avec les données fournies lors d'un nouvel import.

Identity resolution : ce processus est l'ensemble de règles qui définissent comment deux users qui ont les mêmes données pour des champs spécifiques sont fusionnés en une seule identité numérique dans Splio. Cela se produit après la déduplication technique.

Comprendre la déduplication technique

Lorsque de nouvelles données sont importées dans Splio, notre plateforme vérifie si ces données existent déjà ou non.

Il y a alors deux cas :

  • Si le "record" (user, produit, magasin...) n'existe pas encore dans la base de données, nous l'ajoutons sous la forme d'une nouvelle ligne.

  • Si le "record" existe déjà dans la base de données, les nouvelles données mettent à jour les données existantes.

Pour savoir si un record existe déjà ou non dans la base de données, il faut s'appuyer sur un champ spécifique de l'entité : ce champ est un identifiant que vous devez fournir pour chaque record importé. C'est ce qu'on appelle la clé de déduplication ou la clé unique .

Comprendre identity resolution

Une fois les données des users dédupliquées, la CDP peut passer à l'étape suivante, identity resolution, pour savoir si deux users ou plus avec des valeurs d'ID uniques différentes appartiennent à la même « identité », la même personne.

Une fois une identité choisie pour chaque user (fusionné ou non), les users ont un nouveau champ : le user_ID, faisant de la CDP la source unique de vérité dans votre écosystème de données pour définir des individus uniques.

Tous les attributs précalculés disponibles dans Custom Audience Filter sont calculés en fonction de users uniques qui ont des user_IDs différents.

Pour effectuer cette résolution, plusieurs options sont disponibles, et vous devez choisir entre elles lors de la configuration :

  • la CDP s'appuie sur un seul champ pour savoir si plusieurs users appartiennent à la même personne.

  • la CDP s'appuie sur plusieurs champs qui ont la même valeur sur plusieurs users pour les fusionner en une seule identité.

    Lorsqu'un des champs est vide, la CDP attribue un user_id aux users uniquement lorsque les deux champs ont une valeur.

  • la CDP fusionne les utilisateurs si au moins un champ parmi plusieurs a la même valeur pour deux users ou plus.


En utilisant l’une de ces règles, les users sont fusionnés, c’est-à-dire qu’ils ont la même « identité numérique » et présentent les caractéristiques suivantes :

  • Un seul user pour une identité, identifié par un user_id unique

  • Tous les événements (achats, événements email...) sont désormais attribués à ce nouveau user.

Que se passe-t-il si l'un des deux users, fusionnés à l'aide du champ email, met à jour son adresse email ?

Dans ce cas, puisque l’e-mail est la clé de déduplication, la CDP sépare à nouveau les deux utilisateurs.

Comprendre user profile resolution

Lorsque plusieurs users sont fusionnés, Splio doit choisir quelles valeurs garder pour chaque attribut user (comme le prénom, le sexe, l'adresse...) si les valeurs sont différentes pour les différents utilisateurs.

Par défaut, la dernière valeur non vide est conservée.

« Dernière » fait référence à la date de mise à jour du user, qui doit être renseignée dans un champ dédié. Cela signifie que pour un attribut donné, Splio recherche le dernier mis à jour.

  • Si le champ n'est pas vide, il est conservé comme champ final.

  • S'il est vide, le deuxième enregistrement en termes de mise à jour est vérifié, et ainsi de suite.

Mais vous pouvez choisir des règles différentes pour certains champs, définies lors de la configuration :

  • Splio peut prioriser une source par rapport à une autre , outrepassant la règle de la « dernière mise à jour ».

    Si le champ est vide sur la source priorisée, alors lq CDP conserve la valeur de la dernière source non vide pour ce champ.

  • Les champs peuvent être regroupés par source pour la résolution du profil. Cette option est intéressante pour la cohérence des données lorsque plusieurs champs sont liés entre eux.

  • Splio peut conserver la valeur la plus ancienne au lieu de la valeur la plus récente. Cela peut être pertinent pour la creation_date du user par exemple.

  • Ces options peuvent être combinées.

Comprendre le consentement et les spécificités des canaux

Dans un contexte multi-sources et de résolution d'identité, avec une règle du type « email OU téléphone », un user_id fusionné peut être lié à plusieurs adresses email ou numéros de téléphone.

Ensuite, l'adresse email ou le numéro de téléphone à conserver est choisi en fonction des règles définies dans la page précédente.

Une fois l'adresse e-mail ou le numéro de téléphone choisi, la CDP conserve la dernière valeur collectée ou la dernière mise à jour du consentement qui lui est associé pour un user_id donné, sur toutes les sources.

Veuillez noter qu'à chaque étape du traitement des données, Splio relie le consentement et l'adresse e-mail ou le numéro de téléphone portable.