Dublettenerkennung mit reDUB > Glossar Dublettensoftware

Welche Einstellmöglichkeiten und Optionen eine moderne Dublettensoftware dem Anwender bietet

Eine moderne Dublettensoftware leistet heutzutage weit mehr, als nur Dubletten bzw. doppelte Einträge anhand eines komplexen Deduplizierungsalgorithmus zu erkennen und herauszufiltern. Sie gibt dem Anwender die Möglichkeit, aus verschiedenen Einstellungen die optimalste Kombination auswählen zu können, um beim eigentlichen Deduplizierungslauf das bestmögliche Ergebnis zu erzielen.

Bei einer modernen Dublettensoftware wird häufig zwischen verschiedenen Deduplizierungsmodi unterschieden:

  • Privatadressen: Im Adressbestand ist je ein Feld für den Vornamen und den Nachnamen vorhanden. Die Dublettensoftware konzentriert sich in diesem Fall nur auf diese beiden Namensfelder, zusätzliche Firmenfelder hierbei während der Deduplizierung nicht beachtet.
  • Firmenadressen ohne Ansprechpartner: Der Adressbestand besteht aus Geschäftsadressen, bei denen keine Ansprechpartner vorliegen. Eine umfassende Dublettensoftware bietet in diesem Fall die Möglichkeit, dass die Firmen- sowie die Nachnamensfelder während der Deduplizierung aus dem Adressbestand vereinigt werden können.
  • Firmenadressen mit Ansprechpartner: Der Adressbestand besteht aus Geschäftsadressen, bei denen Ansprechpartner vorliegen. Hier fokussiert sich die Dublettensoftware während der Deduplizierung auf die Firmen- sowie auf die beiden Namensfelder gleichermaßen.
  • Haushaltserkennung: In diesem Fall werden Dubletten von der Dublettensoftware während der Deduplizierung nur an Hand des Nachnamens erkannt.

Zudem hat der Anwender bei einer modernen Dublettensoftware häufig auch die Möglichkeit einzustellen, wie hoch der Grad der Genauigkeit bei der Erkennung sein soll:

  • Hohe Ähnlichkeit: Diese Einstellung wendet man in einer Dublettensoftware meist an, wenn Daten angereichert werden sollen und die Fehlererkennung von Dubletten während der Deduplizierung möglichst gering sein soll.
  • Ausgewogenen Ähnlichkeit: Die Dublettensoftware achtet während der Deduplizierung auf ein ausgewogenes Ergebnis – die Ähnlichkeit bei der Erkennung bewegt sich zwischen einer hohen und einer niedrigen Ähnlichkeit.
  • Niedrige Ähnlichkeit: Diesen Fall wendet man meist an, wenn z.B. die Kosten für Produktion und Porto bei einem Mailing erheblich reduziert werden sollen und die Dublettensoftware während der Deduplizierung vorrangig darauf Rücksicht nehmen soll.

Einige Programme zur Erkennung von Dubletten ermöglichen es dem Anwender sogar, eine eigene Matrix für die Dublettensuche zu erstellen und anzuwenden. Das bedeutet: Der Anwender kann in der Dublettensoftware für jedes einzelne Adressfeld in der Datenbank festlegen, welche Gewichtung dieses Feld während der Dublettensuche erhält, z.B. auf einer Skala von 0 bis 100. Ein Adressfeld mit dem Wert 0 würde beispielsweise während der Deduplizierung überhaupt nicht in die Bewertung mit einfließen, während bei einem Adressfeld mit dem Wert 100 auch eine 100%ige Übereinstimmung zur Erkennung einer Dublette vorliegen muss. Im Idealfall kann der Anwender in der Dublettensoftware auch noch angeben, welche Mindestähnlichkeit in der Gesamtheit aller Adressfelder gegeben sein muss, damit die Adresse als Dublette erkannt wird. Dieser Wert besitzt dann eine höhere Wichtigkeit gegenüber allen angegeben Einzelwerten in der Matrix.

Werden in eine Dublettensoftware mehrere Daten (z.B. aus verschiedenen Quellen) importiert, so spielt häufig die Priorität der einzelnen Daten eine Rolle. Die Priorität kann häufig vom Anwender schon beim Import in die Software angegeben werden. Meist lautet die Regel: Je niedriger der Wert der Priorität, desto wichtiger sind die Daten, je höher der Wert, desto unwichtiger sind die Daten. Wird nun beim Deduplizieren eine Adresse aus einem Import mit z.B. der Priorität 3 gefunden, die eine Dublette gegenüber einer Adresse aus einem Import mit z.B. der Priorität 2 darstellt, so wird die Adresse aus dem Import mit der Priorität 2 als sog. „Kopfdublette“ angesehen, während die Adresse aus dem Import mit der Priorität 3 als sog. „Nebendublette“ angesehen wird. Würden im Anschluss an die Deduplizierung die doppelt oder mehrfach auftretenden Adressen gelöscht werden, so würde die Adresse aus dem Import mit Priorität 2 „überleben“ bzw. in der Datenbank oder im Adressbestand stehen bleiben.

Häufig spielen in einer Dublettensoftware noch die zu verwendende Suchumgebung für Dubletten sowie die Anzahl der zu verwendenden Suchfenster eine Rolle, im Idealfall können die die beiden Werte im Vorfeld der Deduplizierung im Programm eingestellt werden. Hierbei sollte man beachten, dass eine Erhöhung eines der beiden oder beider Werte das Ergebnis der Deduplizierung verbessern kann, gleichzeitig aber mehr Performance benötigt und der Suchlauf (gerade bei größeren zu deduplizierenden Datenmengen) erheblich länger dauern kann.

Wenn eine Dublettensoftware dem Anwender all diese Optionen bietet, so hat er die Möglichkeit, die verschiedenen Einstellungen zu testen bzw. die Ergebnisse zu vergleichen, die er mit den verschiedenen Optionen oder einem Mix aus den verschiedenen Einstellungen erzielt hat. Da eine moderne Dublettensoftware große Datenbestände meist mit hoher Geschwindigkeit dedupliziert, können im Idealfall verschiedenste Deduplizierungs-Tests in kürzester Zeit durchgeführt werden. All dies trägt dazu bei, nur die doppelten oder mehrfach vorhandenen Adressen herauszufiltern, die wirklich Dubletten sind – der Adressdatenbestand bleibt schlank und korrekt!