Dublettenerkennung mit reDUB > Glossar Adressdubletten

Adressdubletten

In großen Adressdatenbanken können Adressen mit minimalen Unterschieden in der Schreibweise unbemerkt doppelt, drei- oder sogar mehrfach vorkommen. Bei diesen Adressen spricht man von Dubletten bzw. Adressdubletten. Die Schreibweise von Dubletten wird oft auch als Doubletten oder Dupletten angegeben.

Adressdubletten entstehen beispielsweise durch Schreib-, Tipp- oder Hörfehler beim Anlegen der Adresse in die Datenbank. Oft entstehen Adressdubletten auch dadurch, dass verschiedene Adressbestände miteinander vereinigt werden oder die in der Datenbank erfassten Personen oder Unternehmen ihren Namen wechseln. Gleichzeitig kann das Anmieten oder Ankaufen neuer Adressen dazu führen, dass durch den Datenimport dieser Adressen Personen mehrfach in der Datenbank geführt werden.

Dubletten können in vielfältiger Weise auftreten: Sie zeichnen sich z.B. dadurch aus, dass Vor- und Nachname vertauscht sind, Hausnummern versehentlich im Straßenfeld mit eingetragen sind, anstatt der voll ausgeschriebenen „Straße“ die Abkürzung „Str.“ verwendet wird oder dass in der Adressdatenbank anstatt der Anrede „Herr“ die entsprechende Abkürzung „Hr.“ hinterlegt ist.

Durch Dubletten wird eine Adressdatenbank zwar immer größer, verliert dadurch aber gleichzeitig auch immer mehr an Qualität. Bei großen Adressdatenbanken kann dies sogar soweit führen, dass durch die Vielzahl an Dubletten wesentlich mehr Speicherplatz verbraucht wird und Verarbeitungen auf oder innerhalb der Datenbank wie z.B. Abfragen wesentlich langsamer werden.

Das Herausfiltern von Dubletten aus Adressdatenbanken bietet vielerlei Vorteile: Eine Adressdatenbank mit wenig oder (im Idealfall) gar keinen Dubletten hat den Vorteil, dass beispielsweise bei Mailingaktionen keine Adressen doppelt oder mehrfach angeschrieben werden. Dadurch werden deutlich Kosten für Porto und Werbematerial eingespart. Zudem wird ein Imageverlust für das Unternehmen vermieden, da Kunden nicht doppelt angeschrieben werden und sie sich dadurch als „einer unter vielen“ fühlen. Des Weiteren kann es möglich sein, dass Liefersperren dadurch nicht beachtet werden, weil der Kunde als Dublette in der Adressdatenbank mehrfach auftaucht. Gleichzeitig wird das Ergebnis von Kunden-Analysen über die Adressdatenbank verbessert, da durch einen sauberen Datenbestand jedem Kunden seine Werte eindeutig zugeordnet sind. So werden beispielsweise auch lückenhafte Bestellhistorien vermieden.

Softwarelösungen zur Dublettenerkennung werden dazu eingesetzt, um überflüssige Adressdatensätze aus Datenbanken automatisiert herauszufiltern. Ein äußerst zeitaufwändiges manuelles Erkennen, Überprüfen und Herauslöschen von gefundenen Dubletten wird dadurch vermieden – bei einer großen Adressdatenbank mit mehreren Millionen Datensätzen wird dieser Vorgang auf Grund der Datenmenge für einen Menschen so gut wie unmöglich (theoretisch müsste jede Adresse mit jeder Adresse aus der Datenbank miteinander verglichen werden). Dabei werden Dubletten häufig noch im Detail unterschieden, z.B. danach, ob es sich um Privatadressen, Firmenadressen oder Haushalte handelt. Man nennt die zugehörigen Dubletten dementsprechend auch Firmendubletten und Haushaltsdubletten. Daneben gibt es noch weitere Dubletten wie z.B. Telefondubletten (in diesem Fall ist die Telefonnummer bei mehreren Datensätzen gleich; bei Telefonaktionen beispielsweise wird durch das Herausfiltern von Telefondubletten vermieden, dass die Teilnehmer mehrfach angerufen werden), E-Mail-Dubletten (in diesem Fall ist die E-Mail-Adresse bei mehreren Datensätzen gleich; ähnlich wie bei den Telefondubletten wird beispielsweise beim Versand von E-Mail-Newslettern durch die Minimierung des Anteils an E-Mail-Dubletten sichergestellt, dass Teilnehmer nicht mehrfach angemailt werden), Umzugs-Dubletten (wenn beispielsweise ein Kunde in eine andere Straße gezogen ist), Heirats-Dubletten (hierbei ändert sich für die in der Datenbank hinterlegten Person(en) im Normalfall der Nachname) und Umfirmierungs-Dubletten (wenn sich beispielsweise der Name oder die Rechtsform einer Firma geändert hat). Viele Anbieter bieten neben der reinen Dublettenerkennung noch weitere Module/Funktionen zum Aufbereiten der Adressdaten bzw. zum Verbessern der Adressqualität.

Deduplizierungs-Algorithmen zur Erkennung von Dubletten in Adressdatenbanken sind äußerst komplex und arbeiten meist mit Wahrscheinlichkeitswerten. Dies bedeutet, dass zwei Adressdatensätze miteinander verglichen werden und für jedes Feld ein eigener Wert berechnet wird, welcher aussagt, wie wahrscheinlich es ist, dass die beiden Felder übereinstimmen. Die Summe dieser Werte bestimmt, ob der Adressdatensatz in seiner Gesamtheit als Dublette erkannt wird oder nicht. Durch diese Vorgehensweise wird eine hohe Genauigkeit in der Erkennung erreicht, wobei Fehlerkennungen von Dubletten niemals komplett ausgeschlossen, aber weitgehend minimiert werden können.