Algorithmus der Dublettenprüfung

Diese Beschreibung des Algorithmus für die Dublettenprüfung in CAS genesisWorld ist für den Administrator gedacht und gibt Anhaltspunkte, wie die Parameter der Dublettenprüfung einzustellen sind.

Um aus einer bestimmten Menge von Adressen Dubletten herauszufiltern, verwendet CAS genesisWorld eine angepasste Implementierung des Levenshtein-Algorithmus. Dabei werden die berücksichtigten Felder der Adressen extrahiert und in eine standardisierte Form gebracht.

Der Levenshtein-Algorithmus kann die Abstände zwischen zwei Zeichenketten ermitteln. Um einen prozentualen Unterschied zwischen zwei Adressen festzustellen, wird zuerst ein Gesamtabstand berechnet.

Anschließend wird der Abstand der beiden Adressen zueinander berechnet.

Aus diesem Ergebnis und dem Gesamtabstand wird abschließend die prozentuale Übereinstimmung beider Adressen errechnet. Wenn der errechnete Wert den festgelegten Schwellenwert überschreitet, werden die beiden Adressen als gegenseitige Dubletten gekennzeichnet.

Bei der Berechnung des Abstands wird jedes berücksichtigte Feld der beiden Adressen betrachtet, ein Abstandswert wird mithilfe des Levenshtein-Algorithmus berechnet und das Ergebnis wird mit dem eingestellten Faktor in % gewichtet. Über den Faktor stellen Sie also ein, welche Felder stärker berücksichtigt werden sollen. Die einzelnen Ergebnisse werden addiert und ergeben den Abstand der beiden Adressen zueinander.

Welche Felder bei der Dublettenprüfung berücksichtigt werden und den zugehörigen Gewichtungsfaktor legen Sie als Administrator im Register Berücksichtigte Felder fest.

Aus Gründen der Performanz kann für die Suche nach Dubletten nicht jede Adresse mit jeder anderen verglichen werden. Bei n Adressen würde dies (n*n-n)/2 Vergleiche bedeuten. Aus diesem Grund werden die Adressen zuvor in Teilmengen eingeteilt und dann nur die Adressen einer Teilmenge miteinander verglichen. Die Einteilung in Teilmengen erfolgt über das Feld Ort.

Über die Anzahl der berücksichtigten Zeichen in Teilmengen-Feldern beeinflussen Sie die Größe der Teilmengen. Ausgangspunkt ist also, dass zwei Dubletten auf jeden Fall in den ersten n-Zeichen des Orts übereinstimmen, damit sie überhaupt als Dublette erkannt werden.

Je höher die Anzahl der bei der Teilmengenbildung berücksichtigten Zeichen n, desto kleiner werden demnach die Teilmengen und umso schneller, aber auch umso ungenauer funktioniert die Dublettensuche. Umgekehrt gilt, je kleiner die Anzahl der Zeichen n ist, desto größer sind die Teilmengen und desto genauer, aber auch langsamer funktioniert die Dublettensuche. Gleichzeitig bedeutet dieses Vorgehen, dass Dubletten, die in den ersten n Zeichen des Ortes nicht übereinstimmen, nie als Dublette erkannt werden.

Die Teilmengen-Felder und die Anzahl der Zeichen, die bei der Teilmengenbildung berücksichtigt werden, legen Sie als Administrator im Register Suchoptionen fest.