Schreibmaschinendistanz

Ähnlichkeitsmaß für Zeichenketten

Die Schreibmaschinendistanz, auch Tastaturdistanz, (engl. typewriter distance) ist ein Ähnlichkeitsmaß für Zeichenketten. Der Abstand zwischen zwei Zeichen errechnet sich aus der Entfernung dieser Zeichen auf einer QWERTZ- bzw. QWERTY-Tastatur.

Verdeutlichung der Schreibmaschinendistanz anhand einer amerikanischen Tastatur:
Die Buchstaben ‚u‘ und ‚i‘ sind direkt nebeneinander. Sie haben den Abstand 1. Um vom ‚h‘ zum ‚k‘ zu gelangen, muss man über das ‚j‘ gehen. Der Abstand ist 2.

Die Schreibmaschinendistanz wird neben der Editierdistanz und der phonetischen Distanz zur Erkennung von Duplikaten in Datenbanken eingesetzt, beispielsweise wenn Daten aus unterschiedlichen Quellen in einer Datenbank zusammengeführt werden sollen (Data Warehousing).

Die genannten Distanzen können auch eingesetzt werden, um Korrekturvorschläge für die Rechtschreibprüfung von Textverarbeitungssoftware zu ermitteln.

BeispielBearbeiten

Man nehme die Zeichenketten: „Hund“ und „Kind“. Der Abstand zwischen ‚h‘ und ‚k‘ auf einer Tastatur ist 2, der zwischen ‚u‘ und ‚i‘ ist 1. Die Schreibmaschinendistanz zwischen „Hund“ und „Kind“ ist also 3.