Sequenzmuster

bestimmte Abfolge von Werten als relevante Größe beim Data Mining

Ein Sequenzmuster ist die gleichförmige Abfolge von Elementen in Transaktionen. Das Suchen von Sequenzmuster ist eine Methode von Data-Mining. Um ein Beispiel zu nennen, wird bei Transaktionen mit Kundeneinkäufen die folgende Frage gestellt: „Welche Artikel werden nacheinander gekauft?“. Nicht zu verwechseln ist das Sequenzmuster mit der Assoziationsanalyse, welche die Frage stellt: „Welche Artikel werden zusammen gekauft?“.

Für die Untersuchung auf Sequenzmuster muss die Transaktions-Datenbank neben den Elementen der Transaktion auch die Transaktionszeit und ein Zusammengehörigkeitsmerkmal (z. B. Kundennummer) enthalten.

Prinzip Sequenzmuster-Erkennung Bearbeiten

Der Algorithmus zum Finden von Sequenzmustern gliedert sich wie folgt:

  1. Sortierung der Datenbank
    Sortierung nach Zusammengehörigkeitsmerkmal (z. B. Kundennummer) als Primär- und Transaktionszeit als Sekundärschlüssel. Aufbau der Sequenzen sortiert nach Zusammengehörigkeitsmerkmal
  2. Finden der häufigen Itemmengen
  3. Transformation der Datenbank
    Nur noch die häufigen Itemmengen werden den Kunden zugeordnet (dient lediglich der Effizienzsteigerung).
  4. Finden der Sequenzmuster
    Häufige Itemmengen werden zu Sequenzmustern kombiniert und geprüft, ob sie den Mindestsupport erreichen (Analog zum Finden von Assoziationsregeln). Es muss beachtet werden, dass ein gefundenes Muster nicht in einem längeren enthalten ist.

Anwendungsgebiete Bearbeiten

Bioinformatik: Proteinsequenzen in der DNA-Analyse. Die DNA besteht aus vier Basen (A, C, G, T) und 20 Aminosäuren. Die Aufgabe in vielen Bereichen der Bioinformatik besteht im Auffinden von möglichst langen gleichartigen Sequenzen.

Web-Mining: Sequenz von besuchten Internetseiten. Die Sequenz der besuchten Internetseiten, die zu einem erfolgreichen Einkauf in einem Shop oder zu einem Abbruch führen, kann zur Verbesserung des Webauftritts eingesetzt werden.

Quellen Bearbeiten