RoadRunner
RoadRunner ist ein Java Programm zur Beobachtung von Informationen von HTML-Seiten. Dazu werden die Gemeinsamkeiten und Unterschiede der HTML-Seiten analysiert und daraus wird, falls möglich, ein (union-freier) regulärer Ausdruck berechnet, der die Unterschiede der Dateien beschreibt. Dieser reguläre Ausdruck wird abschließend verwendet, um die Unterschiede aus den HTML-Dateien zu extrahieren. Also ist RoadRunner ein Generator, der automatisch Grammatik basierte Wrapper erzeugt.
RoadRunner | |
---|---|
Basisdaten
| |
Aktuelle Version | 0.02.11 (2004) |
Betriebssystem | plattformunabhängig |
Programmiersprache | Java |
Kategorie | Wrapper, Parsergenerator |
Lizenz | GNU General Public License |
deutschsprachig | nein |
RoadRunner |
Beispiel
BearbeitenEine Buch-Katalog Homepage bestehe aus mehreren HTML-Seiten, die eine gemeinsame Grundstruktur besitzen, wie z. B. ein einheitliches Seiten- und Tabellenlayout. Die Seiten unterscheiden sich darin, das jede Seite eine Tabelle von 1 bis 20 Einträgen zu verschiedenen Büchern enthält. Das Ziel sei nun, die Buchdaten (Autor, Titel usw.) automatisch aus den Seiten zu extrahieren.
Dafür wird eine repräsentative Menge von Katalog-Seiten heruntergeladen, welche von RoadRunner analysiert wird. Als Ausgabe erzeugt das Programm den regulären Ausdruck (ABC)+, welcher die Labels A, B und C enthält und eine XML-Datei mit den extrahierten Daten für jedes Label.
Beispiel von extrahierten Daten in Tabellenform:
Label | Datum |
---|---|
A | Max Frisch |
B | Homo Faber |
C | 1965 |
A | Stefan Zweig |
B | Der Amokläufer |
C | 1930 |
... | ... |
Nach einem Blick auf die extrahierten Daten kann den gefundenen Labels manuell eine Semantik zugeordnet werden:
Label | Bedeutung |
---|---|
A | Autor |
B | Titel |
C | Jahr |
Literatur
Bearbeiten- Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: RoadRunner: Towards Automatic Data Extraction from Large Web Sites. In: Proceedings of the 27th Conference on Very Large Databases (VLDB). 2001 (PDF).
- Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: Automatic Web Information Extraction in the RoadRunner System. In: International Workshop on Data Semantics in Web Information Systems (DASWIS). 2001 (PDF).
- Valter Crescenzi, Giansalvatore Mecca: Automatic information extraction from large websites. In: Journal of the ACM. Band 51, Nr. 5, 2004, ISSN 0004-5411, S. 731–779, doi:10.1145/1017460.1017462.