Environment for DeveLoping KDD-Applications Supported by Index-Structures

Data-mining Entwicklungsumgebung

Environment for DeveLoping KDD-Applications Supported by Index-Structures (ELKI), auf Deutsch etwa „Umgebung zur Entwicklung von Wissensentdeckung-Anwendungen mit Indexstruktur-Unterstützung“, ist ein Forschungsprojekt, das ursprünglich am Datenbanken-Lehrstuhl von Professor Hans-Peter Kriegel an der Ludwig-Maximilians-Universität München entwickelt wurde, und jetzt an der Technischen Universität Dortmund unter der Leitung von Professor Erich Schubert weitergeführt wird.

Environment for DeveLoping KDD-Applications Supported by Index-Structures


ELKI 0.4 visualisiert OPTICS-Ergebnis
Basisdaten

Hauptentwickler Technische Universität Dortmund
Entwickler Ludwig-Maximilians-Universität München
Aktuelle Version 0.8.0
(5. Oktober 2022)
Betriebssystem Plattformunabhängig
Programmiersprache Java
Kategorie Data-Mining, Forschung, Mathematik, Statistik
Lizenz AGPL (von Version 0.4.0 an)
https://elki-project.github.io/

Es handelt sich um ein in Java geschriebenes, modulares Softwarepaket („Framework“) zur Knowledge Discovery in Databases. Der Fokus liegt auf Verfahren zur Clusteranalyse, Ausreißer-Erkennung[1] sowie der Verwendung von Indexstrukturen in solchen Verfahren. Als Forschungsprojekt einer Universität liegt der Fokus auf einer einfachen Erweiterbarkeit, Lesbarkeit und in der Verwendung in Forschung und Lehre an der Universität, nicht in maximaler Geschwindigkeit oder in der Integration mit bestehenden Business-Intelligence-Anwendungen. So verfügt bisher beispielsweise keine der freigegebenen Versionen über eine Datenbankschnittstelle zu bestehenden industriellen Datenbanksystemen, und eine Verwendung der Software setzt Vorwissen und ein Lesen der Dokumentation voraus. Die Zielgruppe für das Projekt sind Forscher, Studenten und Softwareentwickler.

Die modulare Architektur der Software erlaubt zahlreiche Kombinationen der enthaltenen Algorithmen, Datentypen, Distanzmaßen und Indexstrukturen. Bei der Entwicklung neuer Verfahren oder Distanzen kann daher das neue Modul einfach mit den bestehenden Modulen kombiniert und evaluiert werden. Die Visualisierungsmodule erlauben es dabei oft, die Ergebnisse einfach darzustellen und so zu vergleichen. Der Entwicklungsaufwand und die Entwicklungszeit solcher Module wird durch die Wiederverwendung bestehenden Programmcodes erheblich vereinfacht, so dass die Software gut als Basis für Seminar-, Diplom- und Master-Arbeiten verwendet werden kann.

Enthaltene Algorithmen Bearbeiten

In ELKI enthalten sind unter anderem folgende Algorithmen (Auszug):[2][3][4]

Versionsgeschichte Bearbeiten

Version 0.1 (Juli 2008) enthielt bereits zahlreiche Algorithmen aus den Bereichen Clusteranalyse und Ausreißer-Erkennung, sowie einige Indexstrukturen wie den R*-Baum. Der Fokus des ersten Releases war auf Subspace-Clustering-Verfahren.[5]

Version 0.2 (Juli 2009) fügte Funktionen zur Zeitreihenanalyse hinzu, insbesondere Distanzfunktionen hierfür.[6]

Version 0.3 (März 2010) erweiterte die Auswahl an Outlier-Detection-Algorithmen und Visualisierungsmodulen.[7]

Version 0.4 (August 2011) fügt zahlreiche Verfahren zum Erkennen von räumlichen Ausreißern in Geodaten hinzu.[8]

Version 0.5 (April 2012) hat den Schwerpunkt der Evaluierung von Clusteranalyse-Ergebnissen, neue Visualisierungen und ein paar neue Algorithmen.[9]

Version 0.6 (Juni 2013 / Januar 2014) kommt mit einer Erweiterung für 3D Parallele Koordinaten und zusätzlichen Algorithmen.[10]

Version 0.7 (August 2015) fügt unsichere Datentypen und Algorithmen für unsichere Daten hinzu.[11]

Version 0.7.5 (Februar 2019) fügt zusätzliche Clusteringverfahren, Ausreißermethoden, Evaluationsmaße und Indexstrukturen hinzu.[4]

Version 0.8.0 (Oktober 2022) wählt automatisch geeignete Indexstrukturen zur Beschleunigung von Algorithmen, die zuvor vom Nutzer ausgewählt und aktiviert werden mussten.[12]

Auszeichnungen Bearbeiten

ELKI begann als Implementation[13] der Doktorarbeit von Arthur Zimek,[14] die den „SIGKDD Doctoral Dissertation Award 2009 Runner-up“[15] der Association for Computing Machinery für ihre Beiträge zum „Correlation Clustering“ gewann. Die im Zuge der Dissertation publizierten Algorithmen (4C, COPAC, HiCO, ERiC, CASH) zusammen mit ein paar Vorläufern und Vergleichsverfahren sind in ELKI verfügbar.[13]

Die Demonstration der Version 0.4 auf der Konferenz “Symposium on Spatial and Temporal Databases 2011” mit den Geo-Outlier-Erweiterungen für ELKI[8] gewann den “Best Demonstration Paper Award” der Konferenz.

Verwandte Anwendungen Bearbeiten

  • KNIME (Konstanz Information Miner) – Projekt der Universität Konstanz zur interaktiven Datenanalyse in Eclipse.
  • RapidMiner – eine frei und kommerziell verfügbare Anwendung mit dem Schwerpunkt maschinelles Lernen.
  • Scikit-learn – Python-Projekt mit Verfahren aus dem maschinellen Lernen.
  • WEKA – ein ähnliches Projekt der Universität Waikato, mit einem Schwerpunkt auf Klassifizierungs-Algorithmen.

Weblinks Bearbeiten

Belege Bearbeiten

  1. Hans-Peter Kriegel, Peer Kröger, Arthur Zimek: Outlier Detection Techniques. Tutorial. In: 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2009). Bangkok, Thailand 2009 (dbs.ifi.lmu.de [PDF; 1000 kB; abgerufen am 26. März 2010]).
  2. ELKI references overview. Literaturquellen zu Funktionalität in ELKI. Archiviert vom Original am 29. Oktober 2019; abgerufen am 29. Oktober 2019 (englisch).
  3. Data Mining Algorithms in ELKI. Liste der implementierten Algorithmen. Abgerufen am 29. Oktober 2019 (englisch).
  4. a b Erich Schubert, Arthur Zimek: ELKI: A large open-source library for data analysis - ELKI Release 0.7.5 "Heidelberg". 10. Februar 2019, arxiv:1902.03616 [cs.LG].
  5. Elke Achtert, Hans-Peter Kriegel, Arthur Zimek: ELKI: A Software System for Evaluation of Subspace Clustering Algorithms. In: Proceedings of the 20th international conference on Scientific and Statistical Database Management (SSDBM 08). Springer-Verlag, Hong Kong, China 2008, doi:10.1007/978-3-540-69497-7_41 (dbs.ifi.lmu.de [PDF; 80 kB]).
  6. Elke Achtert, Thomas Bernecker, Hans-Peter Kriegel, Erich Schubert, Arthur Zimek: ELKI in time: ELKI 0.2 for the performance evaluation of distance measures for time series. In: Proceedings of the 11th International Symposium on Advances in Spatial and Temporal Databases (SSTD 2010). Springer-Verlag, Aalborg 2009, doi:10.1007/978-3-642-02982-0_35 (dbs.ifi.lmu.de [PDF; 230 kB]).
  7. Elke Achtert, Hans-Peter Kriegel, Lisa Reichert, Erich Schubert, Remigius Wojdanowski, Arthur Zimek: Visual Evaluation of Outlier Detection Models. In: 15th International Conference on Database Systems for Advanced Applications (DASFAA 2010). Springer-Verlag, Tsukuba, Japan 2010, doi:10.1007/978-3-642-12098-5_34.
  8. a b Elke Achtert, Achmed Hettab, Hans-Peter Kriegel, Erich Schubert, Arthur Zimek: Spatial Outlier Detection: Data, Algorithms, Visualizations. In: 12th International Symposium on Spatial and Temporal Databases (SSTD 2011). Minneapolis MN 2011, doi:10.1007/978-3-642-22922-0_41.
  9. Elke Achtert, Sascha Goldhofer, Hans-Peter Kriegel, Erich Schubert, Arthur Zimek: Evaluation of Clusterings Metrics and Visual Support. In: 28th International Conference on Data Engineering (ICDE). Washington DC 2012, doi:10.1109/ICDE.2012.128.
  10. Elke Achtert, Hans-Peter Kriegel, Erich Schubert, Arthur Zimek: Interactive Data Mining with 3D-Parallel-Coordinate-Trees. In: Proceedings of the ACM International Conference on Management of Data (ACM SIGMOD). New York City 2013, doi:10.1145/2463676.2463696.
  11. Erich Schubert, Alexander Koos, Tobias Emrich, Andreas Züfle, Klaus Arthur Schmid, Arthur Zimek: A Framework for Clustering Uncertain Data. In: Proceedings of the VLDB Endowment. Band 8, Nr. 12, 2015, S. 1976–1987 (vldb.org [PDF]).
  12. Erich Schubert: Automatic Indexing for Similarity Search in ELKI. In: Similarity Search and Applications. Band 13590. Springer International Publishing, Cham 2022, ISBN 978-3-03117848-1, S. 205–213, doi:10.1007/978-3-031-17849-8_16 (springer.com [abgerufen am 17. Dezember 2023]).
  13. a b Arthur Zimek: Correlation clustering. In: ACM SIGKDD (Hrsg.): ACM SIGKDD Explorations Newsletter. Band 11, Nr. 1, 2009, S. 53–54, doi:10.1145/1656274.1656286.
  14. Arthur Zimek: Correlation Clustering. Doktorarbeit. Ludwig-Maximilians-Universität München, München 2008, urn:nbn:de:bvb:19-87361 (edoc.ub.uni-muenchen.de [PDF]).
  15. SIGKDD Doctoral Dissertation Award. ACM SIGKDD, archiviert vom Original (nicht mehr online verfügbar) am 29. November 2010; abgerufen am 16. April 2011 (englisch).