Data-Lake

Ein Data Lake ist ein System oder ein Repository von Daten, die im Rohdatenformat gespeichert sind
(Weitergeleitet von Data Lake)

Ein Data Lake (wörtlich übersetzt Datensee) ist in der Wirtschaftsinformatik ein System oder ein Repository von Daten, die im Rohdatenformat gespeichert sind, normalerweise Blobs oder Dateien. Ein Data-Lake ist in der Regel ein einziger Speicher für alle Unternehmensdaten, einschließlich Rohkopien von Quellsystemdaten und transformierten Daten, die für Aufgaben wie Berichterstellung, Visualisierung, erweiterte Analysen und maschinelles Lernen verwendet werden. Ein Data-Lake kann strukturierte Daten aus relationalen Datenbanken (Zeilen und Spalten), aus CSV, XML oder JSON-Formaten oder unstrukturierte Daten z. B. E-Mails, Dokumente, PDF-Dateien und binäre Daten (Bild, Ton, Speicherabbilder) enthalten.

Datensammlung

Data Lakes werden in Branchen wie Einzelhandel, Bankwesen oder Hotel- und Gastgewerbe und sogar in der Reisebranche verwendet, für die Verfolgung und die Vorhersage von Kunden Vorlieben und die Verbesserung der gesamten Kundenerfahrung.[1]

Neben den Daten werden auch generische Analysemethoden abgelegt, sodass diese ebenfalls für die zentral gespeicherten Daten zur Verfügung stehen und nicht im Vorfeld jedes Analyseprozesses zusammengetragen werden müssen.[2] Daher benötigen Data Lakes normalerweise viel mehr Speicherkapazität als Data Warehouses. Darüber hinaus sind unverarbeitete Rohdaten formbar, lassen sich schnell für die unterschiedlichsten Zwecke analysieren und sind ideal für maschinelles Lernen.

Ein Daten-Sumpf (data swamp) ist ein nicht verwalteter Data-Lake, der entweder für die vorgesehenen Benutzer nicht zugänglich ist oder wenig Wert bietet. Data-Sümpfe entstehen wenn keine angemessenen Datenqualitäts- und Data Governance-Maßnahmen durchgeführt werden.

Unterschiede zum Data WarehouseBearbeiten

Im Data-Warehouse-Konzept werden bestimmte Daten nach dem ETL-Schema aus den Quellsystemen extrahiert, transformiert und in das zentrale Data Warehouse geladen.

Dagegen werden im Data-Lake-Konzept alle Daten aus den Quellsystemen geladen. Es werden keine Daten abgewiesen. Die Daten werden in einem nicht oder fast nicht transformierten Zustand gespeichert. Erst zur Datenvisualisierung oder Datenanalyse werden die Daten aufbereitet.[3] Der Vorteil der strukturiert auswertbaren Daten des Data Warehouses wird zu Gunsten einer höheren Flexibilität aufgegeben. Die Anforderung an die Kenntnis der Datenstruktur steigen entsprechend.[4]

EinzelnachweiseBearbeiten

  1. Aufbau eines besseren Data Lake. Abgerufen am 15. Januar 2021.
  2. Freiknecht, Jonas: Big Data in der Praxis : Lösungen mit Hadoop, HBase und Hive ; Daten speichern, aufbereiten, visualisieren. Hanser, München 2014, ISBN 978-3-446-43959-7, S. 21.
  3. Chris Campbell: Top Five Differences between Data Lakes and Data Warehouses. Abgerufen am 20. Februar 2020 (amerikanisches Englisch).
  4. Data Lake vs. Data Warehouse: Wichtige Unterschiede – Talend. Abgerufen am 20. Februar 2020.