Datenvirtualisierung

Begriff der Datenarchitektur

Unter dem Begriff Datenvirtualisierung werden gewisse Ansätze im Bereich des Datenmanagements als Teilmenge der Datenintegration zusammengefasst. Diese ermöglichen es, Daten aus Quellsystemen abzufragen und zu manipulieren, ohne dass deren technische Detailinformationen – wie die Struktur der Datenquelle oder der physische Speicherort – dem abfragenden System bekannt sein müssen.[1]

Die Datenvirtualisierung kann hierbei als Alternative zum Data-Warehouse-Ansatz mit seinen ETL-Prozessen angesehen werden, bei denen die Daten aus den Quellsystemen extrahiert, transformiert und schließlich in das analytische System geladen werden.[2] Die Daten verbleiben im Gegensatz dazu in ihren ursprünglichen Systemen, die Virtualisierungskomponente greift direkt auf diese Daten zu und stellt sie zur weiteren Manipulation oder dem Konsum durch weitere Anwendungen bereit.

Um die Heterogenität der Daten (Unterschiede in Datenquellen, Format und Semantik) aufzuheben, kommen verschiedene Abstraktions- und Transformationstechniken zum Einsatz.

Mögliche Vorteile dieses Ansatzes sind die Reduzierung fehlerhafter Daten und – bei entsprechendem Entwurf der Virtualisierungskomponente – eine geringere Auslastung der beteiligten Systeme. Des Weiteren besteht die Möglichkeit, Daten wieder zurück in die Quellsysteme zu schreiben.[3]

Typische Einsatzgebiete des Konzeptes und entsprechender Software bestehen in der Business Intelligence, im Bereich der serviceorientierten Architektur, im Cloud Computing, bei der Enterprise Search und dem Stammdatenmanagement.

Datenvirtualisierung und Data-Warehousing Bearbeiten

Viele Systemlandschaften in Unternehmen bestehen aus ungleichen Datenquellen, einschließlich mehrerer Data-Warehouses, Data-Marts und/oder Data-Lakes. Die Datenvirtualisierung kann eine Brücke über diese Quellsysteme schlagen, ohne eine zusätzliche physische Datenhaltung vornehmen zu müssen. Die vorhandene Dateninfrastruktur kann weiterhin ihre Kernfunktionen ausführen, während die Datenvirtualisierungsschicht lediglich die Daten aus diesen Quellen nutzt. Dieser Aspekt kann zur Erhöhung der Datenverfügbarkeit und -Nutzung beitragen.

Datenvirtualisierung kann auch als Alternative zu ETL-Prozessen und Data-Warehousing betrachtet werden. Das Konzept zielt darauf ab, Erkenntnisse aus mehreren Datenquellen schnell und rechtzeitig bereitzustellen, ohne dass umfangreiche ETL-Prozesse und zusätzlichem Datenspeicher erforderlich sind. Die Datenvirtualisierung kann jedoch erweitert und angepasst werden, um auch Data Warehousing-Anforderungen zu erfüllen. Dies erfordert ein Verständnis der Anforderungen an den Datenspeicher sowie die Historisierung, zusammen mit Planung und Entwurf, um passende Datenvirtualisierungs-, Integrations- und Speicherstrategien auszuwählen sowie Infrastruktur-/Leistungsoptimierungen (z. B. Streaming, In-Memory, Hybrid-Speicher) vornehmen zu können.

Beispiele Bearbeiten

  • The Phone House – der Handelsname für die europäischen Niederlassungen der britischen Handy-Einzelhandelskette Carphone Warehouse – implementierte Denodos Datenvirtualisierungstechnologie zwischen den Transaktionssystemen seiner spanischen Tochtergesellschaft und den webbasierten Systemen der Mobilfunkbetreiber.[3]
  • Novartis implementierte ein Datenvirtualisierungstool von Composite Software und ermöglicht seinen Forschern damit, Daten aus internen und externen Quellen schnell zu einem durchsuchbaren virtuellen Datenspeicher zu kombinieren
  • Primary Data (jetzt Hammer.space) war eine Virtualisierungsplattform, die es Applikationen, Servern und Clients ermöglichte, transparent auf Daten zuzugreifen, während diese intelligent zwischen Direct Attached Storage, Network Attached Storage, privatem und öffentlichem Cloudspeicher bewegt wurden.
  • Linked Data kann einen einzigen hyperlink-basierten Data Source Name (DSN) nutzen, eine Verbindung zu einer virtuellen Datenbankschicht zur Verfügung zu stellten, an die wiederum verschiedene Datenquellen über ODBC, JDBC, OLE DB, ADO.NET, SOA-Services, und/oder REST angebunden sind.
  • Datenbankvirtualisierung kann einen einzigen ODBC-basierten DNS verwenden, eine Verbindung zu einer virtuellen Datenbankschicht zur Verfügung zu stellen.

Funktionen Bearbeiten

Lösungen für Datenvirtualisierungen bieten eine Auswahl oder alle der folgenden Funktionen:

  • Abstraktion – Abstrahieren des technischen Aspekts der gespeicherten Daten wie Speicherort, Speicherstruktur, API, Abfragesprache und Speichertechnologie
  • Virtualisierter Datenzugriff – Zugriff auf verschiedene Datenquellen und Verfügbarmachung der Daten an einem gemeinsamen logischen Zugriffspunkt
  • Transformation – Transformation, Datenqualitätsverbesserungen, Umformatierung, Aggregation der Quelldaten
  • Datenföderierung – Kombination von Ergebnismengen aus mehreren Quellsystemen
  • Datenauslieferung – Veröffentlichen von Ergebnismengen als Sichten und/oder Daten-Services, die von Client-Applikationen oder Nutzern aufgerufen werden können

Darüber hinaus kann Software zur Datenvirtualisierung Funktionen für Entwicklung, Betrieb und/oder Verwaltung beinhalten.

Folgende Vorteile können bei korrekter Anwendung mit dem Konzept der Datenvirtualisierung erzielt werden:

  • Reduzierung fehlerhafter Daten
  • Reduzierung der Systemauslastung durch den Verbleib der Daten im Quellsystem
  • Erhöhte Zugriffsgeschwindigkeiten
  • Reduzierung der notwendigen Zeit für Entwicklung und Support
  • Erhöhte Governance und verminderte Risiken durch die Anwendung von Richtlinien[4]
  • Reduzierung des Speicherbedarfs[5]

Mögliche Nachteile sind hierbei:

  • Operationale Systeme könnten in ihren Antwortzeiten beeinträchtigt werden. Vor allem, wenn sie unerwartete Abfragen nicht bewältigen können.[6]
  • Datenvirtualisierung erzwingt kein heterogenes Datenmodell, dies bedeutet, dass der Benutzer die Daten interpretieren muss, es sei denn, es wird mit der Datenföderierung und dem Geschäftsverständnis der Daten kombiniert.[7]
  • Datenvirtualisierung erfordert einen definierten Governance-Ansatz, um Budgetierungsprobleme bei den gemeinsam genutzten Diensten zu vermeiden.
  • Datenvirtualisierung eignet sich nicht zur Historisierung von Daten. Ein Data-Warehouse ist hierfür besser geeignet.[7]
  • Change Management ist mit einem erhöhten Aufwand verbunden, da alle Änderungen am virtuellen Datenmodell von allen konsumierenden Anwendungen und Benutzern akzeptiert werden müssen.[7]

Technologie Bearbeiten

Einige Lösungen und Anbieter für Datenvirtualisierung:

Geschichte Bearbeiten

Enterprise Information Integration (EII) (erstmals erwähnt von Metamatrix) und Föderiertes Datenbanksysteme sind Begriffe, die von einigen Lieferanten verwendet werden um ein Kernelement der Datenvirtualisierung zu beschreiben: Die Fähigkeit, relationale Joins in einer föderierten Sicht zu erstellen.

Literatur Bearbeiten

  • Judith R. Davis, Robert Eve: Data Virtualization: Going Beyond Traditional Data Integration to Achieve Business Agility.
  • Rick van der Lans: Data Virtualization for Business Intelligence Systems: Revolutionizing Data Integration for Data Warehouses.
  • Anthony Giordano: Data Integration Blueprint and Modelling: Techniques for a Scalable and Sustainable Architecture.

Einzelnachweise Bearbeiten

  1. "What is Data Virtualization?" Margaret Rouse, TechTarget.com, abgerufen am 19. August 2013
  2. Data Virtualization – dataWerks. In: www.datawerks.com. Archiviert vom Original am 10. April 2018; abgerufen am 14. September 2018 (amerikanisches Englisch).
  3. a b "Data virtualisation on rise as ETL alternative for data integration" Gareth Morgan, Computer Weekly, abgerufen am 19. August 2013
  4. "Rapid Access to Disparate Data Across Projects Without Rework" Informatica, abgerufen am 19. August 2013
  5. Data virtualization: 6 best practices to help the business 'get it' Joe McKendrick, ZDNet, 27. Oktober 2011
  6. "IT pros reveal benefits, drawbacks of data virtualization software" Mark Brunelli, SearchDataManagement, 11. Oktober 2012
  7. a b c "The Pros and Cons of Data Virtualization" Loraine Lawson, BusinessEdge, 7. Oktober 2011
  8. https://capsenta.com/
  9. http://querona.com/
  10. https://www.tibco.com/products/data-virtualization