Data Warehouse ist die Grundlage für Datenanalysen

Data Warehouse – was ist das?

Das Data Warehouse ist ein zentrales Datenbanksystem, das dem Unternehmen für die Analyse, Extraktion und Sicherung von Daten zur Verfügung steht.

In vielen Unternehmen werden IT-Prozesse irgendwann so komplex, dass es leistungsfähige Tools für ihre automatisierte Steuerung braucht. Aus den unterschiedlichen Geschäftsbereichen kommen verschiedenste Daten zusammen, die zusammengefasst, verknüpft, archiviert und aufbereitet werden sollen – denn die Firmen wollen zum einen den Überblick behalten, zum anderen Big Data auch auswertbar machen. 

An dieser Stelle kommt das Data Warehouse (DWH) ins Spiel. Hier wird Big Data in einem einheitlichen Format zusammengefasst. Diese Plattform ist die Grundlage für Datenanalysen und ermöglicht es Unternehmen, die Erkenntnisse aus dem Datenpool für ihre Entscheidungen zu nutzen. Damit ist das Data Warehouse ein wichtiger Bestandteil des Informations- und Wissensmanagements eines Unternehmens. Es verbessert die Entscheidungsfindung, indem es Daten aus vielen Quellen konsolidiert und archiviert. Und durch die Trennung der Analyseverarbeitung von Transaktionsdatenbanken profitiert die Leistung beider Systeme. 

Auch interessant: Was man über Big Data wissen sollte

In Unternehmen findet das Data Warehouse in diversen Bereichen Anwendung, in denen Betriebsprozesse analysiert und Entscheidungen getroffen werden.

  • Produktionsprozesse lassen sich analysieren und optimieren.
  • Kosten und Ressourcen können ermittelt werden.
  • Datenanalysen können im Personalmanagement hilfreich sein.
  • Unternehmenskennzahlen, Reports und Statistiken können erstellt werden.
  • Durch Data Mining lassen sich Muster, Trends oder Zusammenhänge aufzeigen.
  • Data Warehouse kann in der Kundenanalyse von Nutzen sein.
Das Data Warehouse hilft, aussagekräftige Statistiken zu erstellen. Das Data Warehouse hilft, aussagekräftige Statistiken zu erstellen. (© 2018 Shutterstock / fizkes)

Teilprozesse eines Data Warehouse

Zur Erstellung der Datensammlungen werden sogenannte Data Warehouse-Systeme genutzt. Sie lesen die Daten aus unterschiedlichen Quellen auf, bringen sie in eine homogene Form und bereiten die Daten für Anfragen auf. Das passiert in fünf Teilprozessen:

  • Datenbeschaffung: Zunächst müssen die Daten aus den verschiedenen Geschäftsbereichen beschafft und dort extrahiert werden.
  • Datenhaltung: Im Anschluss werden die Daten im Warehouse komprimiert zusammengefasst und historisiert.
  • Datentrennung: Unverarbeitete Daten müssen von analytischen Daten getrennt werden, damit sie die Performance des Data Warehouse nicht negativ beeinflussen.
  • Datenübermittlung: Nachgelagerte Systeme werden mit den benötigten Daten versorgt und sogenannte Data Marts erstellt, das sind Kopien von Teildatenbeständen.
  • Datenauswertung: Die Datenbestände stehen für Analysen und Auswertungen bereit.

Die zuvor schon erwähnten Data Marts verwalten die Daten eines bestimmten Ressorts oder einer bestimmten Geschäftseinheit, etwa der Finanz-, Marketing- oder Vertriebsabteilung. Diese Datenbanksysteme sind speziell auf ihre Nutzer zugeschnitten.

Immer mehr Daten kommen zusammen – Data Lake und Data Warehouse ergänzen sich gut, um Big Data verarbeiten zu können. Immer mehr Daten kommen zusammen – Data Lake und Data Warehouse ergänzen sich gut, um Big Data verarbeiten zu können. (© 2018 Shutterstock / Apoint)

Data Lake kontra Data Warehouse

Open Telekom Cloud

Cloud Computing mit der Telekom bietet einfache, zuverlässige und kostengünstige Wege in die Big Data-Welt. Typische Anwendungsszenarien für Big Data finden sich im Marketing, E-Commerce oder im Internet of Things (IoT). 

Data Warehouse Service mit der Open Telekom Cloud

Allgemeine Informationen zur Open Telekom Cloud

Das Prinzip des Data Warehouse hat jedoch nicht nur Vorteile – die Hauptschwäche dieses Systems besteht darin, dass es sich bei der Datenbeschaffung in der Regel auf strukturierte Daten in erster Linie aus SQL-Datenbanken konzentriert. Doch viele Daten sind nur in unstrukturierter Form verfügbar. Um solche verarbeiten zu können, bedarf es sogenannter Data Lakes. Diese Speicherorte können große Mengen an Rohdaten in ihrem ursprünglichen Format aufnehmen und bereithalten. Um diese Rohdaten für die Analyse zugänglich zu machen, müssen sie in einem Zwischenschritt jedoch aufbereitet werden. Data Lakes sind daher als gute Ergänzung zum Data Warehouse zu sehen, um Big Data vollumfänglich nutzen zu können.

Auch interessant: „Data Science ist handwerkliche Arbeit“