Auch Mittelständler profitieren vom Data Lake

Was ist ein Data Lake?

Ein Data Lake dient Unternehmen zur Speicherung, Auswertung und Visualisierung einer nahezu unbegrenzter Menge an Daten. Der Begriff selbst geht auf James Dixon zurück, Gründer und CTO von Pentaho.

Die Speicherung und Verarbeitung großer Datenmengen ist nicht nur für Großkonzerne relevant, auch Mittelständler können von Big Data in erheblichem Maße profitieren. Um die anfallenden Daten aus allen Abteilungen an einem Ort verarbeiten zu können, haben sich zwei Konzepte etabliert: Data Warehouse sowie Data Lake. Diese stehen sich aber keineswegs gegenseitig ausschließend gegenüber, vielmehr können sich beide Arten gut ergänzen, um Big Data zu sammeln und für den unternehmensweiten Gebrauch umgehend zur Verfügung zu stellen.

Vorteile des Data Lakes gegenüber dem Data Warehouse

Der Data Lake hat gegenüber dem Data Warehouse allerdings einen entscheidenden Vorteil: Er ist in der Lage, unstrukturierte und in ihrem Format sehr heterogene Daten aufzunehmen. Beispiele für unstrukturierte Daten sind Fotos, Videos, E-Mails, Word-Dokumente oder Daten aus Systemen, die nicht mit dem Data Warehouse verknüpft sind. Diese werden in ihrer Ursprungsform gesammelt und abgelegt und erst bei Bedarf aufbereitet. Abfragen und Anwendungen von Data Lakes basieren meist auf dem Hadoop-Framework oder Microsoft Azure. Die Einrichtung eines Data Lakes benötigt zwar Expertise und lässt sich nicht ohne einen gewissen zeitlichen Aufwand realisieren, dennoch muss die Prozedur nicht zwangsläufig teuer sein, da mittlerweile kostengünstige Standardhardware zur Verfügung steht.

Für den Einsatz eines Data Warehouse ist im Vergleich dazu eine aufwendigere Vorarbeit notwendig. Data Warehouses und ihre Reporting-Systeme sind zudem weniger flexibel und müssen an neue Strukturen und Datenbanken angeglichen werden. 

Auch interessant: Smart Data wird Recruiting-Prozess revolutionieren

Der Data Lake bietet neben der Fähigkeit, unstrukturierte Daten aufnehmen zu können, eine Reihe von weiteren Vorteilen gegenüber einem Data Warehouse:

  • Dank der großen Menge an bereitgestellten Daten sind aussagekräftigere und tiefer gehende Analysen möglich.
  • Mehr Möglichkeiten der Datenauswertung
  • Schnelle Speichervorgänge der Informationen im Rohformat in Kombination mit geringerer Anforderung an die Rechenleistung
Aktenschränke gehören dank Data Lake und Data Warehouse der Vergangenheit an. Aktenschränke gehören dank Data Lake und Data Warehouse der Vergangenheit an. (© 2018 Shutterstock / Andrey VP)

Anwendungsszenarien eines Data Lakes

Besonders beliebt sind Data Lakes überall dort, wo große Mengen an Sensordaten anfallen oder Daten, die IoT-Geräte über deren Zustand aufzeichnen. So nutzte der Windradhersteller Vestas Big Data, um optimale Standorte für Windkraftanlagen und -parks zu berechnen. Aufgrund der Vielfalt der Daten, die kombiniert werden mussten, bot sich das Konzept des Data Lake an. 

Auch in der Automobilindustrie kommen Data Lakes für vielfältige Anwendungsszenarien in Frage, um anfallende Datenmengen zu verarbeiten. Hier sei vornehmlich die Entwicklung von Fahrassistenzsystemen bis hin zum autonomen Fahren genannt: Bei der Entwicklung dieser Technologie werden Millionen von simulierten Fahrkilometern riesige Datenmengen produziert.

Und auch im Customer Service ist der Einsatz von Data Lakes von Vorteil. Das Kundenverhalten kann besser antizipiert werden, da das Zusammenspiel zwischen dem Betrachten und dem Kaufen der angesehenen Produkte und dem Kauf anderer oder ähnlicher Produkte viel schneller ersichtlich ist. Dem Kunden können dadurch passendere Artikel offeriert werden.

Mit der Einführung der europäischen Datenschutz-Grundverordnung (DSGVO) ist das Thema Datenschutz beim Aufbau von Data Lakes gewichtiger denn je. Mit der Einführung der europäischen Datenschutz-Grundverordnung (DSGVO) ist das Thema Datenschutz beim Aufbau von Data Lakes gewichtiger denn je. (© 2018 Shutterstock / sdecoret)

Probleme mit Data Lakes

Microsoft Azure

Mit Microsoft Azure Deutschland von der Telekom genießen Sie die Vorteile einer global im Einsatz befindlichen Plattform, die sich ständig weiterentwickelt und an die Bedürfnisse von Unternehmen anpasst, ohne dabei auf deutschen Datenschutz und Datenhaltung in Deutschland verzichten zu müssen. Dabei bietet Microsoft Azure eine wachsende Sammlung integrierter Infrastruktur- und Plattformdienste für Analysen, Computing, Datenbanken, Netzwerke, Speicher und das Web.

Hier erfahren Sie mehr.

Die gesammelten Daten in Data Lakes werden im Laufe der Zeit derart groß, dass es schwierig sein kann, den Überblick zu behalten. Unternehmen sollten also in der Lage sein, ausreichend Mitarbeiter dafür abzustellen, immer neue Abfragen und Anwendungen auf Basis des Data Lakes zu entwickeln. Sonst wird das Potenzial dieses flexiblen Konzeptes kaum ausgeschöpft. Zudem sammelt sich auch eine beträchtliche Menge an Datenmüll in den Datenseen, der oft in keiner Weise relevant ist.

Auch interessant: Was man über Big Data wissen sollte

Ein weiterer kritischer Aspekt ist der Datenschutz. Aufgrund der Richtlinien ist es möglich, dass Teile der Datensätze nicht mit erfasst werden und diese unvollständigen Daten nicht mehr für Analysen geeignet sind. So droht ein Data Lake zu einem Data Swamp zu werden – also ein Datensumpf, der zwar Kosten verursacht, aber nur wenig Mehrwert liefert.

Nicht zuletzt setzt die DSGVO der Verarbeitung personenbezogener Daten und der Erstellung von Verbraucherprofilen noch engere Grenzen.