Cookie Consent by FreePrivacyPolicy.com


Was ist Data Engineering?

Die Grundlage für Business Intelligence und Data Science sind Daten. Das Sammeln, die Aufbereitung und das Validieren der Daten ist die Aufgabe von Data Engineering. Das Data Engineering legt somit die Grundlage für das Reporting, die Erstellung von Dashboards, für KI-Anwendungen und das Machine Learning.

Die Hauptaufgabe des Data Engineerings ist das Bereitstellen von Daten. Dazu müssen Datenspeichersysteme wie eine Datenbank, ein Cloud Data Warehouse oder ein Data Lake bereitgestellt und gewartet werden. Das Datenbankdesign muss auf der Basis eines Datenmodells entwickelt und implementiert werden.

Der Datenfluss in den Speicher und in die Zielanwendungen, die die Daten für Business Intelligence oder Data Science nutzen, wird als Data Pipeline bezeichnet. Mithilfe einer solchen Datenpipeline werden die Daten aus verschiedenen Quellsystemen extrahiert, bereinigt, ergänzt, transformiert und im Datenspeicher abgelegt. Dieser Vorgang wird auch als ETL-Prozess bezeichnet. Für die Verteilung der Daten aus den Datenspeichern in die Zielsysteme stehen unterschiedliche Methoden und Protokolle zur Verfügung.

Im Bereich Data Engineering werden viele verschiedene Tools und Technologien genutzt. Neben klassischen Datenbank-Systemen wie Microsoft SQL Server, Oracle DB oder MySQL werden auch NoSQL-Systeme wie die Objektdatenbank MongoDB, die Graph-Datenbank Neo4j oder Key-Value Datenbanken eingesetzt. Mit Apache Hadoop und den zugehörigen Tools wie z.B. Hive, Kafka, Spark oder HDFS hat sich in den vergangenen Jahren ein ganzes Ökosystem für Big Data entwickelt.

Aktuell verlagert sich das Data Engineering immer weiter in die Cloud. Die großem Cloudanbieter Microsoft Azure, Amazon Web Service (AWS) und Google Cloud bieten mit Anwendungen wie Azure Data Lake Storage, Azure Synapse Analytics, Google Big Query oder Amazon Redshift leistungsfähige Lösungen für die Datenspeicherung und den Datenfluss in der Data Pipeline an.

Wie unterstützen wir unsere Kunden?

Wir unterstützen unseren Kunden bei allen Aufgaben aus dem Bereich Data Engineering oder übernehmen diese Aufgaben als Dienstleister für unsere Kunden.

Wir konzipieren Datenmodelle, finden die passenden Speicherlösung für die Datenstruktur unseren Kunden und implementieren die Datenspeicher – on premise und in der Cloud. Wir prüfen für unseren Kunden, welche Data Engineering Tools, Datenspeichersysteme oder Angebote der Cloudanbieter zu den Anforderungen unseren Kunden passen.

Wir entwickeln und betreiben Datapipelines von den Quell- bis zu den Zielsystemen. Auf Grundlage einer Analyse der Daten aus den Quellsystemen bauen wir ETL-Strecken die eine verlässliche und einheitliche Datenbasis sicherstellen. Außerdem stellen wir den reibungslosen Zugriff der Zielsysteme auf die Daten sicher. Dabei legen wir besonderen Wert auf die Datensicherheit, die Beachtung vorhandener Compliance-Regeln und die Anwendung von Best Practices.

Unsere Technologien
  • Microsoft SSIS
  • Azure Data Factory
  • Azure Data Studio
  • PowerQuery
  • Tableau Prep
  • Alteryx
  • Apache Airflow
  • Scripte auf Basis geeigneter Programmiersprachen (Python, Scala, C#)
Niklas
Niklas Rodenhausen
Unternehmensentwicklung und Strategie

Tel: 0221 / 2220 4968

Per Mail kontaktieren