Zum Hauptinhalt springen
Alle Beiträge
KI & Daten4 Min. Lesezeit

Wir haben unseren Enterprise-Databricks-KI-Plattform-Blueprint als Open Source veröffentlicht

Eine produktionsreife Open-Source-Referenzarchitektur für Azure Databricks — Netzwerk, Sicherheit, MLOps, agentische KI und CI/CD, basierend auf dem Azure Well-Architected Framework.

Eine Enterprise-KI-Plattform von Grund auf aufzubauen ist ein mehrmonatiges Unterfangen. Sie müssen Netzwerk, Sicherheit, Data Governance, Compute, ML-Lifecycle-Management und CI/CD lösen — und alles muss zusammenarbeiten. Die meisten Teams fügen entweder Tutorials zusammen, die kritische Lücken lassen, oder bezahlen Berater, um etwas Proprietäres zu bauen, das sie nie vollständig besitzen können.

Wir haben uns entschieden, das zu ändern. Heute veröffentlichen wir unseren kompletten Enterprise-Databricks-Plattform-Blueprint als Open Source: databricks-enterprise-ai-platform.

Was das ist

Dies ist kein Quickstart oder Hello-World-Terraform-Modul. Es ist eine vollständige Produktions-Referenzarchitektur, die eine Azure-Databricks-Plattform für ML- und LLM-Workloads provisioniert, konfiguriert und betreibt. Jede Designentscheidung ist dem Azure Well-Architected Framework über alle fünf Säulen zugeordnet: Zuverlässigkeit, Sicherheit, Kostenoptimierung, operative Exzellenz und Leistungseffizienz.

Das Repository enthält:

  • 9 Terraform-Module für Landing Zone, Netzwerk, Firewall, Sicherheit, Storage, Monitoring, Databricks, Compute-Integration und Container Registry
  • Delta-Lake-Medallion-Architektur mit Unity-Catalog-Governance
  • 3 Beispiel-ML-Projekte mit echtem Trainingscode (Umsatzprognose, Anomalieerkennung, LLM-Dokumenten-Triage)
  • 3 agentische KI-Muster auf Azure Functions (Orchestrator, Multi-Agent, Monitoring-Responder)
  • 4 GitHub-Actions-Workflows für Infrastruktur- und ML-CI/CD ohne gespeicherte Geheimnisse

Die Architektur

Die Plattform folgt einer Hub-Spoke-Netzwerktopologie:

Das Hub-VNet hostet gemeinsame Dienste — Azure Firewall mit erzwungenem Tunneling, Azure Bastion für sicheren Managementzugang, VPN Gateway mit Entra-ID-Authentifizierung und Private-DNS-Zonen für sieben Azure-Dienste.

Das Spoke-VNet hostet die Workloads — Databricks mit VNet-Injection und Secure Cluster Connectivity (keine öffentlichen IPs auf Compute-Knoten), Azure Functions mit VNet-Integration und Private Endpoints für Storage, Key Vault und Container Registry.

Jeglicher ausgehender Verkehr fließt durch Azure Firewall mit expliziten FQDN-Whitelists. Kein PaaS-Dienst hat einen öffentlichen Endpunkt. Drei benutzerzugewiesene Managed Identities übernehmen die Authentifizierung — keine Passwörter oder API-Keys im gesamten Stack.

Warum wir das gebaut haben

Jedes Enterprise-Engagement, das wir bei CC Conceptualise durchführen, beginnt mit derselben grundlegenden Arbeit: sicheres Netzwerk einrichten, Databricks mit privater Konnektivität konfigurieren, den Data Lake mit korrekter Verschlüsselung aufbauen und CI/CD verdrahten. Wir haben immer wieder dieselben architektonischen Probleme gelöst.

Anstatt dieses Wissen in Kundenprojekten eingeschlossen zu halten, haben wir die Muster in einen wiederverwendbaren, opinionierten Blueprint extrahiert, den jedes Team forken und anpassen kann.

Was das besonders macht

Zero-Trust standardmäßig, nicht nachträglich aufgesetzt. Private Endpoints auf jedem PaaS-Dienst. Firewall-erzwungenes Tunneling für allen ausgehenden Verkehr. OIDC-Federation für CI/CD — kein einziges Client Secret in GitHub.

WAF-Ausrichtung ist dokumentiert, nicht angenommen. Jede Terraform-Ressource enthält Kommentare, die sie spezifischen Well-Architected-Framework-Säulen mit Begründung zuordnen. Das ist audit-fertig.

End-to-End, nicht nur Infrastruktur. Die meisten Open-Source-Terraform-Repos enden bei „hier ist ein Databricks-Workspace". Unseres geht weiter durch Unity-Catalog-Setup, Medallion-Datenpipelines, ML-Modelltraining und -Promotion, agentische KI-Workflows und automatisiertes CI/CD.

Kostenkontrollen eingebaut. Konfigurierbare Budget-Alerts (Standard 1.000$), Cluster-Policies mit maximalen Workern und erzwungenem Auto-Termination, Storage-Lifecycle-Regeln und verbrauchsbasierte Functions.

Die 9 Module

ModulFunktion
landing_zoneRessourcengruppe + Azure-Policy-Enforcement (Tags, Standort, HTTPS, Diagnose)
networkingHub-Spoke-VNets, 7+ Subnetze, NSGs, Routentabellen, NAT Gateway, Private DNS Zones, VPN, Bastion
firewallAzure Firewall mit Application- und Network-Regelsammlungen
securityKey Vault mit Private Endpoint, 3 Managed Identities, RBAC-Rollenzuweisungen
storageADLS Gen2, 4 Container (Bronze/Silver/Gold/MLflow), CMK-Verschlüsselung, Lifecycle-Regeln
monitoringLog Analytics, Application Insights, Aktionsgruppen, Budget-Alerts, geplante Query-Alerts
databricksPremium-Workspace mit VNet-Injection, 4 Private Endpoints, Access Connector
compute_integrationAzure Functions EP1, Service Bus Premium (3 Queues), Event Grid
acrContainer Registry Premium mit Private Endpoint und AcrPull-RBAC

Agentische KI-Muster

Das Repository enthält drei produktionsreife agentische KI-Muster auf Azure Functions:

Durable Orchestrator: Ein sequentieller Workflow, der Daten validiert, einen Databricks-Trainingsjob auslöst, auf Abschluss wartet, Metriken evaluiert und entscheidet, ob das Modell promoted oder abgelehnt wird.

Multi-Agent (Planner-Executor-Critic): Eine iterative Schleife, in der ein Planner-Agent eine Aufgabe zerlegt, ein Executor-Agent sie ausführt und ein Critic-Agent das Ergebnis bewertet — mit bis zu drei Wiederholungsversuchen bei Ablehnung.

Monitoring Responder: Ein ereignisgesteuerter Agent, der durch Service-Bus-Nachrichten von Monitoring-Alerts aktiviert wird. Er klassifiziert den Schweregrad, erstellt einen Incident-Eintrag und führt automatische Gegenmaßnahmen durch.

Erste Schritte

Bash
git clone https://github.com/MedGhassen/databricks-enterprise-ai-platform.git
cd databricks-enterprise-ai-platform

Beginnen Sie mit dem docs/-Verzeichnis für die Architekturdokumentation und die WAF-Ausrichtungsmatrix. Überprüfen Sie dann die Terraform-Variablendefinitionen in den Modulverzeichnissen, um die Konfigurationsoptionen zu verstehen, bevor Sie terraform init und terraform plan ausführen.

Das Projekt steht unter der MIT-Lizenz. Forken Sie es, passen Sie es an, zerlegen Sie es. Wenn Sie etwas Interessantes darauf aufbauen, würden wir gerne davon hören.

Weiterführende Ressourcen

Fragen zum Deployment dieser Plattform oder zur Anpassung an Ihre Infrastruktur? Kontaktieren Sie uns — wir haben sie gebaut und helfen Teams bei der Operationalisierung.

Databricks Enterprise-PlattformAzure Databricks ArchitekturOpen-Source-KI-PlattformMLOps-ReferenzarchitekturAzure Well-Architected Framework

Häufig gestellte Fragen

Was ist das Projekt databricks-enterprise-ai-platform?
Es ist eine produktionsreife Open-Source-Referenzarchitektur für den Aufbau einer End-to-End-KI/ML-Plattform auf Azure Databricks. Sie deckt alles ab — von Hub-Spoke-Netzwerk und Firewall-Regeln über Unity-Catalog-Governance, MLOps-Pipelines und agentische KI-Muster bis hin zu CI/CD-Automatisierung — alles am Azure Well-Architected Framework ausgerichtet.
Ist das für den Produktionseinsatz geeignet?
Ja. Die Architektur erzwingt Zero-Trust-Netzwerk, Private Endpoints auf allen PaaS-Diensten, Managed Identities ohne gespeicherte Geheimnisse und OIDC-Federation für CI/CD. Sie sollten jedoch die Terraform-Variablen, CIDR-Bereiche und Kostenschwellen an die Anforderungen Ihrer Organisation anpassen.
Welche Azure-Dienste nutzt die Plattform?
Die Plattform provisioniert Azure Databricks Premium (VNet-injiziert), ADLS Gen2 mit CMK-Verschlüsselung, Azure Key Vault, Azure Firewall, Azure Functions Premium, Azure Service Bus, Azure Event Grid, Azure Container Registry, Log Analytics, Application Insights und Azure Policy — alles über Private Endpoints in einer Hub-Spoke-Topologie verbunden.
Kann ich das statt Azure auch mit AWS oder GCP nutzen?
Die Terraform-Module sind Azure-spezifisch. Die Architekturmuster — Hub-Spoke-Netzwerk, Medallion-Datenarchitektur, MLOps-Lifecycle und agentische KI-Workflows — sind jedoch Cloud-agnostische Konzepte, die auf AWS- oder GCP-Äquivalente übertragen werden können.
Unter welcher Lizenz steht das Projekt?
Das Projekt steht unter der MIT-Lizenz und erlaubt freie Nutzung, Modifikation und Verbreitung sowohl für kommerzielle als auch nicht-kommerzielle Zwecke.

Brauchen Sie Expertenberatung?

Unser Team ist spezialisiert auf Cloud-Architektur, Security, KI-Plattformen und DevSecOps. Lassen Sie uns besprechen, wie wir Ihrem Unternehmen helfen können.

Verwandte Artikel