Azure AI Foundry: Checkliste für den Produktivbetrieb

Einen Agenten zu bauen, der in einer Demo funktioniert, kostet einen Nachmittag. Einen zu bauen, den Sie Kunden, Prüfern und der Geschäftsleitung vorlegen können, kostet erheblich mehr. Das prägende Thema 2026 ist nicht, ob Unternehmen KI-Agenten bauen können — über 160.000 Organisationen haben allein auf Copilot Studio bereits mehr als 400.000 eigene Agenten bereitgestellt. Die Frage ist, ob diese Agenten den Produktivbetrieb überstehen: Zuverlässigkeit, Observability, Sicherheit, Evaluierung und Kostensteuerung.

Dies ist die Checkliste, die wir bei CC Conceptualise verwenden, wenn wir einen Azure-AI-Foundry-Agenten von einem vielversprechenden Piloten zu einem Dienst machen, auf den sich die Organisation tatsächlich verlassen kann. Sie ist bewusst meinungsstark und gründet auf dem, was wir geliefert haben — nicht auf Marketingfolien.

TL;DR / Die wichtigsten Erkenntnisse

Produktionsreife ist ein Betriebsproblem, kein Modellproblem. Die Blocker sind Observability, Autorisierung, Evaluierung und Kosten — nicht das LLM.
Azure AI Foundry ist die Governance-Ebene; das Microsoft Agent Framework 1.0 ist die Laufzeitumgebung. Foundry liefert Identität, Tracing, Evaluierung und Richtlinien rund um Agenten, die auf dem allgemein verfügbaren Framework gebaut sind.
Kein Evaluierungs-Gate, kein Go-Live. Ohne automatisierte Eval-Suite erkennen Sie Qualitäts-, Sicherheits- oder Injection-Regressionen nicht vor Ihren Nutzern.
Least Privilege ist Ihre wichtigste Verteidigung gegen Prompt Injection. Ein eng beschränktes Tool macht aus einer Injection statt eines Vorfalls ein Nichtereignis.
Kostensteuerung ist eine Go-Live-Anforderung, keine Aufräumaufgabe. Token deckeln, Modellstufen bewusst wählen, Kosten pro gelöster Aufgabe verfolgen.

Warum Piloten vor dem Produktivbetrieb stecken bleiben

Das Muster ist über alle Projekte hinweg konsistent. Ein Team baut einen Agenten in Azure AI Foundry, verdrahtet ein paar Tools und eine Datenquelle, zeigt ihn beeindruckend Fragen beantwortend — und bleibt dann stecken. Das Steckenbleiben liegt selten am Modell. Es liegt an den Betriebsfragen, die in der Demo niemand gestellt hat: Was passiert, wenn ein Tool in ein Timeout läuft? Woher wissen wir, warum der Agent letzten Dienstag getan hat, was er getan hat? Worauf kann dieser Agent zugreifen, wenn jemand Anweisungen in ein Dokument einschleust, das er liest? Was kostet er pro Tag, und steht das im Verhältnis zum gelieferten Wert?

Es sind dieselben Fragen, die Sie jedem Produktivdienst stellen würden. Der Unterschied bei Agenten ist, dass die Fehlerbilder weniger offensichtlich sind und der Wirkungsradius größer sein kann, weil ein Agent handelt — er ruft Tools auf, schreibt Daten und koordiniert sich zunehmend mit anderen Agenten über das A2A-Protokoll. Eine Reifegrad-Checkliste macht diese impliziten Fragen explizit und erzwingt eine Antwort vor dem Go-Live.

Die fünf Produktions-Gates

Wir gliedern die Checkliste in fünf Gates. Ein Agent geht erst live, wenn alle fünf grün sind. Die Tabelle ist die Zusammenfassung für die Geschäftsleitung; die folgenden Abschnitte liefern die Details.

Loading diagram...

Gate	Kernfrage	Wichtigste Azure-Werkzeuge	Go/No-Go-Signal
Zuverlässigkeit	Fällt er sicher und vorhersehbar aus?	Foundry-Deployment-Configs, Retry-Richtlinie	SLOs definiert und unter Last erfüllt
Observability	Lässt sich jede Entscheidung rekonstruieren?	Azure Monitor, App Insights, OpenTelemetry-Tracing	Vollständiger Trace pro Lauf, Alerting aktiv
Sicherheit	Worauf greift er zu, und ist die Eingabe vertrauenswürdig?	Entra ID, Managed Identity, Key Vault, RBAC	Least Privilege durchgesetzt, Injection getestet
Evaluierung	Wird Qualität gemessen und gegated?	Azure-AI-Foundry-Evaluierungen	Eval-Suite blockiert Regressionen in CI
Kosten	Sind Ausgaben begrenzt und verhältnismäßig?	Budgets, Warnungen, Token-Metriken	Budget und Alerting pro Agent aktiv

Gate 1: Zuverlässigkeit

Ein Agent ist ein verkapptes verteiltes System. Jeder Modellaufruf, jede Tool-Invocation und jeder A2A-Hop ist ein Netzwerkaufruf, der langsam sein, scheitern oder Unsinn zurückgeben kann. Produktive Zuverlässigkeit beginnt damit, das auch so zu behandeln.

Definieren Sie SLOs für Latenz und Aufgaben-Erfolgsquote und testen Sie unter Last — Agenten verhalten sich unter Parallelität völlig anders als in der Einzelnutzer-Demo.
Setzen Sie explizite Timeouts und begrenzte Retries mit Backoff bei jedem Tool- und Modellaufruf. Unbegrenzte Retries sind der Weg, auf dem ein kurzer Aussetzer zum Kostenvorfall wird.
Legen Sie ein deterministisches Fallback-Verhalten fest. Ist ein Tool nicht verfügbar, soll der Agent kontrolliert degradieren und es dem Nutzer sagen — nicht eine plausibel klingende Antwort halluzinieren.
Deckeln Sie Agenten-Schleifen. Jede autonome Planungsschleife braucht eine maximale Schrittzahl, damit ein verwirrter Agent nicht unbegrenzt läuft.

Gate 2: Observability

Dieses Gate überspringen Teams am häufigsten — und bereuen es am häufigsten. Wenn Sie die Frage "Warum hat der Agent das getan?" nicht beantworten können, können Sie ihn weder betreiben noch debuggen noch gegenüber einem Prüfer verteidigen.

Instrumentieren Sie verteiltes Tracing über den gesamten Lauf: den Prompt und seine Eingaben, jeden Tool-Aufruf und sein Ergebnis, jede A2A- und MCP-Server-Interaktion sowie den Token-Verbrauch. Das Microsoft Agent Framework emittiert OpenTelemetry-kompatible Traces; exportieren Sie sie nach Azure Monitor und Application Insights, zusammen mit strukturierten Logs und Metriken. Bauen Sie Dashboards für Latenz, Fehlerrate, Token-Ausgaben und Evaluierungswerte und verdrahten Sie Alerts mit der Rufbereitschaft. In einem Projekt kostete das Nachrüsten von Tracing auf einen bereits laufenden Agenten den Kunden mehr, als es von Anfang an richtig zu bauen — Observability ist vor dem Go-Live günstig und danach teuer.

Gate 3: Sicherheit

Agenten handeln in der Welt, was ihre Berechtigungen zum Schwerpunkt der Sicherheit macht.

Identität: Authentifizieren Sie den Agenten über Entra ID mit einer Managed Identity. Keine API-Schlüssel in der Konfiguration, keine geteilten Secrets.
Least Privilege: Beschränken Sie jede Tool- und Datenverbindung auf das nötige Minimum. Ein Agent, der nur eine Wissensbasis liest, braucht nirgends Schreibrechte.
Jede Modelleingabe als nicht vertrauenswürdig behandeln: Prompt Injection ist nicht theoretisch. Jedes Dokument, jede E-Mail, jede Webseite, die der Agent aufnimmt, kann Anweisungen enthalten. Least-Privilege-Beschränkung ist es, was aus einer erfolgreichen Injection statt eines Vorfalls ein Nichtereignis macht.
Secrets: Im Key Vault ablegen, zur Laufzeit referenzieren und keine dauerhaften Zugangsdaten in der Agentendefinition belassen.
Tool-Allow-Listing: Der Agent darf nur eine explizit freigegebene Menge von Tools aufrufen, serverseitig validiert.

Gate 4: Evaluierung

Ohne Evaluierung fliegen Sie bei der Qualität blind. Jede Prompt-Anpassung, jeder Modellwechsel und jedes neue Tool kann das Verhalten unbemerkt verändern.

Bauen Sie einen Datensatz repräsentativer und adversarialer Fälle und lassen Sie ihn als Teil der CI durch die Azure-AI-Foundry-Evaluierungen laufen. Bewerten Sie die für Ihren Use Case relevanten Dimensionen: Fundiertheit gegenüber den Quellen, faktische Korrektheit, Sicherheit und Injection-Resistenz. Etablieren Sie eine Baseline und machen Sie die Eval-Suite zum harten Freigabe-Gate — jede Regression blockiert das Deployment. Das ist die wirksamste einzelne Kontrolle, um einen produktiven Agenten über die Zeit ehrlich zu halten, und genau die, die den meisten Piloten gänzlich fehlt.

Gate 5: Kostensteuerung

Token-Ausgaben skalieren mit der Nutzung auf eine Weise, die leicht unterschätzt und nach dem Go-Live schwer zurückgeholt wird.

Setzen Sie Token-Budgets pro Agent mit Warnungen — vor, nicht nach der Rechnung.
Wählen Sie Modellstufen bewusst — leiten Sie einfache Schritte an kleinere Modelle und reservieren Sie Frontier-Modelle für Schritte, die sie wirklich brauchen.
Cachen Sie deterministische oder wiederholte Aufrufe, wo es sicher ist.
Verfolgen Sie die Kosten pro gelöster Aufgabe als ökonomische Leitkennzahl. Ausgaben, die nicht an gelieferten Wert gekoppelt sind, gehören zuerst hinterfragt.

Governance und die regulatorische Ebene

Für europäische Unternehmen erfüllt die Checkliste eine Doppelfunktion. Die obigen Kontrollen sind nicht nur gutes Engineering — sie sind die Nachweisgrundlage für die Compliance. Ein Agent, der personenbezogene Daten verarbeitet, Entscheidungen unterstützt oder innerhalb einer wesentlichen Einrichtung läuft, bringt EU AI Act, DSGVO, NIS2 und DORA in den Anwendungsbereich. Das Observability-Gate erzeugt die Protokollierung und Nachvollziehbarkeit, die Prüfer erwarten. Das Sicherheits-Gate ist Ihr Nachweis der Zugriffs-Governance. Das Evaluierungs-Gate liefert dokumentierte Belege, dass das System wie behauptet funktioniert — ein Baustein der Konformitätsbewertung. Menschliche Aufsicht — festzulegen, welche Aktionen eine Freigabe erfordern, und unveränderliche Audit-Logs vorzuhalten — ist zugleich Sicherheitskontrolle und regulatorische Erwartung.

Unser durchgängiger Rat: Bauen Sie diese Nachweise von Tag eins an mit. Dokumentation und Nachvollziehbarkeit auf einen laufenden, undokumentierten Agenten nachzurüsten, gehört zu den teuersten Formen technischer Schulden, die uns begegnen — und sie tritt typischerweise zum denkbar ungünstigsten Zeitpunkt zutage, während eines Audits oder eines Vorfalls.

Alles zusammengeführt

Der Weg vom Pilot in den Produktivbetrieb ist überwiegend unspektakuläres Engineering: Tracing, Retries, beschränkte Berechtigungen, ein Eval-Harness und eine Budgetwarnung. Nichts davon ist neuartig, und genau das ist der Punkt. Die Organisationen, die 2026 mit Agenten erfolgreich sind, haben nicht die cleversten Prompts; sie haben gewöhnliche Betriebsdisziplin auf eine außergewöhnliche neue Fähigkeit angewandt. Führen Sie einen Agenten durch diese fünf Gates, und Sie wissen — mit Nachweisen, nicht mit Optimismus —, ob er bereit ist.

Wenn Sie vor dem Go-Live ein zweites Paar erfahrener Augen auf einen Foundry-Agenten werfen lassen möchten: Unser Team für KI- und Datenplattform-Engineering leistet genau diese Art von Produktionshärtung. Kein Body-Shop, kein Geschwätz — Praktiker, die es geliefert haben.

FAQ

Wann ist ein Azure-AI-Foundry-Agent produktionsreif?

Produktionsreif bedeutet, dass der Agent denselben Betriebsanforderungen genügt wie jeder andere geschäftskritische Dienst: messbare Zuverlässigkeitsziele, durchgängiges Tracing, durchgesetzte Autorisierung bei jedem Tool- und Datenzugriff, eine automatisierte Evaluierungssuite als Freigabe-Gate sowie Kostenkontrollen mit Budgetwarnungen. Eine Demo, die nur den Glücksfall abdeckt, ist nicht produktionsreif. Genau diesen Übergang vom Pilot zum kontrollierten Produktivbetrieb prägt 2026.

Wie hängen Azure AI Foundry und das Microsoft Agent Framework zusammen?

Azure AI Foundry ist die zentrale Plattform zum Erstellen, Bereitstellen und Governen von Agenten, während das Microsoft Agent Framework 1.0 (seit 3. April 2026 allgemein verfügbar) die quelloffene Laufzeitumgebung für .NET und Python ist, mit der Sie Agenten bauen. Das Framework liefert das A2A-Protokoll (Agent-to-Agent) und die Integration des Model Context Protocol; Foundry liefert die Hosting-, Identitäts-, Observability-, Evaluierungs- und Governance-Ebene darum herum.

Brauche ich Evaluierungen vor dem Go-Live, oder reicht das später?

Sie brauchen sie vor dem Go-Live. Ohne automatisierte Evaluierungssuite haben Sie keine objektive Möglichkeit, Qualitätsregressionen, Anfälligkeit für Prompt Injection oder Halluzinationsraten zu erkennen, sobald Sie einen Prompt, eine Modellversion oder ein Tool ändern. Behandeln Sie die Evaluierung als Freigabe-Gate, nicht als nachträgliche Kür. Wir haben wiederholt erlebt, dass Teams ohne sie live gingen und Regressionen erst durch Nutzerbeschwerden bemerkten.

Was sind die häufigsten Gründe, warum Foundry-Agenten im Produktivbetrieb scheitern?

Die wiederkehrenden Fehler sind fehlende Observability (man sieht nicht, warum ein Agent etwas getan hat), zu weit gefasste Tool-Berechtigungen, die aus einer Prompt Injection einen echten Sicherheitsvorfall machen, ein fehlendes Evaluierungs-Gate, sodass Qualität unbemerkt abdriftet, sowie ungedeckelte Token-Ausgaben. Keines davon ist ein Modellproblem; es sind Lücken in Betrieb und Governance, die eine Reifegrad-Checkliste schließt.

Wie verhält sich diese Checkliste zu EU-Regulierung wie EU AI Act und NIS2?

Viele Unternehmensagenten verarbeiten personenbezogene Daten, treffen oder unterstützen Entscheidungen oder laufen in Umgebungen wesentlicher Einrichtungen, womit EU AI Act, DSGVO, NIS2 und DORA in den Anwendungsbereich fallen. Die Kontrollen der Checkliste — Protokollierung und Nachvollziehbarkeit, menschliche Aufsicht, Evaluierungsnachweise und Zugriffs-Governance — bilden direkt die Dokumentations- und Risikomanagementmaßnahmen dieser Regelwerke ab. Diese von Anfang an mitzubauen ist weit günstiger, als Nachweise später nachzurüsten.

Wie lange dauert es, einen Pilot-Agenten in den Produktivbetrieb zu bringen?

Für einen klar umrissenen Agenten mit eindeutigem Use Case dauert das Härten eines funktionierenden Piloten zu einem governten Produktivdienst typischerweise einige fokussierte Wochen, dominiert von Observability-Verdrahtung, Evaluierungssuite, Sicherheitsprüfung und Kostenkontrollen statt von Modellarbeit. Der Zeitraum wächst mit der Zahl der Tools, der Datenquellen und der regulatorischen Einstufung des Use Case.