Das Problem: „n8n läuft – bis es nicht mehr läuft“
In der Praxis scheitert n8n selten an der Idee des Workflows, sondern am Betrieb:
- Fehler laufen unbemerkt durch,
- Retries erzeugen Doppelaktionen,
- ein API-Limit kippt den Prozess,
- nach einem Update ist „irgendwas anders“.
Ziel: Ein Monitoring-Set, das so klein ist, dass ihr es wirklich betreibt – und so stark, dass es Ausfälle früh zeigt.
1) Die 6 Alerts, die (fast) immer Sinn machen
Regel: Jeder Alert braucht einen Owner + Reaktionszeit (SLA) + Standardaktion.
- Workflow-Fehlerquote steigt (z. B. >2% der Runs)
- Einzel-Workflow schlägt wiederholt fehl (z. B. 3× innerhalb 30 min)
- Run-Dauer sprengt Normalbereich (z. B. p95 > X Sekunden)
- Queue/Concurrency staut sich (Runs „hängen“)
- Externe API-Limits/Timeouts (429/5xx-Spikes)
- Datenintegrität (z. B. „0 Datensätze verarbeitet“ obwohl erwartet)
2) Metriken, die ihr wirklich messen solltet (Copy/Paste)
| Metrik | Warum | Typischer Grenzwert |
|---|---|---|
| Erfolgsrate pro Workflow | zeigt Drift & Abhängigkeiten | <98% = anschauen |
| p95 Laufzeit | Performance-Regression | +50% vs. Baseline |
| Retry-Rate | Vorbote für Ausfälle | ansteigend = Ursache |
| Dead-letter/Fehlerpfad Count | zeigt systemische Fehler | >0 pro Tag = prüfen |
| 429/Rate Limit Errors | API-Health | >5% der Requests |
3) Runbook-Minimum (damit nicht jede Störung eskaliert)
Pro kritischem Workflow reichen oft 8 Zeilen:
- Zweck (1 Satz)
- Eingang/Trigger
- Output (was wird wo geschrieben)
- Owner + Stellvertretung
- häufigste Fehler (2–3)
- Standardaktion (Retry/Stop/Manuell)
- Daten-Checks (z. B. „Anzahl Datensätze“)
- Link zur Doku
Wenn ihr das nicht habt, ist Monitoring nur „Lärm“.
4) Typische Anti-Patterns
- Zu viele Alerts → niemand reagiert.
- Kein Daten-Check → Workflow „läuft“, aber produziert Müll.
- Retries ohne Idempotenz → doppelte E-Mails/Tickets.
KPI-Block (Betrieb)
- MTTA (Mean Time To Acknowledge): Wie schnell wird ein Fehler gesehen?
- MTTR (Mean Time To Repair): Wie schnell ist er behoben?
- Fehlerquote je Workflow (Trend, nicht Momentaufnahme)
Nächster Schritt
Wenn ihr n8n in Kanzleien betreibt, ist Monitoring kein Nice-to-have, sondern Voraussetzung.