Warum diese Checkliste?
Der häufigste Fehler: „Workflow läuft" wird mit „Workflow ist betriebsfähig" verwechselt. Ein Workflow, der funktioniert, ist noch lange nicht produktionsreif.
Go-live heißt: Fehler werden bemerkt, verstanden und behoben – ohne Bauchgefühl, ohne „mal nachschauen", ohne Mandanten-Beschwerden als Frühwarnsystem.
Das Problem mit „Es läuft doch"
Ein Workflow funktioniert im Test. Super. Aber was passiert, wenn:
- Die API antwortet mal nicht?
- Ein Pflichtfeld leer ist?
- Der gleiche Datensatz zweimal kommt?
- Der Owner im Urlaub ist?
- Niemand merkt, dass seit 3 Tagen nichts mehr läuft?
Ohne Vorbereitung wird jedes dieser Szenarien zum Feueralarm.
Die 10 Punkte vor Go-live
1. Owner + Vertretung festgelegt
Nicht „das Team", sondern eine konkrete Person. Plus eine Vertretung, die weiß, wie es funktioniert.
Prüffrage: Wenn um 22 Uhr ein Alert kommt – wen rufen wir an?
2. Ziel & KPI definiert
Jeder Workflow hat genau einen Erfolgs-KPI. Nicht fünf, einen.
Beispiele:
- Lead-Intake: Zeit bis Erstreaktion <4h
- Dokumenten-Workflow: Fehlerquote <2%
- Reporting: Pünktlichkeitsquote >95%
3. Trigger-Monitoring eingerichtet
Würdet ihr merken, wenn 24 Stunden lang nichts läuft? Die meisten Workflows haben einen erwarteten Rhythmus. Wenn er abweicht, muss ein Alert kommen.
Beispiel: Lead-Intake bekommt normalerweise 3-10 Anfragen/Tag. Wenn einen ganzen Tag lang 0 Anfragen kommen, ist wahrscheinlich etwas kaputt.
4. Fehlerpfad definiert
Was passiert bei Fehlern?
- Retry: Wie oft, in welchen Abständen?
- Dead-Letter-Queue: Wo landen fehlgeschlagene Datensätze?
- Benachrichtigung: Wer erfährt davon?
- Manuelle Nachbearbeitung: Wie geht das?
Regel: Keine Daten einfach „verlieren".
5. Logging eingerichtet
Relevante IDs und Referenzen werden geloggt – aber keine sensiblen Inhalte.
Geloggt werden:
- Externe IDs (Lead-ID, Mandanten-Nummer)
- Timestamps
- Status-Übergänge
- Fehler mit Kontext
Nicht geloggt werden:
- Persönliche Daten
- Passwörter, API-Keys
- Vollständige Dokumente
6. Secrets/Keys: Rotation geplant
Wer erneuert API-Keys, wenn sie ablaufen? Wann laufen sie ab?
Dokumentiert:
- Liste aller Secrets mit Ablaufdatum
- Owner für jedes Secret
- Rotations-Prozess (wie lange dauert es?)
7. Datenvalidierung am Eingang
Schlechte Daten früh abfangen, nicht mittendrin im Workflow.
Minimal:
- Pflichtfelder vorhanden?
- Format korrekt (E-Mail, Telefon)?
- Erwartete Werte (Status aus bekannter Liste)?
8. Idempotenz sichergestellt
Wenn der gleiche Datensatz zweimal ankommt (passiert häufiger als gedacht), darf er nicht zweimal verarbeitet werden.
Prüffrage: Was passiert, wenn ein Webhook zweimal feuert?
9. Runbook dokumentiert
Eine Seite, die alles Wichtige enthält:
- Was macht der Workflow?
- Wie wird er getriggert?
- Was sind die Outputs?
- Top 3 Fehler + Lösungen
- Wie funktioniert der Fallback?
10. Testfälle durchgespielt
Mindestens 5 echte Varianten, nicht nur der Happy Path:
- Normalfall (alles korrekt)
- Fehlende Daten (Pflichtfeld leer)
- Ungültige Daten (falsches Format)
- Duplikat (gleicher Datensatz nochmal)
- Ausfall (API nicht erreichbar)
Checkliste zum Abhaken
| # | Punkt | Status |
|---|---|---|
| 1 | Owner + Vertretung | ☐ |
| 2 | KPI definiert | ☐ |
| 3 | Trigger-Monitoring | ☐ |
| 4 | Fehlerpfad (Retry, Dead-Letter) | ☐ |
| 5 | Logging (ohne sensible Daten) | ☐ |
| 6 | Secrets-Rotation geplant | ☐ |
| 7 | Datenvalidierung am Eingang | ☐ |
| 8 | Idempotenz geprüft | ☐ |
| 9 | Runbook vorhanden | ☐ |
| 10 | 5 Testfälle bestanden | ☐ |
Regel: Alle 10 Punkte müssen grün sein vor Go-live. Keine Ausnahmen.
Mini-Runbook-Template
Workflow: [Name]
Owner: [Name + Kontakt]
Vertretung: [Name + Kontakt]
Trigger: [Was startet den Workflow?]
Erwartete Frequenz: [z.B. 5-20x/Tag]
Outputs:
- [Wohin gehen die Daten?]
- [Welche Systeme werden aktualisiert?]
Fehlerfälle:
1) API nicht erreichbar
→ Retry 3x, dann Dead-Letter + Alert
2) Pflichtfeld fehlt
→ Validation Error, manuelle Queue
3) Duplikat erkannt
→ Skip, Log, kein Alert
Fallback (manuell):
[Wie arbeitet man weiter, wenn der Workflow komplett ausfällt?]
Letzte Änderung: [Datum]
Nächster Schritt
Nehmt euren wichtigsten Workflow und geht die 10 Punkte durch. Wo sind die Lücken?