Das Problem: Zwischen Bauchgefühl und belastbarer Evidenz
"Das Tool funktioniert gut" – so klingt die häufigste Antwort, wenn man Teams nach ihrer KI-Erfahrung fragt. Aber was heisst "gut"? Im Vergleich zu was? Gemessen woran? Die Lücke zwischen subjektivem Eindruck und objektivem Nachweis ist bei KI-Projekten besonders gross.
Für Entscheider, die KI-Budgets verantworten, reicht ein gutes Gefühl nicht aus. Sie brauchen belastbare Evidenz – gegenüber der Geschäftsführung, dem Controlling und nicht zuletzt gegenüber sich selbst. Gleichzeitig sollten sie diese Evidenz auch von Anbietern einfordern können, bevor sie investieren.
Dieser Artikel zeigt, wie Sie ein Evidenz-Framework für KI-Tools aufbauen und welche Testansätze in der Praxis funktionieren. Dass Unternehmen den Erfolg ihres KI-Einsatzes zunehmend an messbaren Kennzahlen festmachen, dokumentiert der Bitkom-Studienbericht zu Künstlicher Intelligenz [3]; international vergleichbare Leistungs- und Benchmark-Daten liefert der Stanford-HAI-AI-Index [4].
Was "Wirksamkeit" bei KI-Tools bedeutet
Bevor gemessen wird, sollte definiert sein, was überhaupt gemessen werden soll. Wirksamkeit ist kein eindimensionales Konzept. Bei KI-Tools lassen sich mindestens vier Wirksamkeitsdimensionen unterscheiden:
| Dimension | Fragestellung | Typische Kennzahl |
|---|---|---|
| Funktionale Wirksamkeit | Tut das Tool, was es soll? | Genauigkeit, Vollständigkeit, Fehlerrate |
| Ökonomische Wirksamkeit | Spart es Geld oder generiert es Umsatz? | ROI, Kosten pro Vorgang, Umsatzsteigerung |
| Operative Wirksamkeit | Macht es Prozesse schneller oder besser? | Durchlaufzeit, Durchsatz, Bearbeitungszeit |
| Strategische Wirksamkeit | Stärkt es die Wettbewerbsposition? | Marktanteil, Kundenzufriedenheit, Innovationsfähigkeit |
Die meisten Anbieter kommunizieren funktionale Wirksamkeit ("99 % Genauigkeit"). Was Unternehmen tatsächlich interessiert, ist ökonomische und operative Wirksamkeit. Strategische Wirksamkeit lässt sich kurzfristig kaum messen, sollte aber langfristig im Blick bleiben.
Das Evidenz-Framework: Vier Stufen der Nachweisbarkeit
Nicht jeder Nachweis ist gleich belastbar. Das folgende Rahmenwerk ordnet Evidenz in vier Stufen ein, von schwach bis stark:
Stufe 1: Anekdotische Evidenz (schwach)
- Nutzerberichte ("Ich finde es hilfreich")
- Einzelne Erfolgsgeschichten
- Demo-Ergebnisse des Anbieters
Aussagekraft: Gering. Nützlich für erste Orientierung, aber kein Entscheidungsfundament.
Stufe 2: Vorher-Nachher-Vergleich (mittel)
- Messung von Kennzahlen vor und nach der Einführung
- Vergleich derselben Prozesse mit und ohne Tool
Aussagekraft: Moderat. Problem: Andere Faktoren (Saisonalität, Personalwechsel, Prozessänderungen) können die Ergebnisse verzerren.
Stufe 3: Kontrollierter Vergleich / A/B-Test (stark)
- Paralleler Betrieb mit und ohne KI-Tool
- Zufällige Zuordnung von Vorgängen zu beiden Gruppen
- Statistische Auswertung der Unterschiede
Aussagekraft: Hoch. Der Goldstandard für den Wirksamkeitsnachweis im operativen Betrieb.
Stufe 4: Langzeitmessung mit Trendanalyse (sehr stark)
- Kontinuierliches Monitoring über mindestens 6–12 Monate
- Berücksichtigung von Saisonalität und externen Faktoren
- Trendanalyse mit statistischer Signifikanz
Aussagekraft: Sehr hoch, aber zeitaufwändig. Ideal für die nachhaltige Bewertung einer KI-Investition.
Übersicht der Evidenzstufen
| Stufe | Aufwand | Dauer | Aussagekraft | Geeignet für |
|---|---|---|---|---|
| 1 – Anekdotisch | Minimal | Sofort | Schwach | Erste Orientierung |
| 2 – Vorher-Nachher | Gering | 1–3 Monate | Moderat | Interne Statusberichte |
| 3 – A/B-Test | Mittel | 2–8 Wochen | Hoch | Kaufentscheidungen, Budget-Rechtfertigung |
| 4 – Langzeitmessung | Hoch | 6–12+ Monate | Sehr hoch | Strategische Bewertung |
A/B-Testing für KI-Tools: So funktioniert es in der Praxis
Grundprinzip
Beim A/B-Test teilen Sie Ihre Vorgänge in zwei Gruppen auf:
- Gruppe A (Kontrollgruppe): Arbeitet ohne KI-Tool (bisheriger Prozess)
- Gruppe B (Testgruppe): Arbeitet mit KI-Tool
Die Zuordnung erfolgt idealerweise zufällig. Beide Gruppen bearbeiten vergleichbare Vorgänge über denselben Zeitraum. Am Ende vergleichen Sie die relevanten Kennzahlen.
Schritt-für-Schritt-Anleitung
1. Testdesign festlegen
- Welche Kennzahlen messen Sie? (Maximal 3 primäre KPIs)
- Wie viele Vorgänge brauchen Sie pro Gruppe für eine aussagekräftige Stichprobe?
- Wie lange läuft der Test?
Faustregel für die Stichprobengrösse: Mindestens 100 Vorgänge pro Gruppe für einfache Vergleiche, mindestens 500 pro Gruppe für differenzierte Aussagen.
2. Gruppen bilden
- Zufällige Zuordnung ist entscheidend. Wenn Sie Vorgänge nach Komplexität oder Kundentyp vorselektieren, verzerren Sie das Ergebnis.
- Bei kleinen Volumina: Abwechselnde Zuordnung (jeder zweite Vorgang geht in die jeweils andere Gruppe).
3. Messung durchführen
- Beide Gruppen arbeiten unter identischen Rahmenbedingungen (gleiche Mitarbeiter, gleicher Zeitraum, gleiche Prozesse).
- Die Kontrollgruppe darf nicht wissen, dass ein Vergleich stattfindet (um Verhaltensänderungen zu vermeiden), falls organisatorisch möglich.
4. Ergebnisse auswerten
| Kennzahl | Gruppe A (ohne KI) | Gruppe B (mit KI) | Differenz | Bewertung |
|---|---|---|---|---|
| Bearbeitungszeit pro Vorgang | ___ Min. | ___ Min. | ___ % | |
| Fehlerquote | ___ % | ___ % | ___ Pp. | |
| Kundenzufriedenheit | ___ / 5 | ___ / 5 | ___ | |
| Kosten pro Vorgang | ___ EUR | ___ EUR | ___ % |
5. Statistische Signifikanz prüfen
- Ein Unterschied von 5 % kann zufällig sein. Nutzen Sie einen einfachen Signifikanztest (z. B. t-Test), um zu prüfen, ob der Unterschied statistisch belastbar ist.
- Faustregel: Bei mehr als 200 Vorgängen pro Gruppe und einer Differenz von mehr als 10 % ist das Ergebnis in der Regel signifikant.
Häufige Fehler beim A/B-Testing
1. Zu kurze Testdauer: Ein Test über 3 Tage sagt wenig aus. Mindestens 2–4 Wochen einplanen.
2. Nicht-zufällige Zuordnung: Wenn die "einfachen" Fälle an die KI gehen und die "schweren" an Menschen, ist das Ergebnis wertlos.
3. Zwischenergebnisse als Endergebnis: Die ersten Tage zeigen oft den Neuheitseffekt, nicht den nachhaltigen Nutzen.
4. Fehlende Kontrollgruppe: Nur die KI-Gruppe zu messen und mit historischen Daten zu vergleichen ist kein A/B-Test.
Was Sie von Anbietern als Evidenz einfordern können
Vor dem Kauf
Seriöse Anbieter sollten Ihnen folgende Nachweise liefern können:
| Nachweistyp | Was Sie erwarten können | Warnsignal |
|---|---|---|
| Technische Benchmarks | Genauigkeit, Recall, Precision auf definierten Testdatensätzen | Nur "bis zu X %" Angaben ohne Kontext |
| Kundenreferenzen | Konkrete Gesprächsmöglichkeit mit Bestandskunden in Ihrer Branche | Nur anonymisierte "Success Stories" |
| Pilotprojekt | Kostenloses oder vergünstigtes Pilotprojekt mit Ihren echten Daten | Ablehnung eines Tests mit realen Daten |
| ROI-Dokumentation | Nachvollziehbare Berechnung mit allen Kosten und Annahmen | Nur Einsparungen, keine Kosten |
| Vertragsklauseln | Performance-Garantien oder Rücktrittsmöglichkeit bei Unterschreitung | Keine messbare Leistungszusage |
Rote Flaggen bei Anbieterangaben
- "Bis zu 90 % Zeitersparnis" – "Bis zu" bedeutet: im besten Fall, unter idealen Bedingungen. Fragen Sie nach dem Median, nicht dem Maximum.
- "Basierend auf einer internen Studie" – Fordern Sie Methodik und Datenbasis an. Eine "Studie" mit 10 Teilnehmern über 2 Wochen hat begrenzte Aussagekraft.
- "Unsere Kunden sparen durchschnittlich X EUR" – Durchschnittswerte werden häufig von wenigen Extremfällen verzerrt. Fragen Sie nach dem Median und der Streuung.
- Keine konkreten Zahlen, nur Superlative – "Marktführend", "revolutionär", "branchenweit führend" sind Marketing-Begriffe, keine Evidenz.
Praxisbeispiel: Versicherungsmakler testet KI-Schadensbearbeitung
Ein Versicherungsmakler mit 60 Mitarbeitern evaluierte ein KI-Tool zur automatisierten Vorprüfung von Schadensmeldungen. Statt sich auf die Anbieter-Demo zu verlassen, setzte das Unternehmen einen strukturierten Wirksamkeitstest auf.
Testdesign:
- Zeitraum: 6 Wochen
- 300 Schadensmeldungen in Kontrollgruppe (manuelle Bearbeitung)
- 300 Schadensmeldungen in Testgruppe (KI-Vorprüfung + manuelle Nachprüfung)
- Gemessene KPIs: Bearbeitungszeit, Fehlerquote, Kosten pro Vorgang
Ergebnisse:
| KPI | Kontrollgruppe | Testgruppe | Differenz |
|---|---|---|---|
| Durchschnittliche Bearbeitungszeit | 45 Min. | 22 Min. | -51 % |
| Fehlerquote (falsche Einstufung) | 8 % | 11 % | +3 Pp. |
| Kosten pro Vorgang | 38 EUR | 24 EUR | -37 % |
Die Werte in dieser Tabelle beruhen auf Praxiserfahrungswerten aus einem realistischen Szenario.
Interpretation: Die Zeitersparnis und Kostenreduktion waren erheblich. Allerdings lag die Fehlerquote der KI-Gruppe höher als bei der rein manuellen Bearbeitung. Das Unternehmen entschied sich, das Tool einzuführen, aber mit einer verpflichtenden manuellen Endkontrolle bei allen Schadensfällen über 10.000 EUR. Dadurch konnte die Fehlerquote auf 4 % gesenkt werden, bei einer verbleibenden Zeitersparnis von ca. 35 %.
Entscheidender Punkt: Ohne den strukturierten Test hätte das Unternehmen die erhöhte Fehlerquote erst bemerkt, nachdem Kunden sich beschwert hätten. Der Test ermöglichte eine informierte Entscheidung mit passender Risikominimierung.
Langfristiges Wirksamkeits-Monitoring aufbauen
Das Monitoring-Dashboard
Für die langfristige Überwachung empfiehlt sich ein einfaches Dashboard mit folgenden Elementen:
1. Trendlinien der KPIs: Monatliche Entwicklung der 3–5 wichtigsten Kennzahlen
2. Soll-Ist-Vergleich: Tatsächliche Werte vs. erwartete Werte (aus dem Business Case)
3. Anomalie-Erkennung: Automatische Markierung bei signifikanten Abweichungen
4. Nutzungsstatistiken: Wie häufig und von wem wird das Tool tatsächlich genutzt?
Empfohlene Überprüfungsintervalle
| Zeitraum nach Einführung | Überprüfungsfokus | Handlungsoption |
|---|---|---|
| Nach 1 Monat | Nutzungsrate, erste operative Kennzahlen | Nachschulung, Konfigurationsanpassung |
| Nach 3 Monaten | Vollständiger KPI-Vergleich mit Baseline | Optimierung oder Eskalation |
| Nach 6 Monaten | ROI-Bewertung, strategische Einordnung | Vertragsverlängerung oder Kündigung |
| Nach 12 Monaten | Gesamtbewertung, Vergleich mit Business Case | Skalierung oder Ablösung |
Fazit und Einordnung
1. Definieren Sie vorab, was "Wirksamkeit" für Ihren Anwendungsfall bedeutet – idealerweise mit konkreten, messbaren Kennzahlen in allen vier Dimensionen (funktional, ökonomisch, operativ, strategisch).
2. Fordern Sie von Anbietern belastbare Evidenz statt Marketing-Claims. Referenzen, Benchmarks auf Ihren Daten und ein Pilotprojekt sind das Minimum.
3. Setzen Sie einen A/B-Test auf, wenn das Volumen es erlaubt. Das ist der stärkste Nachweis, den Sie mit vertretbarem Aufwand erbringen können.
4. Messen Sie nicht nur am Anfang, sondern dauerhaft. KI-Tools können sich über die Zeit verändern – durch Modellupdates, Nutzungsänderungen oder veränderte Datengrundlagen.
5. Akzeptieren Sie gemischte Ergebnisse als normal. Ein Tool, das in einer Dimension besser und in einer anderen schlechter abschneidet, erfordert eine Abwägung – keine pauschale Bewertung.
6. Dokumentieren Sie Ihre Evidenz schriftlich und nachvollziehbar. Mündliche Einschätzungen verblassen. Daten bleiben.
Quellen
- Stifterverband – KI-Kompetenzen in deutschen Unternehmen (2025-01-15)
- McKinsey Global Institute – GenAI and the Future of Work (2024-05-23)
- Bitkom – Künstliche Intelligenz in Deutschland (Studienbericht) (2026-02-01)
- Stanford HAI – AI Index Report 2025 (2025-04-01)