Verbesserungen messen? Geht öfter als man denkt.

Woher wissen wir, ob unser geplantes Feature wirklich eine Verbesserung bringen wird? Wenn wir z.B. das User-Interface vereinfachen, bekommen wir dann weniger Support-Anfragen, und bleiben die Kunden zufrieden? Wie können wir Zahlungsanbieter X gegenüber Zahlungsanbieter Y bevorzugen, um Transaktionskosten zu sparen?

Im E-Commerce ist seit langem das A/B-Testing (auch: split testing) als Mess-Methode etabliert: Der Besucherstrom wird zufällig in zwei Gruppen (A und B) aufgeteilt; eine Gruppe dient als Kontrollgruppe (A), die andere (Gruppe B) bekommt die vorgeschlagene Veränderung zu sehen. Die Besucher werden zufällig auf die Gruppen verteilt, um Verzerrungen durch Einflüsse wie Tageszeit, geografische Herkunft usw. möglichst auszugleichen. Dann misst man, ob es einen signifikanten Unterschied zwischen beiden Gruppen gibt. Im Idealfall ist die Gruppe B dann besser, d.h. mit Gruppe B wurde signifikant mehr Umsatz erzielt, oder in Gruppe B gab es weniger Support-Anfragen usw. Der Vorteil ist, dass man Effekte messen kann, statt sich auf Experten und Vermutungen verlassen zu müssen.

Dass große Firmen wie Microsoft und Google mit A/B-Tests signifikante Verbesserungen erzielen konnten, ist allgemein bekannt. Sie lassen kontinuierlich Dutzende oder Tausende Experimente parallel laufen. So führt beispielsweise Bing mehr als 15000 Tests pro Jahr durch. Und regelmäßig wird bestätigt: A/B-Tests liefern häufig überraschende Ergebnisse, die unserer Intuition zuwider laufen. Die meisten Ideen führen nicht zu echten Verbesserungen, aber in seltenen Fällen haben kleine Änderungen enorme Auswirkungen. Ein spektakuläres Beispiel bei Bing: Eine kleine Änderung in der Präsentation der Werbung neben den Suchergebnissen hatte einen Effekt von $100 Mio Mehrumsatz jährlich in den USA.

Aber geht denn das auch für “normalsterbliche” Unternehmen, deren Websites nicht Millionen Besucher täglich haben? Oder für unternehmensinterne Anwendungen? Oder im nicht-digitalen Bereich, etwa für Pakete, die wir versenden?

Es geht öfter, als Sie vielleicht denken. Für die Anwendbarkeit eines A/B-Tests sind folgende Dinge wichtig:

Wieviele einzelne Ereignisse sind in Gruppe A bzw. Gruppe B? D.h. wie groß ist die Stichprobe? Mehr sind im allgemeinen besser.
Wie groß ist der erwartete Unterschied zwischen den Gruppen? Große Unterschiede sind leichter zu entdecken, d.h. es genügt eine kleinere Stichprobe.
Wieviel Unsicherheit wollen wir beim Ergebnis in Kauf nehmen? Je besser wir damit leben können, auch mal ein falsch positives (oder falsch negatives) Ergebnis aus dem A/B-Test zu bekommen, desto kleiner kann die Stichprobe sein.

Man kann also nicht pauschal so etwas sagen wie “A/B-Tests lohnen sich erst ab 100.000 Besuchern im Monat”.

Damit Sie ein Gefühl dafür bekommen, habe ich hier ein paar Beispiele:

Ein Kunde von mir hat ein Freemium-Angebot, also ein Geschäftsmodell, bei dem die Grundausstattung kostenlos ist. Die meisten Nutzer bleiben beim kostenlosen Angebot, nur einige wenige bezahlen für zusätzliche Leistungen. Denken Sie etwa an Dropbox, dort bekommt man 2 GB Speicherplatz kostenlos (Dropbox Basic), wer mehr will, muss zahlen.

Wenn von 20000 Neu-Nutzern im Monat derzeit 600 das Upgrade zum bezahlten Angebot kaufen (Umwandlungsrate von 3%), lohnt sich dann A/B-Testing für Verbesserungen? Es kommt darauf an – in diesem Fall auf die Größe des Unterschieds zwischen den beiden Gruppen. Für einen Unterschied von 30% (die Veränderung bringt mehr als 3,9% oder weniger als 2,1% Umwandlungsrate) braucht man ungefähr 5900 Besucher in jeder Gruppe. Das dauert bei 20000 neuen Nutzern pro Monat etwa 18 Tage. Bei 50000 Nutzern pro Monat kann man ein Experiment schon nach 7 Tagen abschließen. Das sind durchaus akzeptable Zeiten, um Feedback für eine Idee zur Verbesserung zu bekommen.

Die Beispiele können Sie leicht mit dem Sample Size Calculator von Evan Miller nachvollziehen, ich habe die Werte schon vorausgefüllt: 3% conversion rate, +-30% Änderung

Die von uns akzeptierte Unsicherheit tritt in zwei Varianten auf:

Falsch negative Resultate: Der A/B-Test zeigt keinen Unterschied, obwohl einer da ist. Das wird durch den Parameter Trennschärfe (Statistical Power, 1-beta) festgelegt. Traditionell wählt man für die Trennschärfe den Wert 80%, das bedeutet: wenn es einen echten Unterschied gibt, werden wir den immerhin in 80% unserer Experimente finden.
Falsch positive Resultate: Der A/B-Test zeigt einen Unterschied, der aber nur zufällig ist. Das wird durch den Parameter Signifikanzniveau (alpha) festgelegt. Traditionell wird alpha bei 5% festgelegt, das bedeutet: falls es keinen echten Unterschied gibt, wird der A/B-Test nur in 5% der Fälle trotzdem einen Unterschied melden.

Wenn wir diese Unsicherheiten verringern wollen, müssen wir dafür bezahlen – mit größeren Stichproben (den Test länger laufen lassen), oder mit größeren Effekten (kleinere Verbesserungen finden wir nicht mehr).

Ein weiteres Beispiel: Stellen Sie sich einen Geschäftsprozess vor, der nur von 80% der Nutzer beim ersten Mal erfolgreich durchgeführt werden kann. Denken Sie etwa an die Reisekostenabrechnung, oder an die Suche in einer internen Knowledge Base. Eine Verbesserung um mindestens 5 Prozentpunkte (neu: 85% schaffen es beim ersten Mal) lässt sich schon mit 1030 Versuchen pro Gruppe finden.

Die Beispiele sollen nur als Anregung dienen. Wenn Sie wissen wollen, ob A/B-Tests in Ihrem Kontext ein geeignetes Mittel zur kontinuierlichen Verbesserung sind, nutzen Sie einfach den Sample Size Calculator.

Die praktische Durchführung von A/B-Tests ist in den letzten Jahren immer einfacher geworden, z.B. mit visuellen Tools, die Webseiten ändern können, ohne dass man HTML anfassen muss. Um A/B-Tests routinemäßig einzusetzen, braucht es noch etwas mehr Planung und Hintergrundwissen, als ich hier darstellen konnte. Mögliche Stolpersteine sind z.B. die Auswahl der richtigen Erfolgs-Metrik (Overall Evaluation Criterion, OEC) und die möglichst zufällige Zuordnung in die Gruppen A und B.

Es gibt hunderte Artikel im Web zum Thema A/B-Testing, meist mit eher geringem Tiefgang. Wenn Sie mehr lernen wollen, ist das Paper “Controlled experiments on the web: survey and practical guide” von Kohavi et al., 2008 empfehlenswert. Und falls Sie jemanden im Management überzeugen wollen: The Surprising Power of Online Experiments, Harvard Business Review 2017.

Matthias Berth

[SL] Verbesserungen messen? Geht öfter als man denkt.