A/B testing

Also known as simple controlled experiment, bucket testing, controlled online experiments or split-run testing. In an experiment like this we have 2 groups and in the simplest version just one variant is different. That`s an user experience research methodology.
In the last years large companies started to use this like LinkedIn, Facebook, Google, Microsoft and Instagram.
Multivariate or multinomial testing is the version where more than 2 versions get tested together in parallel.
Observational, quasi-experimental or other non-experimental situations are unvalid for simple A/B tests.
Two-sample hypothesis tests are appropriate for this.

Each group get’s a different software

Likert-Skala

It is easy for the respondent to evaluate and respond to complex questions since they have a range to choose from, being closer to what they think and how they feel.

Heloise Montini

Die Likert-Skala ist ein Verfahren zur Messung persönlicher Einstellungen. Die Skalen bestehen aus mehreren Items vom Likert-Typ. Diese sind Aussagen, denen die Befragten auf einer vorgegebenen mehrstufigen Antwortskala mehr oder weniger stark zustimmen oder die sie ablehnen können. Die Punktwerte der einzelnen Antworten werden ungewichtet addiert und ergeben so den Wert der Skala. Die Bezeichnung Likert-Skala ist nicht zu verwechseln mit der Antwortskala eines einzelnen Items vom Likert-Typ.

Beispiel einer Likert-Skala

Grundidee

Man interessiert sich für die Einstellung der Versuchsperson, ein bestimmtes Objekt betreffend. Alle dazugehörigen Items werden als strikt positive oder negative Aussagen formuliert. Der Likert-Skala liegt die Überlegung zu Grunde, dass die Versuchsperson die Aussage eines einzelnen Items umso mehr ablehnt, je weiter ihre Einstellung von der Formulierung des Items abweicht. In der Gesamtheit werden dann die Antworten auf den Grad der Einstellung abgebildet. In der konkreten Ausführung eines Fragebogens bilden die Antwortmöglichkeiten für ein Item den Grad der Zustimmung oder Ablehnung der befragten Person zur Aussage des Items ab. Die möglichen Antworten sind als natürliche Zahlen kodiert und aufsteigend angeordnet.

Skalenniveau

Antworten auf die einzelnen Items einer Likert-Skala sind formal ordinal- beziehungsweise rangskaliert.

Weiteres Beispiel einer Likert-Skala

Das Ergebnis für ein Likert-Skala-Item kann daher durch den Median oder Modus als Lageparameter zusammengefasst werden. Darüber, ob man auch den Mittelwert verwenden darf, gibt es unterschiedliche Auffassungen.

Rensis Likert

geboren: 5. August 1903 in Cheyenne, Wyoming;

gestorben: 3. September 1981 in Ann Arbor, Michigan

Likert studierte an der University of Michigan und der Columbia University. Er ist Gründer des Institute for Social Research an der University of Michigan. 1960 wurde er in die American Academy of Arts and Sciences gewählt.

Quellen

Internal validity, external validity und reliability

Bei der Durchführung von Usability Studie oder Experiment geht es vor allem darum, die Ursache-Wirkungs-Beziehung zu ermitteln. Das bedeutet, wenn man das User-Interface geändert oder Design gestaltet hat und zum späteren Zeitpunkt wissen möchte, ob das zu dem von ihm bezweckten Verhalten bei den NutzerInnen führt.

Um die Evidenz der Schlussfolgerungen zu bewerten, muss man sich drei Faktoren zuwenden:

  1. External validity

Bei der externen Gültigkeit geht es darum, in welchem Maß kann man die Ergebnisse einer bestimmten Studie verallgemeinern. Hierbei spielt es eine wichtige Rolle, wo die Studie durchgeführt wurde. Man sollte hier in der Lage sein, dass die gleichen Ergebnisse bei Wiederholung der Durchführung einer Studie erzielt werden. Egal, ob mit dem gleichen oder anderen Setting, Lab oder auch in der realen Welt.

  1. Internal validity

Bei der internen Gültigkeit geht es darum, dass man sich sicher sein, dass die erzielten Ergebnisse letztlich auf die Benutzeroberfläche (auf ein verändertes visuelles Design oder ein verändertes Interaktionsdesign) zurückzuführen sind. Man sollte auch feststellen, dass nicht ein anderer Faktor letztlich zu den Veränderungen oder Ergebnissen geführt hat.

  1. Reliability

Die Zuverlässigkeit der Ergebnisse bedeutet, dass wenn man den Test und die Beobachtung wiederholt, dann gelangt man immer wieder zu den gleichen Ergebnisse.