Wie teste ich die Usability meiner Webseite?

Dieser Blogbeitrag ist der dritte Teil meiner Reihe zu Usability. Die ersten beiden Teile sind nicht Voraussetzung, um diesen Teil zu verstehen, tragen aber zum Verständnis bei.

Die ersten beiden Teile findest du unter:

Um zu verstehen, wie du die Usability deiner Webseite testen kannst, müssen wir erstmal definieren, was es bedeutet eine Webseite zu testen oder zu evaluieren.  

Auf was muss ich beim Evaluieren achten?

Unter Evaluation versteht man laut der Deutschen Gesellschaft für Evaluation (DeGEval) „die systematische Untersuchung des Nutzens oder Wertes eines Gegenstandes." Gegenstände können zum Beispiel Programme, Projekte, Produkte, Maßnahmen, Leistungen, Organisationen, Technologien oder Forschung sein. Wir befassen uns in diesem Beitrag speziell mit der Evaluation von Software, besonders von Webseiten.

Die gewonnenen Ergebnisse der Evaluation müssen nachvollziehbar ausgewertet werden. Die Evaluation einer Software dient dazu die Usability einer Benutzerschnittstelle zu testen und zu verbessern.

Bei der Evaluation einer Software sollten folgende drei Gütekriterien beachtet werden:

  1. Objektivität (Unbeeinflussbarkeit): Die Ergebnisse der Evaluation sollen unabhängig von Rahmenbedingungen und Experten sein.
  2. Reliabilität (Zuverlässigkeit): Es soll sichergestellt werden, dass gleiche Testbedingungen auch zu gleichen Resultaten führen.
  3. Validität (Gültigkeit): Die Resultate der Evaluation sollen keine ungewollten Einflüsse beinhalten und lassen sich gut generalisieren, um eine statistische Auswertung sicherzustellen.


Es gibt verschiedene Arten von Evaluationen, die gegenübergestellt werden können:

Formative Evaluation vs. Summative Evaluation

Die formative (gestaltende) Evaluation versucht bereits möglichst früh, während dem Entwicklungszyklus, anhand von Prototypen, so viele Usability-Probleme wie möglich aufzudecken und Verbesserungspunkte zu identifizieren. Bei dieser Evaluation handelt es sich hauptsächlich um qualitative Daten.

Die summative (abschließende) Evaluation wird erst gegen Ende der Entwicklungsphase durchgeführt und prüft, ob die gesetzten Usability-Ziele auch erreicht wurden. Bei dieser Art der Evaluation wird hauptsächlich mit quantitativen Daten gearbeitet.

Komparative Evaluation vs. Kompetitive Evaluation

Die komparative Evaluation vergleicht die Usability unter möglichst identischen Rahmenbedingungen mit verschiedenen Lösungsvarianten desselben Produktes miteinander. Dabei werden meist quantitative Daten erhoben.

Die kompetitive Evaluation dagegen vergleicht die Usability des eigenen Produktes mit der Usability mehrerer Produkte von Mitbewerbern. Hier werden normalerweise quantitative messbare Daten erhoben.

Warum sollte ich meine Software evaluieren?

  • Probleme aufdecken: Beim Evaluieren deiner Software wirst du einige deiner Usability-Probleme erst finden. Durch das rechtzeitige Finden von Usability-Problemen können Fehlentwicklungen vermieden werden. Deshalb ist es sinnvoll eventuell am Anfang der Entwicklung schon einen ersten einfachen Prototyp zu testen, um bereits in dieser Phase viele Fehler und Probleme zu finden, die vermieden werden können.
  • Nutzerverhalten verstehen: Der Entwickler kann viele gute Ideen in seine Software einbauen, aber eine wirkliche Kenntnis davon bekommen, wie der spätere Benutzer das Produkt annimmt, wird man erst durch eine Evaluation mit Nutzern erfahren. Bereits erlerntes Nutzerverhalten kann auch auf neue Projekte angewendet werden.
  • Potenzial zur Verbesserung: Man muss beim Evaluieren nicht gleich vom schlimmsten ausgehen. Einige Usability-Fehler müssen nicht gleich zu Problemen führen, sondern können auch lediglich kosmetischer Natur sein. Durch eine Evaluation können diese aber trotzdem aufgedeckt werden und zu einer Verbesserung der Software führen. Der Entwickler kann hier ebenso die Verbesserungsvorschläge auch mit ins nächste Projekt nehmen.

Welche Evaluationsmethoden gibt es?

Grundlegend kann man die Evaluationsmethoden in zwei große Überkategorien einteilen:

Analytische Evaluation

Bei der Analytischen Evaluation, oder auch Expertentests genannt, untersuchen Usability-Experten potenzielle Usability-Probleme anhand von Regeln und Normen. Diese Regeln basieren auf Statistiken und Erfahrungen. Leider gibt eine reine Analyse von Usability-Normen keine Aussagekraft darüber, wie die tatsächlichen Usability-Probleme aussehen. Dies erfährt man nur, wenn man Tests mit den wirklichen Nutzern macht. Ein Vorteil ist, dass gerade, weil keine Nutzer einbezogen werden müssen, die Durchführung von Expertentests meist sehr schnell vonstattengeht.

Empirische Evaluation

Bei der Empirischen Evaluation, oder auch Nutzertests genannt, werden den Teilnehmern der Evaluation realistische Aufgaben gestellt und es wird beobachtet, wie gut diese mit dem Prototyp oder fertigen Produkt gelöst werden können. Im Gegensatz zu den Expertentests basiert hier die Evaluation auf den tatsächlichen Aussagen und Handlungen der Probanden und es können somit reale Usability-Probleme gefunden werden. Leider ist eine Befragung von Nutzern immer aufwendig.

 

Einige mögliche analytische Evaluationsmethoden

Heuristische Evaluation

Usability-Experten prüfen bei der Heuristischen Evaluation anhand einer Liste von Heuristiken die Benutzerschnittstelle auf mögliche Usability-Probleme. Ein Beispiel für Heuristiken kann die Norm 9241-110 sein, in dieser die Interaktionsprinzipien erläutert werden. Gerade die Normenreihe ISO 9241 ist sehr wichtig, wenn es darum geht Usability-Probleme aufzudecken.

Vormerken kann man sich an dieser Stelle besonders folgende Normenteile:

  • ISO 9241-11: Gebrauchstauglichkeit – Begriffe und Konzepte
  • ISO 9241-110: Interaktionsprinzipien
  • ISO 9241-112: Grundsätze der Informationsdarstellung
  • ISO 9241-171: Leitlinien zur Zugänglichkeit von Software
  • ISO 9241-210: Grundsätze Menschzentrierte Gestaltung interaktiver Systeme


Hier bietet sich besonders an, die Evaluation mit einem Nutzertest zu kombinieren, um sowohl den Hintergrund durch die Normen abzudecken, aber auch Benutzer einzubeziehen.

Cognitive Walkthrough

Die Usability-Experten versetzen sich beim Cognitive Walkthrough in die Rolle eines Benutzers und spielen anhand eines Prototypen einen typischen Handlungsablauf durch. Leider hat diese Methode den Nachteil, dass die Usability-Experten lediglich erraten können, wie sich ein Benutzer in einer bestimmten Situation verhalten wird. Der Usability-Experte muss sehr gut die Arbeitsabläufe der Nutzer erkennen und nachahmen können.

GOMS

GOMS steht für Goals, Operations, Methods und Selection Rules (dt. Ziele, Operationen, Methoden, Auswahlregeln) und beschreibt eine Methode zur Vorhersage der Zeit, die ein Nutzer benötigt, um ein gewisses Ziel zu erreichen. Dabei wird die Interaktion in elementare Arbeitsschritte zum Ziel zerlegt, damit diese dann empirisch ermittelt werden kann. Zum Beispiel könnte man ermitteln, dass der Benutzer 1,1 Sekunden benötigen wird, um die Maus auf einem bestimmten Feld zu positionieren. GOMS ist besonders geeignet, wenn die Effizienz eines Systems an erster Stelle steht.

Eine bekannte vereinfachte Methode von GOMS, die oft verwendet wird, ist das Keystroke Level Model (KLM). Bei diesem wird sich rein auf die Ziele, Operationen und Methoden beschränkt und mögliche Fehler und Ermüdung werden außen vor gelassen.

Einige mögliche empirische Evaluationsmethoden

Hallway-Testing

Das Hallway-Testing ist die einfachste Methode, um Nutzertests durchzuführen. Dabei wird ein Arbeitskollege oder Büronachbar gefragt, ob er Zeit hätte, bei einem Nutzertest mitzumachen. Diesem wird dann ein Prototyp vorgelegt und eine bestimmte Aufgabe gestellt. Der Arbeitskollege soll dann diese Aufgabe laut mitdenkend lösen, ohne, dass Tipps gegeben werden.

Plurastic Walkthrough

Der Plurastic Walkthrough kombiniert die Vorteile von Nutzertests und Expertentests, indem hier Benutzer und Usability-Experten zusammen in Form eines Workshops anhand von Prototypen Szenarien durchspielen. Zuerst läuft dies ähnlich wie beim Hallway-Testing ab: Die Nutzer bekommen Aufgaben gestellt, die sie selbstständig lösen sollen. Im Anschluss erklären dann die Usability-Experten den Nutzern, wie die „Musterlösung" ausgesehen haben sollte. Wichtig ist hier zu beachten, dass es bei Prototypen oft nicht die eine richtige Lösung gibt.

Durch das gemeinsame Durchgehen von Nutzer und Usability-Experten lernen beide Seiten voneinander, wie Nutzer die Vorgehensweise verstehen und wie die Vorgehensweise von den Usability-Experten ursprünglich gemeint war.

Formaler Usability-Test

Der Formale Usability-Test findet meistens in einem Usability-Labor statt, um einen speziellen Versuchsaufbau sicherzustellen. Der Proband sitzt vor einem Bildschirm mit einem Blatt mit Aufgabenstellungen allein in einem Raum. Er wird durch ein einseitig durchsichtiges Fenster des Nebenraumes und/oder durch Kameras beobachtet. Dies soll sicherstellen, dass keine Kommunikation zwischen dem Benutzer und dem Beobachter stattfindet und der Proband möglichst ungestört arbeiten kann. Auch hier wird die Thinking-Aloud-Technik angewendet.

Usability-Befragung

Bei der Usability-Befragung werden Nutzern mit Hilfe von Fragebögen voll- oder teilstandardisierte Fragen zu beispielsweise „Aufgabenangemessenheit" oder „Fehlertoleranz" der vorliegenden Software gestellt.

Einen Beispielfragebogen kannst du hier finden.

A/B-Tests

A/B-Tests werden durchgeführt, indem die Teilnehmer in zwei Untergruppen unterteilt werden. Jede Gruppe bekommt eine andere Variante der Benutzerschnittstelle gezeigt. Oft werden die Teilnehmer in Untergruppen eingeteilt, ohne, dass sie sich bewusst sind, dass sie eine andere Variante als andere Teilnehmer sehen. Anschließend wird durch Befragung oder Konversationsrate verglichen, welche Variante erfolgreicher war.

Idealerweise unterscheiden sich die beiden Varianten nur durch die Gestaltung eines Elementes, damit nachvollzogen werden kann, welches Element verantwortlich für die Präferenz einer bestimmten Variante ist.

Eine ähnliche Methode wie A/B-Tests sind multivariate Tests, bei diesen im Gegensatz zu A/B-Tests nicht nur zwei Varianten gegenübergestellt werden, sondern mehrere. Das hat den Vorteil, dass gleich mehrere Varianten ausprobiert werden können, nur leider kann mit steigender Variantenzahl immer weniger nachvollzogen werden, was die eigentliche Ursache für die Wahl der Variante war.

Wie sieht ein typischer Usability-Test-Ablauf aus?

1. Ziel und Zweck festlegen

Zuerst werden das Ziel, der Zweck, die Zielgruppe und Fragestellungen, die untersucht werden sollen, festgelegt. Ein Zweck kann zum Beispiel sein, dass geprüft werden soll, ob eine neue Funktion verstanden wird oder ob eine maximale Bearbeitungsdauer eingehalten werden kann.

2. Untersuchungsdesign entwerfen

Passend zur zuvor festgelegten Problemstellung, dem Projektstand, den vorhandenen Ressourcen und der verfügbaren Zeit der Evaluation, wird ein Untersuchungsdesign entworfen in dem ein methodisches Vorgehen, ein Zeitplan und die geplanten Teilnehmer festgelegt sind. Außerdem wird festgelegt, welche Evaluationsmethode verwendet wird.

3. Teilnehmer rekrutieren

Beim Rekrutieren der Teilnehmer muss darauf geachtet werden, dass möglichst alle Benutzertypen, die Teil der Zielgruppe sind, vertreten sind. Bei qualitativen Evaluationen reicht es meistens schon 5-10 Personen zu befragen, bei quantitativen Evaluationen sollte die Teilnehmerzahl hoch genug sein, dass statistische Schlussfolgerungen gezogen werden können.

4. Evaluation vorbereiten

Bevor die Evaluation beginnen kann, muss geschaut werden, ob ein Prototyp oder eine fertige Software vorhanden ist, anhand dieser getestet werden kann. Außerdem sollten bereits Aufgabenstellungen und ein Szenario, das die Probanden durchlaufen sollen, festgelegt werden. Auch sollte bereits an dieser Stelle überlegt werden, wie die Evaluation dokumentiert werden soll und wie viel Zeit eingeplant werden muss, um die Evaluation selbst, die Nachbesprechung und die Auswertung durchzuführen.

5. Evaluation durchführen

Die Evaluation selbst besteht aus einem Test, Aufgabenstellungen oder Befragungen, die durchgeführt werden. Nachdem die Evaluation durchlaufen wurde, wird diese mit den Probanden nochmal Aufgabenstellung für Aufgabenstellung durchgesprochen. Der genaue Ablauf der Evaluation ist abhängig von der gewählten Evaluationsmethodik.

6. Resultate auswerten

Die Auswertung der Resultate ist abhängig von der gewählten Evaluationsmethodik und der Dokumentationstechnik. Bei quantitativen Daten sollte eine statistische Auswertung gemacht werden, bei qualitativen Daten sollten anhand dieser Vergleiche zum vorherigen Softwarestand gezogen werden.

Beim Testablauf mit Personen mit Einschränkungen müssen einige zusätzliche Punkte beachtet werden, um eine reibungslose Evaluation zu ermöglichen:

  1. Einzelne Einschränkungen: Es sollte bei der Auswahl der Probanden darauf geachtet werden, dass man an einem Evaluationstermin nur eine Gruppe bestimmter Einschränkungen testet. Außerdem sollte es vermieden werden, dass man an einem Termin zum Beispiel einen seheingeschränkten Menschen, einen höreingeschränkten und einen motorisch eingeschränkten Menschen evaluiert.
  2. Barrierefreiheit sicherstellen: Vor der Durchführung der Evaluation sollte sichergestellt werden, dass die zu testende Software bereits grundlegend barrierefrei ist. Die Probanden sollen eine bestimmte Aufgabenstellung testen und nicht die komplette Zugänglichkeit deiner Software! Grundlegende fehlende Barrierefreiheit erschwert nur deinen Probanden die Software zu evaluieren. Wenn in einem Usability-Labor getestet wird, sollten natürlich die Örtlichkeiten dementsprechend auch barrierefrei sein.
  3. Mehr Zeit: Gerade bei Menschen mit Einschränkungen ist es wichtig beim Evaluieren mehr Zeit einzuplanen als üblicherweise, da verschiedene zusätzliche Probleme auftreten können.

Welche Methoden zur Datenerfassung können genutzt werden?

Befragungsmethoden

Befragungsmethoden können in schriftliche und mündliche unterteilt werden.

Zu den schriftlichen Methoden zählen zum Beispiel Fragebögen. Diese können entweder allein oder im Dialog ausgefüllt werden. Ein gemeinsames Ausfüllen hat zum Vorteil, dass vermieden werden kann, dass der Fragebogen unvollständig ausgefüllt zurückkommt, weil die Fragestellung nicht verstanden wurde oder weil die Benutzer nicht genug Motivation zum Ausfüllen hatten.

Eine mündliche Variante können Interviews sein, diese können entweder als Einzelinterviews oder als Gruppeninterviews in Form einer moderierten Diskussion durchgeführt werden. Gruppeninterviews haben oft den Vorteil, dass bei diesen die Teilnehmer motivierter sind und sich während der Ausführung der Probleme anderer Teilnehmer selbst an bestimmte vergessene Probleme wieder zurückerinnern. Sie können nur leider dazu führen, dass manche Probanden weniger zu Wort kommen als andere. Interviews können insgesamt sehr aufwendig sein.

Tagebuchstudie

Eine Alternative zu den Befragungsmethoden stellt die Tagebuchstudie dar. Bei dieser vermerken die Benutzer über einen längeren Zeitraum ihre Eindrücke, ihr Nutzungsverhalten, ihre Probleme, Verbesserungshinweise und Lerneffekte der Software. Dies führt dazu, dass die Probanden die Software in ihrem realen Nutzungskontext benutzen und deshalb auch realistische Daten bezogen werden können. Um eine Tagebuchstudie über einen längeren Zeitraum vollständig durchziehen zu können, braucht der Proband jedoch Selbstdisziplin.

Verhaltensbeobachtung

Die dritte Möglichkeit wäre eine Verhaltensbeobachtung während der Nutzung der Software durchzuführen. Die Verhaltensbeobachtung kann in die teilnehmende/anwesende Beobachtung und die nicht-teilnehmende/indirekte Beobachtung untergliedert werden.

Bei der anwesenden Beobachtung sitzt der Beobachter direkt neben dem Probanden. Dies kann auch in Form eines Beobachtungsinterviews durchgeführt werden, dabei wechseln sich die Beobachtung des Probanden und die Stellung von Fragen zu der gerade ausgeführten Aufgabenstellung ab.

Die indirekte Beobachtung kann als Videoaufzeichnung mit mehreren Kameraeinstellungen durchgeführt werden. Dies kann man sich so vorstellen, dass eine Kamera die Hand beobachtet, eine andere den Bildschirm und eine weitere die Mimik des Probanden während der Evaluation. Auch Eyetracking kann hier angewendet werden. Eine Beobachtung durch eine Kamera hat den Vorteil, dass man auch Zögern in manchen Situationen erfassen kann, das man normalerweise nicht mitbekommt.

Eine andere Form der indirekten Beobachtung wäre die Logfileanalyse, bei dieser der Servertraffic einer bestimmten Webseite über einen längeren Zeitraum beobachtet und protokolliert wird. Es kann zum Beispiel die Verweildauer, geographische Information über die Besucher und die Einstiegsseite protokolliert werden. Zur Messung können Web-Analyse-Systeme wie zum Beispiel Google Analytics genutzt werden. Diese Art der Überwachung ist sehr leicht durchführbar. Es ist nur leider nicht in allen Fällen immer eine Ursachenforschung möglich, warum zum Beispiel die Absprungraten so hoch sind. Die Logfileanalyse kann auch zur Suchmaschinen-Optimierung (SEO) genutzt werden.

Wenn du mehr über SEO erfahren möchtest, kannst du gerne bei unseren bisher erschienen Blogbeiträgen dazu vorbeischauen. Dies ist der Link zum neusten Beitrag dieser Reihe:

Welche Fehler können bei der Evaluation auftreten?

Halo-Effekt 

Der Halo-Effekt kann auftreten, wenn ein besonders auffallender Eindruck der Software oder des Prototypen die restliche Wahrnehmung „überstrahlt" und somit weitere Details übersehen werden. 

Hawthorne-Effekt

Wenn die Teilnehmer der Evaluation sich beim Benutzen der Software beobachtet fühlen, kann der Hawthorne-Effekt auftreten. Die Benutzer verhalten sich dann nicht so wie sie es sonst, ohne unter Beachtung zu stehen, tun würden. Die Beobachtung erzeugt eine falsche Realität. 

Biasing-Effekt

Der Biasing-Effekt kann auftreten, wenn einseitiges Vorwissen der Software die Sicht auf das Problem verzerrt. Einem Experten werden die Probleme in seinem Fachgebiet immer vermehrt auffallen im Gegensatz zu den restlichen Problemen.

Schlechte Stichprobe

Die Stichprobe der untersuchten Teilnehmer muss repräsentativ sein, damit sich die Ergebnisse auf die Grundgesamtheit verallgemeinern lassen.

Fazit

Es ist wichtig eine Evaluation bei deiner Software durchzuführen, um die größten Usability-Probleme zu vermeiden. Dazu können viele verschiedene Evaluationsmethoden genutzt werden. Welche Evaluationsmethode du verwenden willst, hängt ganz davon ab, welche Software vorliegt, wie viel Zeit, Ressourcen und Probanden dir zum Evaluieren zur Verfügung stehen und an welcher Stelle im Entwicklungsprozess du eine Evaluation durchführen möchtest.

Zum Abschluss kannst du dir merken: Bereits fünf Vertreter aus deiner realen Zielgruppe können 85% der wichtigsten Usability-Probleme lösen!

By accepting you will be accessing a service provided by a third-party external to https://www.nrml.de/