Réalisé par Haikel Gara, Antoine Verriez et Valentin Montagne
Master Expert Technologie de l'information EPITECH 2020.
Co-fondateur et CTO d'une startup dans l'Edtech 2019 - fin 2022. (+3 ans)
Formation PSPO-1 Agile Scrum 2022.
Co-fondateur et CTO d'une startup dans la Deeptech fin 2022 - aujourd'hui.
Conduire un audit UX
Évaluer les émotions des utilisateurs
Interpréter, synthétiser et restituer les résultats d’évaluation
Utiliser les échelles d’utilisabilité et échelles UX
Mesurer et analyser l’expérience utilisateur
Chaque séance débutera par la présentation d'un concept et de l'intérêt d'utilisation de celui-ci.
Après la théorie, nous verrons alors la pratique en réalisant des exercices sur un repository gitlab.
Nous verrons ensemble la correction des travaux pratiques. N'hésitez pas à poser vos questions.
Durant ce module, vous allez par groupe de 2 à 3 personnes maximum en fonction du nombre de participants devenir une agence UX.
Chaque jour du module, vous aurez une mission pour un client fictif avec rendu en fin de journée.
Trouvez un nom / une identité pour votre agence !
Durant ce module, vous allez être évalué sur plusieurs livrables :
En groupe de 2 à 3 personnes
Individuel
Évaluer la qualité d’un système à partir de l’expertise d’un groupe de spécialistes UX.
L’évaluation est réalisée par des experts en utilisabilité ou UX.
Dans un lieu adapté au travail de groupe, pour la seconde étape de l’évaluation experte.
Quand ?
Dès la génération des premières maquettes et jusqu’au produit final.
Comment ?
Plusieurs experts vont analyser la qualité d’un système à partir de guidelines ou critères, mais également de leur savoir et expérience. Les experts procèdent individuellement à l’évaluation, avant de mettre en commun leurs analyses.
Utiliser des guidelines, critères ou heuristiques déjà établies pour soulever une liste de problèmes à corriger.
Rapide et facile à mettre en œuvre pour évaluer l'UX durant toute l'itération produit. (Quand on a accès à des experts UX)
Elle précédera d'autres méthodes comme le test utilisateur pour améliorer en continu la qualité d'un système.
Dans l'étude de Jacobsen et John, quatre experts regardent la vidéo d'un test utilisateur et identifient indépendamment les problèmes d'utilisabilité.
Seuls 20 % des 93 problèmes détectés le sont par tous les experts et 46% ne le sont que par un seul.
Cette limitation, appelée biais de l'évaluateur (evaluator effect), fait l'objet d'un article célèbre de Hertzum et Jacobsen.
Les résultats souffrent de variabilité liée aux experts qui réalisent l'évaluation (différents évaluateurs vont trouver différents problèmes pour la même interface) ou de la surestimation fréquente du nombre de problèmes réels, appelés « fausses alertes ».
Il est donc recommandé de l'utiliser en combinaison avec d'autres méthodes, telles que les tests utilisateurs.
Au premier abord, on pense souvent qu'une bonne utilisabilité est une condition préliminaire à une bonne UX.
Or, si le concept d'expérience utilisateur englobe l'utilisabilité comme l'un des aspects clés dans la perception de l'attractivité d'un système, cela ne signifie pas qu'il faille respecter à la lettre l'ensemble des critères d'utilisabilité pour créer une expérience optimale.
Son principe est simple : une boîte en bois intégrant une imprimante Bluetooth cachée. Connectée au compte FlickR de l'utilisateur, la PhotoBox imprime occasionnellement une photo, sélectionnée aléatoirement. Une fois imprimé, ce souvenir attendra patiemment d'être découvert par son propriétaire.
La PhotoBox ne nécessite aucune attention de la part de l'utilisateur. Ici, on ôte délibérément tout contrôle à ce dernier: il ne choisit ni ce qui est imprimé, ni la fréquence d'impression.
Comme le montre Lallemand, le principe de Photobox viole l'un des critères fondamentaux en utilisabilité qu'est le contrôle utilisateur, au profit d'une expérience émotionnelle d'anticipation, de surprise et de rappel du passé.
Des recherches ont en effet montré que céder de l'autonomie à un système interactif peut créer de nouvelles expériences d'interaction avec du contenu digital.
L'évaluateur expert devra ainsi choisir de respecter ou non les critères établis en fonction des objectifs visés par le système.
Visent à améliorer l’expérience utilisateur.
Utilisent souvent une grille critériée (heuristiques, standards).
Se basent sur des observations expertes (UX designer, ergonome).
Portée
Finalité
| Objectif | Comparer son produit à ceux des concurrents directs. |
| Méthodes | Analyse des parcours, fonctionnalités, ergonomie, design visuel. |
| Contexte d'usage | Étude de marché, lancement produit, repositionnement. |
| Exemple | Comparer les tunnels de paiement de 5 sites e-commerce. |
| Objectif | Comparer son produit à des références UX transversales. |
| Méthodes | Indicateurs UX standardisés (questionnaires, heuristiques Nielsen, tests utilisateurs, etc.) |
| Contexte d'usage | Vérifier si son produit est au niveau des standards de l’industrie. |
| Exemple | Mesurer l’utilisabilité d’une app de transport par rapport à d’autres apps réputées. |
| Objectif | Identifier les forces et faiblesses selon les critères d’ergonomie. |
| Méthodes | Grilles d’analyse (Bastien & Scapin, heuristiques Nielsen, règles Amélie Boucher) |
| Contexte d'usage | Avant redesign, pendant la conception. |
| Exemple | Vérifier la cohérence et la fluidité d’un parcours d’inscription SaaS avant son déploiement. |
| Objectif | Vérifier la conformité aux normes d’accessibilité (inclusion). |
| Méthodes | WCAG 2.1, RGAA, tests de navigation clavier/lecteurs d’écran. |
| Contexte d'usage | Secteur public (obligatoire), privé (RSE, inclusion). |
| Exemple | Auditer un portail de mairie pour utilisateurs malvoyants. |
| Objectif | Vérifier l’alignement visuel et fonctionnel à l’intérieur d’un produit ou entre plusieurs. |
| Méthodes | Analyse du design system, patterns UI, terminologie, ton rédactionnel. |
| Contexte d'usage | Entreprises multi-produits, refonte design system. |
| Exemple | Vérifier que l’app mobile et le site web d’une banque utilisent les mêmes composants, même développer un Design System. |
L’audit UX est donc une photo experte de l’état actuel du produit et de son environnement.
Il est indispensable pour orienter le design et justifier les choix auprès des parties prenantes.
Les échelles UX sont des outils standardisés qui recueillent l'avis des utilisateurs sur la facilité d'utilisation perçue d'un système et la satisfaction liée à l'interaction.
Ce sont des questionnaires d'évaluation subjective auto-administrés : les utilisateurs y répondent eux-mêmes.
S'appuyer sur des échelles standardisées
Exploiter des mesures quantitatives
Se reposer sur une validation scientifique
Les échelles sont un moyen simple et rapide de collecter de la donnée.
Une échelle standardisée est un questionnaire qui reprend un ensemble de questions pré-définies, toujours posées dans le même ordre, et qui dispose d'une grille de réponse et de cotation identique pour tous les répondants.
Comparer plusieurs versions d'un même système.
Comparer différents systèmes entre eux. (Concurrence)
Tester un système auprès de plusieurs catégories d'utilisateurs.
Les échelles recueillent des données quantitatives.
On peut alors réaliser différents traitements et comparaisons statistiques ; elles facilitent la communication des résultats auprès du commanditaire.
Par exemple, des graphiques pourront illustrer les scores d'évaluation d'un système par rapport à un autre.
On utilise en priorité les échelles validées scientifiquement, elles répondent à deux critères :
Biais de passation (formulation des questions, ordres des items, effet de halo, l'acquiescement)
Si trop long, l'utilisateur répond au plus vite pour être débarrassé.
Ne permet pas de comprendre le Pourquoi, simplement de définir un score.
Qui : L’évaluateur sélectionne, diffuse puis analyse les résultats de l'échelle. Un échantillon d’utilisateurs répond au questionnaire.
Où : Le questionnaire peut être administré par papier, ou en ligne.
Quand : Pendant de multiples cycles itératifs d'évaluation. Après la passation d'un test utilisateur ou simplement après une interaction réelle avec un système déjà fonctionnel.
Une échelle mesure des aspects particuliers d'un système : qualité de l'information, facilité de navigation, apprenabilité, etc.
Si vous souhaitez mesurer une caractéristique précise de votre produit, rien de vous empêche d'utiliser uniquement les items des dimensions qui vous intéressent, ou même de combiner plusieurs dimensions de différentes échelles.
Attention
Dans ces deux cas, vous ne pourrez pas calculer le score globale du système puisque vous ne disposerez pas de tous les items originaux d'un unique questionnaire.
La norme ISO 16982 recommande de privilégier les questionnaires fermés, où le répondant choisit une réponse sur une échelle chiffrée ou dans une liste prédéfinie.
Cela facilite l’analyse et le traitement statistique des résultats, contrairement aux questions ouvertes plus difficiles à exploiter.
Chaque échelle dispose de son propre format, le plus souvent une échelle de Likert à 3, 5, 7 ou 9 points.
Un outil de mesure très utilisé en sciences sociales, en psychologie, en marketing et dans les enquêtes d’opinion pour évaluer les attitudes, perceptions ou opinions d’un répondant sur un sujet donné.
On présente une affirmation (ex. : « Je suis satisfait de ce service ») et on demande au répondant d’indiquer son degré d’accord ou de désaccord sur une échelle graduée.
Permet de passer du qualitatif au quantitatif.
Améliorer le système de manière itérative : l'évaluation sert à la conception.
Stratégie UX à long terme : définir des indicateurs sous forme d'objectifs au début du projet
Suivre l'amélioration continue : l'évolution de l'expérience au fil des versions.
Les échelles UX, déjà économes en ressources, peuvent être encore allégées pour réduire le temps de passation et d’analyse.
Comme toute approche “guérilla”, cela implique des compromis sur la quantité et la précision des données.
Cette pratique reste pertinente si elle s’intègre à d’autres méthodes et si l’on privilégie des échelles courtes, notamment pour les études longitudinales (journaux de bord).
Mesurer la facilité d’utilisation perçue d’un système (efficacité, efficience, facilité d’apprentissage).
Utilisabilité seulement.
SUS, UMUX, UMUX-Lite, CSUQ, EUCS, DEEP.
"Est-ce que le système est facile à utiliser ?"
Mesurer l’expérience utilisateur dans son ensemble même les dimensions hédoniques.
Plusieurs critères :
Utilisabilité, émotions, esthétique et satisfaction globale.
AttrakDiff, meCUE, UEQ.
“Comment je me sens en utilisant le système ? Est-ce agréable, utile, motivant ?”
Mesurer directement les émotions ressenties : positives, négatives, intensité.
Plusieurs critères :
Utilisabilité, émotions, esthétique et satisfaction globale.
SAM (Self-Assessment Manikin), PANAS, PrEmo, etc.
“Qu’est-ce que j’ai ressenti pendant l’interaction ?”
Degré selon lequel un produit peut être utilisé par des utilisateurs identifiés, pour atteindre des buts définis avec efficacité, efficience et satisfaction, dans un contexte d'utilisation spécifié.
(ISO 9241-11, 1998)
Une des premières échelles de mesure de l'utilisabilité perçue (1996).
Libre de droits et comporte un nombre restreint d'items faciles à comprendre pour les utilisateurs.
Le créateur du SUS, John Brooke, explique que cette échelle a été créée avec soin en se basant sur les éléments de la norme ISO 9241-11 sur l'utilisabilité , mais qu'elle se voulait quick and dirty pour les utilisateurs, c'est-à-dire rapide à remplir et facile à comprendre.
C’est la plus utilisée historiquement : un questionnaire en 10 items qui fournit un score global d’usabilité.
Comparatif, permet de benchmarker.
Le score SUS moyen est estimé à 68.
On estime en général qu’un score est bon à partir de 75.
Passable ou correct : entre 50 et 75.
Un score inférieur à 50 révèle de gros problèmes en termes de satisfaction client sur l’usabilité.
En cherchant à réduire le plus possible le nombre d'items du SUS tout en gardant la même mesure des composants de l'utilisabilité (efficacité, efficience, satisfaction), Finstad a développé et validé l'échelle UMUX (Usability Metric for User Experience) qui comprend quatre items.
Lewis et al. ont cherchés à réduire encore le questionnaire. Leurs recherches ont démontré qu'il était possible de réduire à deux items, le 1 et 3 pour un UMUX-LITE.
L’UMUX-Lite s’articule sur deux questions très simples et une échelle de réponse de 1 à 7 :
Pour calculer votre score global UMUX Lite, appliquez cette formule :
(Q1_Score + Q2_Score - 2) * 100 / 12
Les réponses récoltées sont facilement comparables au questionnaire SUS classique.
Tout en étant pourtant extrêmement court et rapide à remplir, ce qui assure un taux de réponses beaucoup plus élevé.
Avec vos résultats, vous pouvez retrouver l’équivalent SUS en appliquant cette formule :
0.65 * (([Q1_Score] + [Q2_Score] — 2) * 100 / 12 + 22.9
Le Diagnostic End-User Experience Problems a été développé afin de pallier au défaut des principales autres échelles qui ne permettent pas d'identifier le Pourquoi. L'ambition du DEEP est de mesurer :
Le DEEP s'appuie sur la combinaison d'items extraits et adaptés d'autres échelles : PHUE, CSUQ, QUIS, SUS, PUTO, USE et WAMMI. Certains items ont également été inspirés de la méthode d'inspection de l'utilisabilité MiLE+.
L'échelle est ainsi constituée de dix-neuf items sous forme de phrases affirmatives, réparties en six catégories.
DEEP est conçu pour évaluer un site web.
Attention par contre à son temps de réalisation et d'analyse qui est bien supérieur aux autres échelles.
Computer System Usability Questionnaire est dérivé de l'échelle PSSUQ (Post Study System Usability Questionnaire, première version en 1992), dont elle reprend exactement les mêmes items mais dans une formulation au présent pour ne pas juste dépendre d'un test utilisateur.
Le CSUQ se présente sous deux formes : une version originale à 19 items et une version courte à 16 items.
Aujourd'hui on utilise la version courte.
Attention cependant à sa longueur, qui doit être utilisé sur des utilisateurs prêt à passer du temps sur le questionnaire.
| Dimensions | Score moyen (sur 7) |
|---|---|
| Utilité du système | 5.8 |
| Qualité des informations | 4.9 |
| Qualité de l'interface | 6.2 |
| Score global | 6 |
Ou sous la forme d'un graphique Radar comme DEEP.
L'After-Scenario Questionnaire est une échelle à trois items issue des travaux de l'équipe d'utilisabilité d'IBM. Elle est présentée aux utilisateurs après chaque scénario accompli au cours d'un test utilisateur et non pas à l'issue de tous les scénarios comme c'est souvent le cas.
Elle permet de quantifier rapidement l'usabilité d'une section d'un test utilisateur.
| Scénario | Facilité | Temps | Support | Moyenne |
|---|---|---|---|---|
| Créer un compte | 2,1 | 2,5 | 2,0 | 2,2 |
| Modifier un profil | 3,8 | 4,2 | 3,5 | 3,8 |
| ... | ... | ... | ... | ... |
| Échelles | Temps | Cible |
|---|---|---|
| SUS | Rapide (10 items) | Tout type de système |
| UMUX-Lite | Ultra rapide (2 items) | Tout type de système |
| DEEP | Long (~20–30 items selon les versions) | Évaluations stratégiques, benchmarks produits sur site internet |
| CSUQ | Long (19 items) | Systèmes complexes |
| ASQ | Ultra rapide (3 items) | Tout type de système (Après chaque scénario) |
Nous verrons plus tard comment le bon questionnaire en fonction de la situation.
Vers le début des années 2000, on reconnaît officiellement qu’il ne suffit plus d’évaluer l’utilisabilité seule : il faut aussi mesurer les dimensions émotionnelles, motivationnelles et contextuelles de l’expérience utilisateur.
Donald Norman popularise l’expression user experience (1993 chez Apple) puis Marc Hassenzahl, Klaus Thüring et d’autres chercheurs qui introduisent la distinction entre aspects pragmatiques (utilisabilité) et aspects hédoniques (émotions, stimulation, identification).
Créé par Marc Hassenzahl et ses collaborateurs Burmester et Koller en 2003, AttrakDiff est une échelle UX holistique qui évalue, en un seul questionnaire, à la fois les dimensions :
Simple, rapide et polyvalente, elle s’applique à tout type de produit ou service.
L’AttrakDiff analyse la qualité des interactions entre l’utilisateur et le système tels que l’attractivité, l’utilisabilité, la désirabilité, l’ergonomie et l’accessibilité selon différentes perspectives de l'utilisateur :
L'échelle est validé scientifiquement, ce qui signifie qu’elle aboutit à des résultats fiables qui reposent sur des critères parfaitement testés.
Evaluation unique : cette méthode débouche sur un score unique de l’analyse UX d’un dispositif interactif.
Comparaison produit A – produit B : elle offre une analyse comparative de l’UX entre deux produits.
Comparaison avant/après : elle analyse l’UX du produit avant et après l’application de certaines optimisations.
Elle contient 28 éléments étalés sur 4 échelles :
Inventé par Minge et Riedel en 2013. Il est basé sur le modèle théorique de Thüring et Mahlke (2007). Il comporte 34 éléments ventilés en 4 modules :
meCUE : plus riche, analytique, adapté aux recherches approfondies et aux suivis dans le temps.
AttrakDiff en version courte sera plus intéressant pour cibler des utilisateurs n'ayant pas beaucoup de temps alors que meCUE sera un très bon outil pour de la recherche UX avec des volontaires pour des expérimentations.
Choisir la bonne échelle en fonction de votre situation.
Choisir le mode de passation : papier ou numérique ?
Recruter les utilisateurs cibles : définir l'échantillon.
Quel est le type de système que vous souhaitez évaluer ?
Quelle est la disponibilité de vos utilisateurs ?
Souhaitez-vous obtenir un retour sur certaines caractéristiques de votre système ou la globalité ?
| Objectif | Échelles |
|---|---|
| Mesurer l’utilisabilité globale | SUS, UMUX-Lite |
| Identifier les problèmes précis d’UX | DEEP / CSUQ (Utilisabilité), meCUE (UX) |
| Évaluer l’expérience au-delà de l’utilisabilité | AttrakDiff, meCUE |
| Mesurer la charge mentale | NASA-TLX, SMEQ/RSME |
| Communiquer une note simple et rapide à collecter aux décideurs | UMUX-Lite ou AttrakDiff court |
| Cible | Échelles |
|---|---|
| Grand public / utilisateurs peu familiers | SUS, UMUX-Lite, SMEQ, AttrakDiff court |
| Utilisateurs professionnels | CSUQ, EUCS, meCUE, NASA-TLX |
| Participants à une étude académique / recherche UX avancée | meCUE |
| Temporalité | Échelles |
|---|---|
| Phase exploratoire / avant conception | AttrakDiff court ou UES |
| Pendant la conception / tests itératifs rapides | SUS, UMUX-Lite ou AttrakDiff court |
| Évaluation avant lancement (benchmark) | SUS, UMUX-Lite, AttrakDiff ou meCUE |
| Suivi longitudinal / post-lancement | meCUE, AttrakDiff ou UES |
z1−α/2z_{1-\alpha/2}z1−α/2 est la valeur de la loi normale pour ton niveau de confiance (ex. 1,96 pour 95 %),
σ\sigmaσ est l’écart-type attendu,
EEE est la marge d’erreur souhaitée.
Repères pratiques (si il n’y a pas de pilot) :
UMUX-Lite (échelle 1–7) : σ≈1.0\sigma \approx 1.0σ ≈ 1.0 à 1.1.
UMUX-Lite en SUS-équivalent (0–100) : σ≈12\sigma \approx 12σ ≈ 12 à 13 (proche du SUS).
AttrakDiff (-3 à +3) sur une dimension agrégée : σ≈0.6\sigma \approx 0.6σ≈0.6 à 0.8.
Exemples rapides :
UMUX-Lite (1–7), marge d'erreur ±0,3 :
n≈(1,96×1,1/0,3)2≈52n \approx (1{,}96\times1{,}1 / 0{,}3)^2 \approx 52n ≈ (1,96×1,1/0,3)^2 ≈ 52.
UMUX-Lite (SUS-eq 0–100), marge d'erreur ±5 points :
n≈(1,96×12,5/5)2≈24n \approx (1{,}96\times12{,}5 / 5)^2 \approx 24n ≈ (1,96×12,5/5)^2 ≈ 24.
AttrakDiff (-3..+3), viser ±0,2 sur PQ :
n≈(1,96×0,7/0,2)2≈47n \approx (1{,}96\times0{,}7 / 0{,}2)^2 \approx 47n ≈ (1,96×0,7/0,2)^2 ≈ 47.
Il est l'heure de s'entraîner pour mesurer l'utilisabilité !
Réalisez un questionnaire DEEP selon votre propre perception d’un site internet que vous
venez de visiter, puis analysez les résultats.
Appelez-moi pour que l'on puisse vérifier ensemble.
Il est l'heure de s'entraîner pour mesurer l'expérience utilisateur !
Réalisez un questionnaire AttrakDiff selon votre propre perception d’une solution que vous utilisez fréquemment, puis analysez les résultats.
Appelez-moi pour que l'on puisse vérifier ensemble.
En tant qu’agence UX, vous recevez une demande d’un client potentiel : Netflix souhaite réaliser un benchmark UX de ses concurrents afin d’évaluer si une augmentation des prix est envisageable.
Choisissez un questionnaire, recueillez les réponses d’un échantillon d’une dizaine de personnes et comparez l’expérience de Netflix à celle d’un concurrent. Analysez ensuite les résultats.
Vous devrez présenter votre démarche et vos conclusions en fin de journée en 15 minutes.
L'émotion est un concept psychologique complexe et de nombreux débats animent la communauté scientifique sur la nature ou la définition des émotions.
Pour Darwin, les émotions sont la base de la faculté d'adaptation et de survie de l'être humain.
L'émotion renvoie souvent à un épisode affectif court mais intense, qui est déclenché par un stimulus externe ou interne.
Un événement vécu ou un souvenir peut déclencher une réaction émotionnelle. Il y a donc un facteur causal dans l'émotion.
Au-delà du sentiment subjectif, l'émotion est un processus complexe qui se manifeste également par des changements d'état aux niveaux cognitif, psychophysiologique, motivationnel et moteur.
Évaluer les émotions permet de trouver un moyen de réduire les émotions négatives et d'amplifier les positives dans une expérience utilisateur.
L'humeur en revanche n'est pas (consciemment) tournée vers un objet particulier. On peut se sentir de mauvaise humeur sans savoir vraiment pourquoi.
Elle renvoie donc plutôt à la présence silencieuse de niveaux d'affects d'intensité faible ou modérée.
Les états affectifs relevant de l'humeur vont être présents sur une durée plus longue qu'une émotion, mais restent limités dans le temps.
L'affect est une notion plus générale, une tendance, qui désigne le ressenti (préférences, aversions) qu'une personne a envers un objet, une situation ou une personne.
Émotions et humeurs sont des types particuliers d'affects.
Quels souvenirs gardez-vous du mois dernier ?
De l'année dernière ?
Il y a fort à parier que ce sont des souvenirs liés à des situations qui ont provoqué chez vous de l'émotion.
Les recherches ont montré que les émotions, même modérées, facilitent la mémorisation.
Plusieurs phénomènes sont impliqués dans ce processus :
L'encodage, la consolidation et le rappel.
Tout d'abord, l'émotion, positive ou négative, va augmenter l'attention et l'élaboration cognitive de l'information qui sera confiée à la mémoire. C'est la toute première étape pour que l'information soit conservée ; elle doit être captée.
Ensuite, elle est consolidée, c'est-à-dire que la trace mnésique peut être renforcée ou non. Encore une fois, les émotions jouent un rôle dans ce processus de consolidation, tout simplement car elles stimulent la rumination mentale et le partage social.
Attention, pour que l'émotion joue un rôle d'amplification de la mémoire, il faut qu'elle soit légère ou modérée. Dans le cas d'une émotion forte, nous pouvons oublier certains éléments du contexte.
Ex: le cas d'un accident où la victime aura du mal à se souvenir de la situation complète.
Le psychologue Stephan Hamann a réalisé une expérience dans laquelle il présentait des mots et des images, dont une moitié était émotionnellement neutre et l'autre chargée en émotion.
Cette dernière catégorie stimulait la partie du cerveau appelée amygdale, centre des émotions.
Les participants se souvenaient de deux fois plus de mots et d'images que pour la catégorie émotionnellement neutre.
Les émotions primaires sont des émotions universelles, biologiquement programmées, présentes chez tous les humains (et parfois observées chez certains animaux). Elles sont :
Elles constituent la brique de base sur laquelle se construisent les émotions plus complexes ou secondaires.
Paul Ekman (1982), propose 6 émotions de base universelles, identifiables par l’expression faciale :
2 positives : Joie, Surprise.
4 négatives : Tristesse, Colère, Peur, Dégoût.
Les autres émotions sont des états mixtes ou dérivés, c’est-à-dire des mélanges, composés ou combinaisons d’émotions de base.
Dans la roue des émotions de Plutchik (1980) le cercle et la palette de couleurs représentent l’idée que les émotions se combinent les unes et autres et s’expriment selon différents niveaux d’intensité.
Plus scientifique et validée expérimentalement : 20 émotions représentées sur une roue, réparties en valence positive/négative et degré de contrôle.
Les participants choisissent une émotion et la notent en intensité.
Certains chercheurs (p. ex. Lisa Feldman Barrett, 2006–2017) contestent l’idée de “basic emotions fixes”. ils parlent d’émotions construites culturellement et contextuellement.
Mais pour l’UX et la psychologie appliquée, les modèles Ekman et Plutchik restent des références pratiques.
Les émotions déclenchent des réponses physiologiques automatiques du système nerveux autonome, Les principaux indices physiologiques mesurables de l'émotion sont :
la réponse ou conductance électrodermale : activité des glandes sudoripares de la paume de la main.
la fréquence cardiaque : variations électriques issues de la contraction des muscles du cœur, dont l'électrocardiogramme rend compte ;
la fréquence respiratoire : nombre de cycles respiratoires durant une minute, mesurés par exemple via une ceinture thoracique ;
Globalement, les mesures physiologiques ont pour avantage de tracer les réactions émotionnelles de manière non invasive et « objective ».
Obtenir une mesure non consciente des émotions.
Limites :
Un schéma musculaire spécifique correspond à chaque émotion. Deux techniques principales servent à évaluer les émotions sur la base des expressions faciales.
Le Facial Action Coding System (FACS) : consiste à coder la contraction des muscles faciaux sur la base d'unités d'action standardisées (au nombre de 46). Dans le cas de la joie par exemple, ce sont les unités d'action 6 (remontée des joues) et 12 (étirement du coin des lèvres) qui sont activées.
L'électromyographie : mesure la tension des muscles du visage par enregistrement du courant électrique.
Plusieurs logiciels (par exemple Facereader ©) intègrent le système de codage FACS et proposent d'identifier automatiquement les expressions faciales de l'utilisateur à partir d'une webcam.
Ici c'est utilisateur qui va consciemment évaluer ses émotions. La composante subjective de l'émotion est estimée à l'aide de deux types d'instruments d'auto-évaluation :
Plusieurs échelles existent mais une est particulièrement utilisé dans le contexte UX :
PrEMO (Desmet, Hekkert, & Jacobs, 2000 ; https://www.premotool.com/) est une échelle non-verbale de mesure des émotions discrètes.
Contrairement aux échelles SAM ou PANAS qui ont été crées par des psychologues, PrEMO a été créé spécifiquement pour l’étude des émotions liées à l’interaction avec des systèmes et produits.
Douze émotions sont représentées par des personnages de cartoon animés avec du son.
Les utilisateurs évaluent à quel point ils ressentent chacune des émotions, sur une échelle allant de 0 à 4.
Tout comme SAM, PrEMO est indépendant du langage et de la culture.
Recueillir l’expérience vécue du point de vue utilisateur.
Limites :
L'utilisateur est invité à réaliser un ensemble de tâches prédéfinies par l'équipe de conception. Ses interactions avec le système sont observées et analysées par au minimum deux UX Designers.
Les tests utilisateurs sont une méthode centrale pour évaluer l’expérience d’usage d’un produit ou d’un service. Ils permettent de mesurer l’utilisabilité et d’identifier les points de friction dans l’interaction.
Identifier les problèmes dans la conception du produit ou du service
Déceler des opportunités d’amélioration
Mieux comprendre le comportement et les préférences des utilisateurs cibles
Un bon designer UX ne devrait-il pas savoir créer une excellente interface utilisateur ?
Même les meilleurs designers UX ne peuvent pas concevoir une expérience parfaite — ou même simplement “suffisamment bonne” — sans un processus itératif basé sur l’observation des vrais utilisateurs et de leurs interactions avec le design.
La conception d’une interface moderne implique de nombreuses variables, et il y en a encore plus dans le cerveau humain. Le nombre total de combinaisons possibles est immense.
La seule façon de réussir un design UX est de le tester.
Créer un échantillon de 3 à 6 utilisateurs en fonction de votre persona.
Désigner un facilitateur qui gère le test et un observateur qui prends note.
Un protocole de test et des ressources pour cadrer les tâches à réaliser par le testeur.
Donne les instructions, répond aux questions et pose des questions complémentaires.
S’assure que le test produit des données de qualité et valides, sans influencer accidentellement le comportement.
Suit le protocole de test pour garder les mêmes conditions d'un test à l'autre.
Suit les interactions du participant avec le produit ou le service.
Valide ou invalide les étapes du protocole en fonction des interactions du participant.
Rédige des notes sur les retours à l'oral ou les blocages du participant.
Être un utilisateur existant ou bien quelqu’un ayant un profil similaire au groupe cible, partageant les mêmes besoins.
Les participants sont invités à penser à voix haute : ils décrivent leurs actions et leurs pensées.
L’objectif est de comprendre leurs comportements, objectifs, pensées et motivations.
Les tâches d’un test d’utilisabilité sont des activités réalistes que le participant pourrait effectuer dans la vie réelle. Elles peuvent être très spécifiques ou ouvertes, selon les questions de recherche et le type de test.
Exemples de tâches issues d’études réelles :
Le libellé des tâches est très important. De petites erreurs de formulation peuvent amener le participant à mal comprendre ce qu’on lui demande ou influencer sa manière d’accomplir la tâche (phénomène psychologique appelé priming).
Les instructions peuvent être données à l’oral (le facilitateur les lit) ou sur une fiche de tâches remise au participant.
On demande souvent aux participants de lire les instructions à voix haute, afin de s’assurer qu’ils les ont bien comprises et d’aider les chercheurs à suivre le déroulé du test.
Dans une session de test où il n'y aurait qu'un facilitateur : le participant est assis à gauche, le facilitateur à droite. Le participant utilise un ordinateur portable spécial, équipé d’un logiciel d’enregistrement d’écran et d’une webcam pour capter ses expressions faciales.
L’écran est connecté à un moniteur externe pour le facilitateur, qui écoute les retours, administre les tâches et prend des notes.
Les tests utilisateurs peuvent être conduits de différentes manières selon les objectifs et les contraintes du projet. On distingue quatre grandes catégories de tests :
Les tests d’utilisabilité visent à observer les interactions d’un utilisateur avec un système dans un environnement contrôlé, afin de limiter les distractions et les variables externes.
Traditionnellement menés en laboratoire d’utilisabilité, ces tests impliquent une séparation entre la salle de test et la salle d’observation, avec un enregistrement audio et vidéo des actions, expressions et verbalisations (méthode du think aloud).
Cependant, ces dispositifs, jugés coûteux et artificiels, ont évolué vers des tests “in sitro”, combinant la rigueur du laboratoire (in vitro) et le réalisme du terrain (in situ).
Le contexte physique et social influence fortement l’expérience vécue. Les tests en contexte naturel, menés sur le terrain (domicile, lieu de travail, espace public…), permettent d’observer l’utilisateur dans ses conditions réelles d’usage et évite le côté artificiel des labos.
L’objectif est de capturer l’expérience authentique. Ce mouvement, appelé “the turn to the wild”, affirme que l’évaluation doit se dérouler dans la vie quotidienne même où les technologies sont utilisées.
Retire la contrainte de la proximité géographique entre observateur et participant. Très utilisés aujourd’hui, ils facilitent la mobilisation rapide d’un grand nombre d’utilisateurs.
On distingue deux formes principales :
les tests synchrones, menés en temps réel par un évaluateur via un outil dédié ou une visioconférence ;
les tests asynchrones, automatisés, qui se déroulent sans supervision directe et permettent de tester plusieurs participants simultanément.
Les tests utilisateurs en mode guérilla sont des évaluations rapides et peu coûteuses, menées de façon informelle, souvent dans des lieux publics, auprès d’utilisateurs sollicités spontanément.
Cette approche allège la logistique et les coûts des tests classiques, mais elle présente des limites en termes de validité et de rigueur méthodologique.
Elle constitue donc une méthode complémentaire, utile pour des retours rapides, mais à privilégier avec prudence face aux tests plus structurés.
Contrairement aux tests en présentiel ou modérés, il n’y a pas d’interaction directe facilitateur–participant : le chercheur utilise un outil en ligne spécialisé pour configurer des tâches écrites destinées au participant.
Ensuite, le participant réalise ces tâches seul, à son rythme. L’outil de test délivre les instructions et éventuelles questions de suivi.
Une fois le test terminé, le chercheur reçoit l’enregistrement de la session ainsi que des métriques comme le taux de réussite des tâches.
Le nombre de participants dépend du type d’étude :
Pour un test qualitatif classique sur un seul groupe d’utilisateurs, 5 participants suffisent généralement à identifier la majorité des problèmes récurrents.
Les études simples, dites “discount usability testing”, peuvent être peu coûteuses, même si vous devez généralement prévoir quelques centaines de dollars pour les incentives des participants. La session de test peut se dérouler dans une simple salle de réunion, et une étude basique prend environ 3 jours :
À l’opposé, certaines recherches plus coûteuses sont parfois nécessaires, et le budget peut alors atteindre plusieurs centaines de milliers de dollars pour les études les plus complexes.
Consiste à définir clairement les objectifs de l’évaluation avant de choisir la méthode de test. Plutôt que de sélectionner une technique au hasard, on part de la question :
“Qu’est-ce que je veux apprendre de l’utilisateur, à ce stade du projet ?"
Exemple :
| Méthode | Objectif | Contexte d'usage |
|---|---|---|
| Prototype Low-fi | Tester l’architecture, le flux | Early design |
| Guerrilla testing | Feedback rapide et économique | Early stage, validation rapide |
| Prototype Hi-fi | Tester interactions, esthétique | Pré-développement |
| Observations in situ | Comprendre l’usage réel en contexte | Produit existant / terrain |
| Test des 5 secondes | Vérifier la compréhension immédiate | Pages d’accueil, landing pages |
| Méthode | Objectif | Contexte d'usage |
|---|---|---|
| Test de parcours | Mesurer efficacité, erreurs, satisfaction | Prototype fonctionnel / produit existant |
| A/B testing | Comparer deux versions sur un indicateur | Produit en production |
| Eye Tracking | Observer où l’utilisateur regarde et son attention | Analyse visuelle, optimisation UI |
| Objectif | Description | Support |
|---|---|---|
| Exploration | Tester le système dès la génération des premières solutions, afin d’identifier les problèmes de fond. | Maquettes |
| Évaluation | Tester le système dans une version suffisamment fonctionnelle pour simuler l’exécution de tâches spécifiques auprès des utilisateurs. | Prototype fonctionnel |
| Validation | Tester le système dans sa version finale, avant la mise sur le marché, afin de vérifier qu’il répond bien aux exigences de qualité attendues. | Prototype final |
| Objectif | Description | Support |
|---|---|---|
| Comparaison | Tester plusieurs alternatives d'un même système, ou plusieurs Maquettes, systèmes comparables entre eux, afin d'identifier les forces et faiblesses de chaque produit | Maquettes, prototypes, produits finaux |
| Amélioration continue | Évaluer la conformité du système avec les besoins du marché dans un processus d'amélioration continue | Produit sur le marché |
Avant toute chose, vous devrez sélectionner le type de test le plus adapté à vos besoins. Rappelez-vous également qu'un test est un « éco-système» combinant plusieurs méthodes.
Planifier des sessions de tests implique de réfléchir à la construction cohérente d'un plan de test et d'un protocole, qui décriront en détail le déroulement des passations.
Réalisez un audit au préalable pour corriger les problèmes les plus évidents et ainsi mieux exploiter les bénéfices des tests utilisateurs.
Ils simulent des actions représentatives des buts utilisateurs et doivent donc être élaborées avec soin. Plusieurs types de scénarios sont possibles :
Doit contenir :
Une grille sera sous forme de tableau comme un fichier Excel ou une base de donnée Notion.
Être un utilisateur existant ou bien quelqu’un ayant un profil similaire au groupe cible, partageant les mêmes besoins.
Pour motiver les utilisateurs, on peut les dédommager ou leur donner un avantage avec le produit.
Réaliser une base de donnée de vos testeurs pour facilement les recontacter ou pour historique.
Un test utilisateur ne devrait pas durer plus de 90 minutes, accueil des participants et étape de débriefing inclus.
La passation d’un test utilisateur commence par l’accueil et la mise en confiance du participant.
Le facilitateur doit expliquer le déroulement de la séance, faire signer le consentement éclairé, puis présenter les scénarios de tâches sous forme écrite, idéalement regroupés dans un petit fascicule pour faciliter le suivi.
Avant de commencer, il est essentiel de rappeler que c’est le système, et non l’utilisateur, qui est évalué, et de vérifier la bonne compréhension des consignes en répondant à toutes les questions du participant.
Une fois les consignes données, laissez le participant consulter les scénarios de tâches et commencer à son rythme.
Selon le contexte, il peut être utile de mener un court entretien préalable pour identifier ses attentes vis-à-vis du système et les aspects de l’expérience utilisateur qui comptent le plus pour lui.
Pendant le test, laissez le participant agir sans intervention. Contentez-vous d’observer et de renseigner vos grilles d’observation, sans influencer son comportement.
Si vous partagez la même pièce, évitez tout commentaire ou réaction pouvant le perturber. En cas de blocage sur un scénario, invitez-le simplement à passer à la tâche suivante.
Le débriefing conclut la séance de test et vise à approfondir la compréhension de l’expérience utilisateur. Il s’appuie principalement sur l’entretien post-test, permettant de recueillir les perceptions, frustrations, points positifs et comparaisons avec d’autres systèmes.
On peut aussi proposer des tâches complémentaires ou utiliser des échelles d’utilisabilité et d’UX pour obtenir des données quantitatives.
Enfin, il est essentiel de vérifier le bien-être du participant, de le remercier et lui remettre la récompense prévue, tout en poursuivant l’enregistrement jusqu’à son départ, car les remarques spontanées de fin de séance sont souvent précieuses.
Selon les métriques définies dans les objectifs du test, les résultats obtenus peuvent inclure :
La catégorisation permet de transformer des retours qualitatifs en enseignements clairs et exploitables pour améliorer l’expérience utilisateur, en 4 étapes :
Lire et s’imprégner : Comprendre le contexte, repérer les émotions et les thèmes récurrents.
Créer des catégories (codage) : Attribuer à chaque retour un ou plusieurs thèmes — ex. Navigation, Compréhension, etc.
Regrouper et hiérarchiser : Fusionner les thèmes similaires pour dégager des axes majeurs d’analyse (ex. “Lisibilité” + “Visibilité” = “Clarté”).
Synthétiser en insights : Pour chaque catégorie, formuler un constat utilisateur et une recommandation design.
Lors du regroupement en catégorie, garder les verbatims qui est la source de vos données pour en faire une fréquence.
Si sur 5 testeurs, la catégorie a été remonté par 3 utilisateurs vous avez donc : 3 / 5 soit une fréquence de 0,6 ce qui représente donc 60% de vos utilisateurs.
Exemple d'insight avec recommandation :
| Insights | Recommandations |
|---|---|
| 60 % des utilisateurs ne voient pas le bouton d’achat | Augmenter le contraste du CTA |
Les résultats des tests utilisateurs servent à identifier et corriger les problèmes d’utilisabilité du système.
Pour hiérarchiser les actions à mener, il est recommandé d’établir un ordre de priorité entre les problèmes observés, en distinguant ceux qui bloquent la progression des utilisateurs de ceux qui sont mineurs.
L’utilisation d’une matrice de fréquence des problèmes permet de visualiser leur récurrence et de cibler en priorité les plus fréquents, donc les plus critiques à résoudre.
Toutes les données recueillies lors des tests utilisateurs sont synthétisées dans un rapport d’évaluation, souvent illustré par des captures d’écran annotées présentant les principales observations, recommandations et le niveau de gravité des problèmes détectés.
Les pistes d’amélioration sont ensuite élaborées par l’équipe de conception. Ces solutions sont ensuite retestées auprès des utilisateurs, dans une démarche itérative visant l’amélioration continue du système.
Fort de son produit novateur et d'une campagne marketing réussie, Collab a décidé de développer de nouvelles formules, d'enrichir les nombres de fonctionnalités et de revoir entièrement certains parcours de l'application. Bien évidemment, ils n'ont pas jugé utile de faire appel à des UX lors de cette phase.
Néanmoins, l'entreprise constate une nette dégradation des KPI notamment d'inscriptions et achats sur leur solution. Changement de comportement constaté lors de leur sortie officielle en 1.0.0.
Vous avez été choisis en tant qu'Agence UX pour analyser, comprendre et proposer vos solutions afin de redresser la situation et d'améliorer les KPIs!
Taux de conversion de la landing page (renvoi vers la page d'inscription) : 25% (taux inchangé)
Taux de conversion de la page d'inscription (en compte créé) : 2.5% contre 7% avant.
Taux de passage d'un compte gratuit à un compte payant : 3% contre 12% avant.
Taux de d'upgrade de formule : 7% contre 27% avant.
Taux de churn : 2% contre 3% avant.
Rappel : Collab est un espace de travail virtuel disponible sur navigateur et application mobile.
La startup vous donne accès à plusieurs ressources pour auditer l'UX de sa solution :
Lien vers les product pitchs et personae.
Lien vers le prototype (seulement mobile) :
Présentations à partir de 16h en 15/20 minutes pour chaque groupe.