Résultats de recherche en langage (surtout) clair

Résultats de recherche en langage (surtout) clair

Codage semi-automatique des questions ouvertes dans les enquêtes

Les méthodes des enquêtes jouent un rôle central dans la conduite de nombreuses recherches en sciences sociales. La plupart des recherches méthodologiques par enquête se sont concentrées sur des questions fermées (réponses numériques, choix multiples, choisissez toutes les réponses qui s'appliquent). Les questions ouvertes sont également importantes car elles ne contraignent pas les réponses des répondants et évitent aux répondants d'avoir à choisir la réponse la moins gênante. Les réponses aux questions ouvertes ont toujours été sous-utilisées, en partie parce qu'il faut beaucoup de travail pour recueillir et analyser les réponses textuelles. L’utilisation croissante des enquêtes en ligne rend désormais particulièrement facile la collecte de ces données, car les questions ouvertes n’ont pas besoin d’être transcrites.

Les données textuelles des questions ouvertes de l'enquête sont plus difficiles à analyser que les réponses catégoriques ou numériques. Par conséquent, les données des questions ouvertes continuent d'être fréquemment ignorées dans l'analyse des données de l'enquête. Lorsque la catégorisation des questions ouvertes devient essentielle, plusieurs codeurs humains codent généralement manuellement les réponses en catégories. Cependant, les progrès récents de l'analyse de texte ont permis l'automatisation de ce codage. Ces algorithmes automatisés ne sont pas suffisamment précis pour remplacer entièrement les humains. Bien qu'ils ne soient pas parfaits, les algorithmes d'exploration de texte peuvent également faire la distinction entre les réponses textuelles qui sont presque certainement classées correctement et celles pour lesquelles il existe une incertitude considérable quant à la pertinence de la catégorie attribuée. Nous avons proposé le codage semi-automatique comme solution aussi précise que le codage manuel humain, mais nécessitant moins d'implication humaine.

Nous utilisons le codage automatique pour des réponses faciles à catégoriser et impliquons des codeurs humains pour les réponses difficiles à coder de manière à ne pas sacrifier la précision globale. Les étapes de base sont les suivantes:

Des données``divulgation'': seuil de classification automatique, fraction de données au-dessus du seuil et précision obtenue
Seuil	Fraction catégorisée automatiquement	Précision
0.9	0.15	0.95
0.8	0.31	0.90
0.7	0.46	0.87
0.6	0.58	0.82
0	1.00	0.65

Apprentissage: Détermine un modèle sur des réponses catégorisées par des humains (généralement 500 textes de réponse)
Appliquez le modèle d'apprentissage pour prédire la catégorisation des réponses pas encore catégorisées par les humains. Le modèle choisit la catégorie avec la probabilité la plus élevée d'être correcte pour chaque réponse.
Si la probabilité de la classification prédite est supérieure à une probabilité seuil, la classification automatisée est acceptée; s'il tombe en dessous du seuil, la réponse est alors donnée au codeur humain.

Dans notre article, nous avons testé cette approche avec deux questions ouvertes: les conseils des répondants à un patient dans un dilemme hypothétique et une question sur la perception des répondants du risque de divulgation / confidentialité. En ciblant une précision de 80%, nous avons constaté que 47% à 58% des données pouvaient être catégorisées automatiquement. Nous avons également constaté que la prédiction semi-automatique ne faussait pas la distribution des classes de résultats. En raison de la surcharge liée à la configuration de l'apprentissage automatique statistique, le mode semi-automatique a plus de sens lorsqu'il y a au moins 1 500 à 2 000 réponses à des questions ouvertes à coder.

Références

Schonlau, M., Couper M. Semi-automated categorization of open-ended questions. Survey Research Methods. August 2016, 10(2), 143-152. (lien vers le pdf du journal)

Revenir à la page d'accueil
Supprimer la barre de navigation sur la gauche