Archives par mot-clé : statistiques

Iramuteq : quelques références utiles

Après la narration de mes aventures dans ma découverte d’Iramuteq, ce blog reçoit régulièrement la visite de lecteurs qui semblent rechercher quelques informations pratiques sur ce logiciel. En témoignent le nombre de commentaires que ce billet a suscité : c’est le plus « populaire » à ce jour 😉
J’ai d’ailleurs encore récemment échangé avec une utilisatrice d’Iramuteq par ce biais.
Alors je me suis dit : bon, ok, tu as partagé ton « mode d’emploi » pour l’avant-analyse, et si tu partageais, cette fois, sur l’après ?
Car l’outil est impressionnant, il fournit quantité d’informations, de calculs, de représentations graphiques, mais comment interpréter tout cela quand on n’est pas vraiment spécialiste du domaine ?
[Vous me direz, si on n’est pas suffisamment calé sur la question, il vaut peut-être mieux ne pas utiliser ce type de logiciel, et je ne suis pas loin de le penser, tant la facilité avec laquelle on obtient des « résultats » est vertigineuse et déconcertante.]
Les calculs sont lancés, des résultats sont affichés, le tout en quelques secondes.
Et maintenant, on fait quoi ?
Loin d’être experte, je vous propose simplement ci-dessous une petite liste de références d’ouvrages et d’articles qui m’ont été très utiles pour comprendre ce qui se passait (en gros) lors des calculs, et donc pour m’orienter dans l’interprétation des informations que j’avais sous les yeux. Si vous connaissez d’autres sources utiles, n’hésitez pas à m’en faire part dans les commentaires, je les ajouterai volontiers.

Bien entendu, dès le début de mon apprentissage, j’ai d’abord utilisé la documentation qui est disponible sur le site web du logiciel. Je vous recommande également, dès le début, de vous abonner à la liste de diffusion qui est consacrée au support. On ne reçoit pas un gros volume de messages, mais c’est instructif de les lire au fur et à mesure, car on apprend aussi par ce biais, au travers des réponses apportées.

Toujours à propos du site web consacré au logiciel, une page qui n’existait pas encore quand je l’ai utilisé et qui me paraît bien utile : il s’agit d’études publiées qui se sont appuyées sur Iramuteq.

Enfin, donc, les références qui m’ont été fort utiles :

Fénelon, J.-P. (1981). Qu’est-ce que l’analyse des données ? Paris : Lefonen.
Un ouvrage que j’ai emprunté en bibliothèque et qui a l’avantage de présenter les choses pour des « non mathématiciens ». Il va dans le détail, et permet de bien comprendre « ce qui se passe » au niveau des différents calculs effectués. Il donne des clés essentielles pour l’interprétation, il m’a beaucoup aidée pour les AFC notamment. Un lien utile pour le trouver en bibliothèque : http://www.sudoc.fr/022282033

Garnier, B. et Guérin-Pace, F. (2010). Appliquer les méthodes de la statistique textuelle. Paris : CEPED.
Très pédagogique, ce texte est facile à aborder et donne pas mal de premières pistes d’interprétation intéressantes. Il est téléchageable intégralement à cette adresse : http://www.ceped.org/fr/publications-ressources/editions-du-ceped-1988-2012/les-clefs-pour/article/appliquer-les-methodes-de-la

Kalampalikis, N. (2003). L’apport de la méthode Alceste dans l’analyse des représentations sociales. Dans J.-C. Abric (dir.), Méthodes d’étude des représentations sociales (p. 147‑163). Paris : Erès.
Un chapitre d’ouvrage qui donne des clés d’interprétation sur la classification obtenue d’après le corpus analysé, en s’appuyant pas à pas sur un exemple concret.

Lebart, L. et Salem, A. (1994). Statistique textuelle. Paris : Dunod.
Un ouvrage complet sur le sujet, avec notamment un glossaire, ce qui est bien pratique pour comprendre le domaine. Le texte intégral est téléchargeable à cette adresse : http://ses-perso.telecom-paristech.fr/lebart/ST.html

Mange, J. et Marchand, P. (2007). Oui ou non à la Constitution européenne. L’éloquence du forum. Mots, (83), 121‑137.
Un article très détaillé, qui m’a fourni des pistes pour l’interprétation des AFC et pour l’utilisation du chi2 signé des modalités par classes (dans mon cas). Le texte intégral est disponible à cette adresse : http://mots.revues.org/952

Reinert, M. (2002). Alceste : Un logiciel d’aide pour l’analyse de discours. Notice simplifiée de la version de base commune aux versions 4.x.
Ce n’est pas Iramuteq, certes. Cela dit ce logiciel permettant d’effectuer une analyse fondée sur la méthode Alceste, la lecture du manuel d’utilisation d’Alceste est éclairante sur pas mal de points. Le texte intégral est téléchargeable à cette adresse :

Iramuteq avant la classification et les statistiques

En épilogue dans un précédent billet, j’évoquais mes débuts avec Iramuteq et l’ajout d’un peu plus de 200 expressions dans son dictionnaire pour pouvoir le faire tourner.

Finalement, j’ai fait bien plus qu’ajouter des expressions, et il m’a fallu plusieurs semaines avant de pouvoir enfin examiner une classification cohérente de mon corpus.

Du coup, je me suis dit : et si je me faisais un petit mode d’emploi, pour la prochaine fois ?
Histoire de ne pas perdre trop de temps avec un nouveau corpus.

Puis, j’ai pensé : bah, peut-être que d’autres seraient intéressés, qui sait ?

Alors voilà non pas comment je m’y suis pris, parce que j’ai un peu navigué à vue, mais comment je m’y prendrais la prochaine fois dans un contexte similaire.

Soyons précis tout d’abord, quel est le contexte ?

Je travaille en environnement Mac. J’utilise la version 0,7 alpha 2 du 22/12/2014 d’Iramuteq, qui est l’acronyme d’Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. Le logiciel est libre GNU GPL, il est développé au sein du Lerass. Mon corpus est constitué d’une sélection d’articles de presse nationale quotidienne issus de la base Europress.

1 – Récupérer les articles depuis Europress

Dans cette base, il est possible de télécharger 4 fichiers différents pour chaque groupe de 50 articles : une liste des articles, aux formats PDF et HTML, le texte intégral des articles, aux formats PDF et HTML. Les 4 sont utiles, à différentes étapes, donc ça vaut le coup de prendre le temps de tous les récupérer.

Une fois tous ces fichiers récupérés, créer un répertoire spécifique pour Iramuteq, si possible directement à la racine du disque, ou pas trop loin, pour ne pas créer un chemin d’accès trop long. Coller uniquement les fichiers HTML du texte intégral des articles (donc autant de fichiers que de groupes de 50 articles) dans ce répertoire. Dans Iramuteq, choisir importer depuis Europress, désigner le répertoire en question, valider.

Hop, on obtient en retour, dans ce même répertoire, un fichier texte « corpus.txt » qui reprend tous les articles dans un format compréhensible par Iramuteq. C’est à dire que les variables « source », « date », « année et mois », et « année » sont déjà créées avec leurs modalités renseignées pour chaque article. Quand on en a 400, c’est toujours ça de pris !

Problème : les auteurs ne sont pas isolés dans une variable, certains intitulés sont repris en source, mais qui ne sont pas pertinents (pour moi) comme « quotidien deuxième édition ». De plus, j’aimerais pouvoir isoler le titre du corps de l’article.

Extrait du corpus import Europress par Iramuteq
Extrait du corpus importé d’Europress par Iramuteq

2 – Structurer le corpus

Ouvrir le corpus dans OpenOffice (qui conservera le jeu de caractère d’origine, UTF8, sinon c’est la panique) et patiemment, article par article : ajouter la variable *auteur et sa modalité (« nom de l’auteur », sinon, quand il n’y en a pas : « non », pour pouvoir isoler les articles non signés), couper chaque article en 2 thématiques (-*titre et -*corps), supprimer les sources non pertinentes (si nécessaire), supprimer les termes « de notre correspondant », « Illustration(s) », les crédits photos, c’est à dire tout ce qui ne sera pas nécessaire pour l’analyse et qui risque de créer de fortes occurrences dans les statistiques, et enfin, passer le correcteur orthographique pour déceler les espaces en trop ou en moins, les tirets qui coupent les mots en 2 (oui, oui), bref toutes les scories dont on se passerait bien et qui empêchent Iramuteq de reconnaître un mot.

Extrait corpus structuré
Extrait du corpus structuré pour Iramuteq
Localisation des dictionnaires Iramuteq sous Mac
Localisation des dictionnaires Iramuteq sous Mac

3 – Ajouter les expressions non connues dans le dictionnaire d’Iramuteq

Là, c’est spécifique Mac : le fichier est caché. Si, si. Un outil bien utile dans ces cas-là : Onyx. A son ouverture, annuler les 2 premières boîtes de dialogue (vérifications des disques). Dans le menu « Paramètres », onglet « Finder », cocher la case « Afficher les fichiers et dossiers cachés ». Attention, tous les fichiers et dossiers cachés seront visibles, mais si on n’y touche pas tout va bien 😉 . Les dictionnaires sont dans le répertoire « .iramuteq » sous votre nom d’utilisateur Mac. Dupliquer « expression_fr.txt » et « lexique_fr.txt » pour conserver les originaux. Les renommer. Prudence est mère de sûreté…

Ouvrir le corpus structuré dans OpenOffice et lancer une magnifique recherche, sans pleurer en voyant le nombre d’occurrences s’afficher : tous les tirets. Ah ben oui, y a pas, faut passer par là. Ouvrir le dictionnaire des expressions en vis-à-vis (tiens, une expression), toujours dans OpenOffice, mais dans le tableur, et pour chaque expression trouvée dans le corpus, vérifier si elle existe dans le dictionnaire.

Pour chaque expression non trouvée, l’ajouter en fin de fichier : première colonne = expression telle que trouvée dans le corpus, deuxième colonne = expression telle qu’elle doit être transformée, colonnes suivantes : nature, genre, nombre. Les autres colonnes peuvent rester vides.

Extrait du dictionnaire d'expressions Iramuteq
Extrait du dictionnaire d’expressions Iramuteq

Une fois toutes vos expressions ajoutées, sélectionner les lignes correspondantes (elles sont à la fin du fichier, remember), les copier et les coller dans une nouvelle feuille. Supprimer la première colonne, copier la seconde colonne pour la coller à la place de la première (donc, oui, deux colonnes sont identiques). Ouvrir le fichier lexique_fr_txt dans OpenOffice, dans un tableur, copier et coller, en fin de fichier, les lignes figurant dans la nouvelle feuille précédemment créée. Sélectionner la colonne qui contient la catégorie grammaticale et passer tout en caractères minuscules. Trier chacun des 2 fichiers expression_fr.txt et lexique_fr.txt par ordre alphabétique de la première colonne. Enregistrer. Yes ! Les expressions sont ajoutées et seront prises en compte par Iramuteq.

4 – Ouvrir le corpus dans Iramuteq

Extrait du fichier des formes actives Iramuteq
Extrait du fichier des formes actives Iramuteq

Tada !!! ça y est, on est fin prêt, on se frotte les mains, on y va ! Ouvrir le corpus et lancer les statistiques. Ouvrir le fichier des formes actives (répertoireducorpus\corpus_corpus_1\corpus_stat_1\formes_actives.csv) dans OpenOffice (tableur) et filtrer sur la colonne C = nr (non reconnu). Pleurer. Ne pas s’arracher les cheveux. Pourquoi ? Parce qu’on va trouver plein de mots non lemmatisés. Don’t panic ! Tout va bien se passer. Se resservir un gros mug de thé. Que vois-je ? Oh, voilà déjà 2 formes d’un même mot, « état », qui lui, est bien lemmatisé mais seulement quand il a son accent… Et oui ! Des tas de surprises bien sympathiques !

Soit corriger dans le corpus, soit ajouter dans le lexique ou dans les expressions (et donc le lexique ensuite) tout ce qu’on trouve de suspect dans les formes actives non reconnues.

5 – Ajouter les expressions sans tirets

Dans Iramuteq, cette fois, dans les statistiques du corpus, chercher dans les formes actives celles qui semblent pouvoir être une partie d’une expression sans tirets. Hein ? Par exemple, le mot « code » tout seul est-il intéressant pour l’analyse qu’on veut faire ? Un doute ? Clic droit sur la forme, concordancier : on voit le mot dans le corpus et donc dans son environnement. Peut-être serait-il intéressant d’ajouter les expressions « code pénal », « code d’accès », « code confidentiel » ? On commence ici à rentrer dans l’analyse donc tout dépend du travail de recherche. J’ai par exemple ajouté, parce que ça avait un sens dans mon cas, l’expression « base_de_données ». Le mot carte également : carte d’identité, carte grise, carte bleue, carte à puce ?

6 – Se lancer dans Iramuteq

Cette fois, c’est bon. Le corpus est nickel, les expressions et le lexique sont parfaits, tout va bien. On peut se jeter à corps perdu (tiens, encore une expression) dans les statistiques et les classifications, tester les 3 modes, comparer les classes obtenues et le pourcentage de segments de texte classés.

Au total, j’ai ajouté 612 formes dans le lexique, dont 330 expressions… Compter quelques semaines de boulot quand même… Mais pour quel résultat ! De belles classes bien pertinentes ! De quoi aborder l’analyse le cœur léger 😉