Iramuteq avant la classification et les statistiques

En épilogue dans un précédent billet, j’évoquais mes débuts avec Iramuteq et l’ajout d’un peu plus de 200 expressions dans son dictionnaire pour pouvoir le faire tourner.

Finalement, j’ai fait bien plus qu’ajouter des expressions, et il m’a fallu plusieurs semaines avant de pouvoir enfin examiner une classification cohérente de mon corpus.

Du coup, je me suis dit : et si je me faisais un petit mode d’emploi, pour la prochaine fois ?
Histoire de ne pas perdre trop de temps avec un nouveau corpus.

Puis, j’ai pensé : bah, peut-être que d’autres seraient intéressés, qui sait ?

Alors voilà non pas comment je m’y suis pris, parce que j’ai un peu navigué à vue, mais comment je m’y prendrais la prochaine fois dans un contexte similaire.

Soyons précis tout d’abord, quel est le contexte ?

Je travaille en environnement Mac. J’utilise la version 0,7 alpha 2 du 22/12/2014 d’Iramuteq, qui est l’acronyme d’Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. Le logiciel est libre GNU GPL, il est développé au sein du Lerass. Mon corpus est constitué d’une sélection d’articles de presse nationale quotidienne issus de la base Europress.

1 – Récupérer les articles depuis Europress

Dans cette base, il est possible de télécharger 4 fichiers différents pour chaque groupe de 50 articles : une liste des articles, aux formats PDF et HTML, le texte intégral des articles, aux formats PDF et HTML. Les 4 sont utiles, à différentes étapes, donc ça vaut le coup de prendre le temps de tous les récupérer.

Une fois tous ces fichiers récupérés, créer un répertoire spécifique pour Iramuteq, si possible directement à la racine du disque, ou pas trop loin, pour ne pas créer un chemin d’accès trop long. Coller uniquement les fichiers HTML du texte intégral des articles (donc autant de fichiers que de groupes de 50 articles) dans ce répertoire. Dans Iramuteq, choisir importer depuis Europress, désigner le répertoire en question, valider.

Hop, on obtient en retour, dans ce même répertoire, un fichier texte « corpus.txt » qui reprend tous les articles dans un format compréhensible par Iramuteq. C’est à dire que les variables « source », « date », « année et mois », et « année » sont déjà créées avec leurs modalités renseignées pour chaque article. Quand on en a 400, c’est toujours ça de pris !

Problème : les auteurs ne sont pas isolés dans une variable, certains intitulés sont repris en source, mais qui ne sont pas pertinents (pour moi) comme « quotidien deuxième édition ». De plus, j’aimerais pouvoir isoler le titre du corps de l’article.

Extrait du corpus import Europress par Iramuteq
Extrait du corpus importé d’Europress par Iramuteq

2 – Structurer le corpus

Ouvrir le corpus dans OpenOffice (qui conservera le jeu de caractère d’origine, UTF8, sinon c’est la panique) et patiemment, article par article : ajouter la variable *auteur et sa modalité (« nom de l’auteur », sinon, quand il n’y en a pas : « non », pour pouvoir isoler les articles non signés), couper chaque article en 2 thématiques (-*titre et -*corps), supprimer les sources non pertinentes (si nécessaire), supprimer les termes « de notre correspondant », « Illustration(s) », les crédits photos, c’est à dire tout ce qui ne sera pas nécessaire pour l’analyse et qui risque de créer de fortes occurrences dans les statistiques, et enfin, passer le correcteur orthographique pour déceler les espaces en trop ou en moins, les tirets qui coupent les mots en 2 (oui, oui), bref toutes les scories dont on se passerait bien et qui empêchent Iramuteq de reconnaître un mot.

Extrait corpus structuré
Extrait du corpus structuré pour Iramuteq
Localisation des dictionnaires Iramuteq sous Mac
Localisation des dictionnaires Iramuteq sous Mac

3 – Ajouter les expressions non connues dans le dictionnaire d’Iramuteq

Là, c’est spécifique Mac : le fichier est caché. Si, si. Un outil bien utile dans ces cas-là : Onyx. A son ouverture, annuler les 2 premières boîtes de dialogue (vérifications des disques). Dans le menu « Paramètres », onglet « Finder », cocher la case « Afficher les fichiers et dossiers cachés ». Attention, tous les fichiers et dossiers cachés seront visibles, mais si on n’y touche pas tout va bien 😉 . Les dictionnaires sont dans le répertoire « .iramuteq » sous votre nom d’utilisateur Mac. Dupliquer « expression_fr.txt » et « lexique_fr.txt » pour conserver les originaux. Les renommer. Prudence est mère de sûreté…

Ouvrir le corpus structuré dans OpenOffice et lancer une magnifique recherche, sans pleurer en voyant le nombre d’occurrences s’afficher : tous les tirets. Ah ben oui, y a pas, faut passer par là. Ouvrir le dictionnaire des expressions en vis-à-vis (tiens, une expression), toujours dans OpenOffice, mais dans le tableur, et pour chaque expression trouvée dans le corpus, vérifier si elle existe dans le dictionnaire.

Pour chaque expression non trouvée, l’ajouter en fin de fichier : première colonne = expression telle que trouvée dans le corpus, deuxième colonne = expression telle qu’elle doit être transformée, colonnes suivantes : nature, genre, nombre. Les autres colonnes peuvent rester vides.

Extrait du dictionnaire d'expressions Iramuteq
Extrait du dictionnaire d’expressions Iramuteq

Une fois toutes vos expressions ajoutées, sélectionner les lignes correspondantes (elles sont à la fin du fichier, remember), les copier et les coller dans une nouvelle feuille. Supprimer la première colonne, copier la seconde colonne pour la coller à la place de la première (donc, oui, deux colonnes sont identiques). Ouvrir le fichier lexique_fr_txt dans OpenOffice, dans un tableur, copier et coller, en fin de fichier, les lignes figurant dans la nouvelle feuille précédemment créée. Sélectionner la colonne qui contient la catégorie grammaticale et passer tout en caractères minuscules. Trier chacun des 2 fichiers expression_fr.txt et lexique_fr.txt par ordre alphabétique de la première colonne. Enregistrer. Yes ! Les expressions sont ajoutées et seront prises en compte par Iramuteq.

4 – Ouvrir le corpus dans Iramuteq

Extrait du fichier des formes actives Iramuteq
Extrait du fichier des formes actives Iramuteq

Tada !!! ça y est, on est fin prêt, on se frotte les mains, on y va ! Ouvrir le corpus et lancer les statistiques. Ouvrir le fichier des formes actives (répertoireducorpus\corpus_corpus_1\corpus_stat_1\formes_actives.csv) dans OpenOffice (tableur) et filtrer sur la colonne C = nr (non reconnu). Pleurer. Ne pas s’arracher les cheveux. Pourquoi ? Parce qu’on va trouver plein de mots non lemmatisés. Don’t panic ! Tout va bien se passer. Se resservir un gros mug de thé. Que vois-je ? Oh, voilà déjà 2 formes d’un même mot, « état », qui lui, est bien lemmatisé mais seulement quand il a son accent… Et oui ! Des tas de surprises bien sympathiques !

Soit corriger dans le corpus, soit ajouter dans le lexique ou dans les expressions (et donc le lexique ensuite) tout ce qu’on trouve de suspect dans les formes actives non reconnues.

5 – Ajouter les expressions sans tirets

Dans Iramuteq, cette fois, dans les statistiques du corpus, chercher dans les formes actives celles qui semblent pouvoir être une partie d’une expression sans tirets. Hein ? Par exemple, le mot « code » tout seul est-il intéressant pour l’analyse qu’on veut faire ? Un doute ? Clic droit sur la forme, concordancier : on voit le mot dans le corpus et donc dans son environnement. Peut-être serait-il intéressant d’ajouter les expressions « code pénal », « code d’accès », « code confidentiel » ? On commence ici à rentrer dans l’analyse donc tout dépend du travail de recherche. J’ai par exemple ajouté, parce que ça avait un sens dans mon cas, l’expression « base_de_données ». Le mot carte également : carte d’identité, carte grise, carte bleue, carte à puce ?

6 – Se lancer dans Iramuteq

Cette fois, c’est bon. Le corpus est nickel, les expressions et le lexique sont parfaits, tout va bien. On peut se jeter à corps perdu (tiens, encore une expression) dans les statistiques et les classifications, tester les 3 modes, comparer les classes obtenues et le pourcentage de segments de texte classés.

Au total, j’ai ajouté 612 formes dans le lexique, dont 330 expressions… Compter quelques semaines de boulot quand même… Mais pour quel résultat ! De belles classes bien pertinentes ! De quoi aborder l’analyse le cœur léger 😉

 

16 réflexions au sujet de « Iramuteq avant la classification et les statistiques »

  1. Bonjour,
    Merci pour ces deux billets, qui sont très éclairants !

    J’ai un corpus similaire au vôtre et je rencontre un problème au moment de l’import via Europress, apparemment un problème d’encodage lié à MacOS X. Etant donné que vous êtes également une utilisatrice Mac, je me demandais si vous aviez rencontré un problème similaire lors de votre première analyse, et le cas échéant comment vous aviez trouvé une solution !

    Cordialement,

    AR

    1. Bonjour Alexandra,
      Merci pour votre passage 🙂
      J’ai placé les fichiers HTML du texte intégral des articles récupérés d’Europress dans un dossier, sans les modifier. Leur entête HTML indique que l’encodage utilisé est ISO-8859-1. Ensuite, dans Iramuteq, j’ai utilisé la fonction « Importer depuis Europress » et lui ai indiqué le dossier dans lequel se trouvaient mes fichiers HTML. Iramuteq a donc créé en retour un fichier texte « corpus », qui est encodé en UTF-8. Le corpus doit être encodé en UTF-8 sinon les autres opérations ne pourront être appliquées correctement.
      Je n’ai donc pas rencontré ce problème d’encodage. Je viens de refaire la manipulation pour vérifier et j’ai bien le même résultat.
      Lorsque Iramuteq vous indique qu’il a créé le corpus et qu’il vous propose de l’ouvrir, dans la première fenêtre qui s’affiche, il faut bien que UTF-8 soit sélectionné, ce qui est le cas par défaut normalement.
      Pour vérifier l’encodage du fichier texte « corpus » créé par Iramuteq, essayez de l’ouvrir avec Open Office. S’il n’est pas en UTF-8, Open Office affichera d’abord une fenêtre vous demandant l’encodage du fichier. Choisissez occidental/mac, ouvrez le fichier. S’il ne s’affiche pas correctement, c’est qu’il s’agit d’un autre encodage, auquel cas il faut refaire la manipulation jusqu’à trouver le bon encodage. Une fois le fichier affiché correctement dans Open Office, enregistrez-le, sous Open Office, en format texte simple (pas en format texte codé). Ce nouveau fichier sera bien en UTF-8, normalement.
      J’utilise aussi parfois Smultron, un éditeur de texte qui permet, entre autres choses, de modifier l’encodage des fichiers. Il est disponible sur l’App Store, payant (environ 5 euros, de mémoire).
      En espérant que ma réponse vous aidera, à bientôt !

  2. Bonjour, je suis étudiante en Master de psychologie et je dois utiliser iramuteq pour analyser mes entretiens cliniques. Je ne connais pas du tout le logiciel et j’avoue que je suis perdue… 🙁
    Sauriez vous m’aider? 🙂

    1) Comment dois je créer les variables et thématiques ?
    2) j’ai enregistré le texte en .txt depuis word, j’ai rajouté les 4 * et l’étoile avec la variable (j’ai mis le nom de mes patients) et quand je le rentre dans le logiciel, il me dit « problème d’encodage » mais sans me dire quoi!! :/ Comment puis je savoir ce que je dois changer ?
    3) J’ai 5 thématiques abordées dans mes entretiens, dois je rentrer chaque paragraphe de tous mes patients dans un corpus à la fois ? Dois je rentrer les 40 entretiens d’un coup sans séparation ou bien dois je séparer chaque entretien par thématique ? oh la la je suis perdue je ne comprends rien…. :'(

    Je n’ai trouvé que votre article qui parlait d’une méthode pour aborder iramuteq… je m’en remets donc à vous.

    Merci!

    Solène

    1. Bonjour Solène,

      Merci pour votre visite 🙂

      1) Il faut avoir quelques retours à la ligne en début de fichier (perso, j’en mets 2), puis indiquer un nouvel enregistrement (pour vous, un entretien) en débutant la ligne par 4 étoiles, ensuite faire un espace, ajouter les variables qui sont valables pour l’ensemble de ce nouvel entretien en débutant par une étoile, suivie du nom de votre variable, suivi d’un trait souligné (underscore), suivi lui-même de la valeur de votre variable. Si vous avez plusieurs variables, ajoutez un espace, puis recommencez le même processus pour la seconde variable, etc.
      Ensuite, à l’intérieur de votre enregistrement (donc de votre entretien), sous cette première ligne qui déclare un nouvel enregistrement et les variables qui lui sont associées, vous pouvez découper votre texte en thématiques. Pour cela, ajoutez en début de ligne un tiret, suivi d’une étoile, suivie du nom de votre thématique. La ligne suivante commence le texte faisant partie de cette thématique. Ajoutez la seconde thématique de la même façon, dans une nouvelle ligne, etc.
      Cela donnerait : deux retours à la ligne, une ligne contenant « **** *variable1_valeur *variable2_valeur *variable3_valeur », une ligne contenant « -*thematique1 », des lignes contenant du texte, une ligne contenant « -*thematique2 », des lignes contenant du texte, etc. jusqu’à la fin de votre premier entretien. Puis une ligne contenant « **** *variable1_valeur *variable2_valeur *variable3_valeur », une ligne contenant « -*thematique1 », des lignes contenant du texte, une ligne contenant « -*thematique2 », des lignes contenant du texte, etc. jusqu’à la fin de votre second entretien. A répéter pour vos 40 entretiens.
      2) N’enregistrez pas votre corpus en texte depuis Word, car l’encodage ne sera pas le bon. Enregistrez-le depuis Open Office, il doit être en UTF-8, sinon ça ne fonctionnera pas.
      3) Tout dépend de ce que vous recherchez et de ce qui vous intéresse de calculer. Essayez d’abord avec un corpus comprenant l’ensemble de vos entretiens, en utilisant des variables et des thématiques, je pense que c’est ce qui vous ouvrira de plus grandes possibilités, car vous pourrez ensuite créer des sous-corpus par variables et par thématiques, pour affiner vos résultats.

      Si ma réponse n’est pas assez complète, n’hésitez pas à regarder la documentation pas à pas à cette adresse : http://www.iramuteq.org/documentation/fichiers/Pas%20a%20Pas%20IRAMUTEQ_0.7alpha2.pdf
      Vous pouvez également chercher dans les archives de la listes de diffusion, ou poser une question à la liste, si vous ne trouvez pas de réponse satisfaisante : http://www.iramuteq.org/support

      A bientôt !

  3. Bonjour Helene,

    Je suis étudiante en Master et pour mon mémoire je dois analyser des entretiens.
    J’espère que vous allez pouvoir m’aider. 🙂
    Je n’arrive pas à faire apparaître les différentes modalités (1,2,3) de ma variable dans l’analyse AFC. Je pense que c’est un problème d’écriture de ma ligne mais je n’arrive pas à la corriger.

    **** *variable1_1
    **** *variable1_2
    **** *variable1_3

    Je vous remercie.

    1. Bonjour Aude,

      Difficile de vous répondre sans savoir ce que vous effectuez exactement dans le logiciel. Il me semble que votre ligne est correctement écrite telle qu’elle est dans votre commentaire.
      Qu’entendez-vous par « faire apparaître les modalités de la variable dans l’analyse AFC » ? Et par « je n’arrive pas » ? Quelles sont exactement vos actions et quel en est le résultat (message d’erreur ?) ?
      Question subsidiaire : combien de variables avez-vous par texte ?

      1. Je vous remercie d’avoir pris le temps de me répondre.:)

        J’ai qu’une variable par texte avec 3 modalités. J’ai deux populations et donc j’aimerai voir la correspondance entre chacune des modalités des deux populations.

        Dans l’analyse AFC dans l’onglet « choix des variables » n’apparaît pas toutes mes modalités mais juste celle du dossier sélectionné. (est ce normal? car dans la capture d’écran du dossier « utilisation d’un outil de statistiques textuelles » on peut voir apparaître toutes les modalités).

        Et donc même quand je demande l’analyse avec ma variable. J’ai un message information erreur, none 1… Puis Bug: file « iramuteq.psy » …

        J’espère avoir été claire. Peut être que c’est moi qui n’a pas compris le but de l’analyse. Je ne sais pas.

        Je vous remercie par avance. Veuillez m’excuser pour le dérangement.
        Un grand merci à vous Hélène.

        1. Argh… Je suis navrée, je ne comprends pas bien votre contexte… je ne comprends pas « dossier sélectionné », je ne vois pas à quoi cela correspond dans Iramuteq. Idem pour les 2 populations : je ne vois pas si ça veut dire 2 corpus différents ou autre chose…

          Pour l’affichage des variables/modalités, en référence à la copie d’écran de la documentation, on voit les variables si on sélectionne, dans la liste déroulante, « variable » et on voit les modalités si on sélectionne « modalités ». Donc tout dépend de ce que vous avez sélectionné.

          Pour le message d’erreur, il est possible que ce soit parce que les calculs ne peuvent être effectués. Il est indiqué dans la documentation, sous la copie d’écran à laquelle vous faites référence, que Iramuteq ne fait pas d’AFC avec une variable qui a trop peu de modalités. Il me semble avoir vu passer dans la liste de diffusion des bugs liés aux nombres de modalités/variables…

          Cherchez peut-être dans les archives de la liste, voyez s’il n’y a pas déjà eu ce type de problème, et quelle était la solution.

          1. Je vous remercie pour votre réponse.

            Je viens de voir qu’une autre personne a le même problème que moi. Apparemment il faut que je re-télécharge R car il s’est mal installé.

            Merci à vous.

  4. Bonjour,
    Je voudrais y ajouter des expressions (par exemple : limulus polyphemus). Je l’ai ajouté à la fois dans le dictionnaire expression et lexique mais limulus_polyphemus n’est pas quand même reconnu dans les formes actives. Je ne sais pas où se trouve le problème. Il me semble qu’Iramuteq ne prend pas compte de la modification.
    Merci pour votre réponse.
    Bonne journée

    1. Bonjour HU,

      Merci pour votre visite 🙂
      Si vous avez ajouté votre expression comme je le décris dans l’article (dans le fichier expression : la première colonne contient l’expression telle qu’elle apparaît dans le corpus, la seconde colonne contient l’expression telle qu’elle doit être transformée, puis dans le fichier lexique, la première et la seconde colonne sont identiques et contiennent l’expression transformée), il n’y a pas de raison que la transformation ne s’effectue pas.
      Que voulez-vous dire par « n’est pas reconnu dans les formes actives » ? Que les mots qui forment votre expression sont présentés isolés l’un de l’autre dans les formes actives ?
      Si c’est le cas, avez-vous bien relancé l’ouverture du corpus ? Car il me semble (à vérifier dans la liste de diffusion dédiée au support d’Iramuteq : http://www.iramuteq.org/support) que Iramuteq charge très tôt les fichiers d’expression et de lexique et qu’il faut donc tout relancer pour s’assurer qu’il re-charge les nouvelles versions des dictionnaires. Désolée de ne pas être plus précise, je n’ai pas touché Iramuteq depuis pas loin d’un an maintenant… 😉

      1. Merci pour votre réponse rapide et détaillée. J’ai fait exactement comme indiqué dans votre tutoriel. Je vois pas où se trouve le problème quand même… Je faisais des capture d’écran de chaque étape. Est-ce possible de vous envoyer en email pour mieux illustrer mon problème ?

  5. Bonjour, Helene, j’ai réglé finalement mon problème. En fait, j’ai fait les modifications dans les dictionnaires du dossier de l’iramuteq mais ceux-ci ne sont pas les dictionnaires par défaut. Il faut faire les modifications dans le répertoire .iramuteq/dictionnaires. J’ai un poste ubuntu donc j’ai pas suivi votre étape au tout début.
    Bonne journée

    1. Bonjour HU,
      C’est parfait, ravie de savoir que votre problème est résolu. Merci d’avoir pris le temps de décrire votre solution ici, d’autres pourraient être confrontés au même problème.

  6. Bonjour Helene,
    J’ai voulu suivre votre explication là-haut pour récupérer des articles d’Europress. Mais je n’arrive pas à télécharger le fichier html de tous les articles sélectionnées (articles intégraux). Pouvez vous m’expliquer cette étape avec un peu plus de détails ?

    Bonne journée

    1. Bonjour wadie,

      Merci pour votre visite. D’après ce que je comprends des messages que je lis sur la liste de diffusion Iramuteq (à laquelle je suis abonnée), les formats d’export et autres fonctionnalités d’Europress sont souvent modifiés. Par exemple, pour le moment (sauf erreur) l’import Europress dans Iramuteq ne fonctionne plus car la structure a été modifiée pour la énième fois. Comme mon billet date de mars 2015, je pense qu’il est désormais obsolète en ce qui concerne les manipulations Europress. Je vous conseille de rechercher dans les archives de la liste de diffusion Iramuteq, il y aura peut-être la réponse à votre question. En cherchant sur le terme « europress » vous avez ce message récent, par exemple, qui pourrait correspondre à ce que vous recherchez : https://sourceforge.net/p/iramuteq/mailman/message/35600001/

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.