Archives du mot-clé outillage

Iramuteq : quelques références utiles

Après la narration de mes aventures dans ma découverte d’Iramuteq, ce blog reçoit régulièrement la visite de lecteurs qui semblent rechercher quelques informations pratiques sur ce logiciel. En témoignent le nombre de commentaires que ce billet a suscité : c’est le plus « populaire » à ce jour 😉
J’ai d’ailleurs encore récemment échangé avec une utilisatrice d’Iramuteq par ce biais.
Alors je me suis dit : bon, ok, tu as partagé ton « mode d’emploi » pour l’avant-analyse, et si tu partageais, cette fois, sur l’après ?
Car l’outil est impressionnant, il fournit quantité d’informations, de calculs, de représentations graphiques, mais comment interpréter tout cela quand on n’est pas vraiment spécialiste du domaine ?
[Vous me direz, si on n’est pas suffisamment calé sur la question, il vaut peut-être mieux ne pas utiliser ce type de logiciel, et je ne suis pas loin de le penser, tant la facilité avec laquelle on obtient des « résultats » est vertigineuse et déconcertante.]
Les calculs sont lancés, des résultats sont affichés, le tout en quelques secondes.
Et maintenant, on fait quoi ?
Loin d’être experte, je vous propose simplement ci-dessous une petite liste de références d’ouvrages et d’articles qui m’ont été très utiles pour comprendre ce qui se passait (en gros) lors des calculs, et donc pour m’orienter dans l’interprétation des informations que j’avais sous les yeux. Si vous connaissez d’autres sources utiles, n’hésitez pas à m’en faire part dans les commentaires, je les ajouterai volontiers.

Bien entendu, dès le début de mon apprentissage, j’ai d’abord utilisé la documentation qui est disponible sur le site web du logiciel. Je vous recommande également, dès le début, de vous abonner à la liste de diffusion qui est consacrée au support. On ne reçoit pas un gros volume de messages, mais c’est instructif de les lire au fur et à mesure, car on apprend aussi par ce biais, au travers des réponses apportées.

Toujours à propos du site web consacré au logiciel, une page qui n’existait pas encore quand je l’ai utilisé et qui me paraît bien utile : il s’agit d’études publiées qui se sont appuyées sur Iramuteq.

Enfin, donc, les références qui m’ont été fort utiles :

Fénelon, J.-P. (1981). Qu’est-ce que l’analyse des données ? Paris : Lefonen.
Un ouvrage que j’ai emprunté en bibliothèque et qui a l’avantage de présenter les choses pour des « non mathématiciens ». Il va dans le détail, et permet de bien comprendre « ce qui se passe » au niveau des différents calculs effectués. Il donne des clés essentielles pour l’interprétation, il m’a beaucoup aidée pour les AFC notamment. Un lien utile pour le trouver en bibliothèque : http://www.sudoc.fr/022282033

Garnier, B. et Guérin-Pace, F. (2010). Appliquer les méthodes de la statistique textuelle. Paris : CEPED.
Très pédagogique, ce texte est facile à aborder et donne pas mal de premières pistes d’interprétation intéressantes. Il est téléchageable intégralement à cette adresse : http://www.ceped.org/fr/publications-ressources/editions-du-ceped-1988-2012/les-clefs-pour/article/appliquer-les-methodes-de-la

Kalampalikis, N. (2003). L’apport de la méthode Alceste dans l’analyse des représentations sociales. Dans J.-C. Abric (dir.), Méthodes d’étude des représentations sociales (p. 147‑163). Paris : Erès.
Un chapitre d’ouvrage qui donne des clés d’interprétation sur la classification obtenue d’après le corpus analysé, en s’appuyant pas à pas sur un exemple concret.

Lebart, L. et Salem, A. (1994). Statistique textuelle. Paris : Dunod.
Un ouvrage complet sur le sujet, avec notamment un glossaire, ce qui est bien pratique pour comprendre le domaine. Le texte intégral est téléchargeable à cette adresse : http://ses-perso.telecom-paristech.fr/lebart/ST.html

Mange, J. et Marchand, P. (2007). Oui ou non à la Constitution européenne. L’éloquence du forum. Mots, (83), 121‑137.
Un article très détaillé, qui m’a fourni des pistes pour l’interprétation des AFC et pour l’utilisation du chi2 signé des modalités par classes (dans mon cas). Le texte intégral est disponible à cette adresse : http://mots.revues.org/952

Reinert, M. (2002). Alceste : Un logiciel d’aide pour l’analyse de discours. Notice simplifiée de la version de base commune aux versions 4.x.
Ce n’est pas Iramuteq, certes. Cela dit ce logiciel permettant d’effectuer une analyse fondée sur la méthode Alceste, la lecture du manuel d’utilisation d’Alceste est éclairante sur pas mal de points. Le texte intégral est téléchargeable à cette adresse : http://tic-recherche.crifpe.ca/docs/guides/fr/Alceste_guide.pdf

Iramuteq avant la classification et les statistiques

En épilogue dans un précédent billet, j’évoquais mes débuts avec Iramuteq et l’ajout d’un peu plus de 200 expressions dans son dictionnaire pour pouvoir le faire tourner.

Finalement, j’ai fait bien plus qu’ajouter des expressions, et il m’a fallu plusieurs semaines avant de pouvoir enfin examiner une classification cohérente de mon corpus.

Du coup, je me suis dit : et si je me faisais un petit mode d’emploi, pour la prochaine fois ?
Histoire de ne pas perdre trop de temps avec un nouveau corpus.

Puis, j’ai pensé : bah, peut-être que d’autres seraient intéressés, qui sait ?

Alors voilà non pas comment je m’y suis pris, parce que j’ai un peu navigué à vue, mais comment je m’y prendrais la prochaine fois dans un contexte similaire.

Soyons précis tout d’abord, quel est le contexte ?

Je travaille en environnement Mac. J’utilise la version 0,7 alpha 2 du 22/12/2014 d’Iramuteq, qui est l’acronyme d’Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. Le logiciel est libre GNU GPL, il est développé au sein du Lerass. Mon corpus est constitué d’une sélection d’articles de presse nationale quotidienne issus de la base Europress.

1 – Récupérer les articles depuis Europress

Dans cette base, il est possible de télécharger 4 fichiers différents pour chaque groupe de 50 articles : une liste des articles, aux formats PDF et HTML, le texte intégral des articles, aux formats PDF et HTML. Les 4 sont utiles, à différentes étapes, donc ça vaut le coup de prendre le temps de tous les récupérer.

Une fois tous ces fichiers récupérés, créer un répertoire spécifique pour Iramuteq, si possible directement à la racine du disque, ou pas trop loin, pour ne pas créer un chemin d’accès trop long. Coller uniquement les fichiers HTML du texte intégral des articles (donc autant de fichiers que de groupes de 50 articles) dans ce répertoire. Dans Iramuteq, choisir importer depuis Europress, désigner le répertoire en question, valider.

Hop, on obtient en retour, dans ce même répertoire, un fichier texte « corpus.txt » qui reprend tous les articles dans un format compréhensible par Iramuteq. C’est à dire que les variables « source », « date », « année et mois », et « année » sont déjà créées avec leurs modalités renseignées pour chaque article. Quand on en a 400, c’est toujours ça de pris !

Problème : les auteurs ne sont pas isolés dans une variable, certains intitulés sont repris en source, mais qui ne sont pas pertinents (pour moi) comme « quotidien deuxième édition ». De plus, j’aimerais pouvoir isoler le titre du corps de l’article.

Extrait du corpus import Europress par Iramuteq
Extrait du corpus importé d’Europress par Iramuteq

2 – Structurer le corpus

Ouvrir le corpus dans OpenOffice (qui conservera le jeu de caractère d’origine, UTF8, sinon c’est la panique) et patiemment, article par article : ajouter la variable *auteur et sa modalité (« nom de l’auteur », sinon, quand il n’y en a pas : « non », pour pouvoir isoler les articles non signés), couper chaque article en 2 thématiques (-*titre et -*corps), supprimer les sources non pertinentes (si nécessaire), supprimer les termes « de notre correspondant », « Illustration(s) », les crédits photos, c’est à dire tout ce qui ne sera pas nécessaire pour l’analyse et qui risque de créer de fortes occurrences dans les statistiques, et enfin, passer le correcteur orthographique pour déceler les espaces en trop ou en moins, les tirets qui coupent les mots en 2 (oui, oui), bref toutes les scories dont on se passerait bien et qui empêchent Iramuteq de reconnaître un mot.

Extrait corpus structuré
Extrait du corpus structuré pour Iramuteq
Localisation des dictionnaires Iramuteq sous Mac
Localisation des dictionnaires Iramuteq sous Mac

3 – Ajouter les expressions non connues dans le dictionnaire d’Iramuteq

Là, c’est spécifique Mac : le fichier est caché. Si, si. Un outil bien utile dans ces cas-là : Onyx. A son ouverture, annuler les 2 premières boîtes de dialogue (vérifications des disques). Dans le menu « Paramètres », onglet « Finder », cocher la case « Afficher les fichiers et dossiers cachés ». Attention, tous les fichiers et dossiers cachés seront visibles, mais si on n’y touche pas tout va bien 😉 . Les dictionnaires sont dans le répertoire « .iramuteq » sous votre nom d’utilisateur Mac. Dupliquer « expression_fr.txt » et « lexique_fr.txt » pour conserver les originaux. Les renommer. Prudence est mère de sûreté…

Ouvrir le corpus structuré dans OpenOffice et lancer une magnifique recherche, sans pleurer en voyant le nombre d’occurrences s’afficher : tous les tirets. Ah ben oui, y a pas, faut passer par là. Ouvrir le dictionnaire des expressions en vis-à-vis (tiens, une expression), toujours dans OpenOffice, mais dans le tableur, et pour chaque expression trouvée dans le corpus, vérifier si elle existe dans le dictionnaire.

Pour chaque expression non trouvée, l’ajouter en fin de fichier : première colonne = expression telle que trouvée dans le corpus, deuxième colonne = expression telle qu’elle doit être transformée, colonnes suivantes : nature, genre, nombre. Les autres colonnes peuvent rester vides.

Extrait du dictionnaire d'expressions Iramuteq
Extrait du dictionnaire d’expressions Iramuteq

Une fois toutes vos expressions ajoutées, sélectionner les lignes correspondantes (elles sont à la fin du fichier, remember), les copier et les coller dans une nouvelle feuille. Supprimer la première colonne, copier la seconde colonne pour la coller à la place de la première (donc, oui, deux colonnes sont identiques). Ouvrir le fichier lexique_fr_txt dans OpenOffice, dans un tableur, copier et coller, en fin de fichier, les lignes figurant dans la nouvelle feuille précédemment créée. Sélectionner la colonne qui contient la catégorie grammaticale et passer tout en caractères minuscules. Trier chacun des 2 fichiers expression_fr.txt et lexique_fr.txt par ordre alphabétique de la première colonne. Enregistrer. Yes ! Les expressions sont ajoutées et seront prises en compte par Iramuteq.

4 – Ouvrir le corpus dans Iramuteq

Extrait du fichier des formes actives Iramuteq
Extrait du fichier des formes actives Iramuteq

Tada !!! ça y est, on est fin prêt, on se frotte les mains, on y va ! Ouvrir le corpus et lancer les statistiques. Ouvrir le fichier des formes actives (répertoireducorpus\corpus_corpus_1\corpus_stat_1\formes_actives.csv) dans OpenOffice (tableur) et filtrer sur la colonne C = nr (non reconnu). Pleurer. Ne pas s’arracher les cheveux. Pourquoi ? Parce qu’on va trouver plein de mots non lemmatisés. Don’t panic ! Tout va bien se passer. Se resservir un gros mug de thé. Que vois-je ? Oh, voilà déjà 2 formes d’un même mot, « état », qui lui, est bien lemmatisé mais seulement quand il a son accent… Et oui ! Des tas de surprises bien sympathiques !

Soit corriger dans le corpus, soit ajouter dans le lexique ou dans les expressions (et donc le lexique ensuite) tout ce qu’on trouve de suspect dans les formes actives non reconnues.

5 – Ajouter les expressions sans tirets

Dans Iramuteq, cette fois, dans les statistiques du corpus, chercher dans les formes actives celles qui semblent pouvoir être une partie d’une expression sans tirets. Hein ? Par exemple, le mot « code » tout seul est-il intéressant pour l’analyse qu’on veut faire ? Un doute ? Clic droit sur la forme, concordancier : on voit le mot dans le corpus et donc dans son environnement. Peut-être serait-il intéressant d’ajouter les expressions « code pénal », « code d’accès », « code confidentiel » ? On commence ici à rentrer dans l’analyse donc tout dépend du travail de recherche. J’ai par exemple ajouté, parce que ça avait un sens dans mon cas, l’expression « base_de_données ». Le mot carte également : carte d’identité, carte grise, carte bleue, carte à puce ?

6 – Se lancer dans Iramuteq

Cette fois, c’est bon. Le corpus est nickel, les expressions et le lexique sont parfaits, tout va bien. On peut se jeter à corps perdu (tiens, encore une expression) dans les statistiques et les classifications, tester les 3 modes, comparer les classes obtenues et le pourcentage de segments de texte classés.

Au total, j’ai ajouté 612 formes dans le lexique, dont 330 expressions… Compter quelques semaines de boulot quand même… Mais pour quel résultat ! De belles classes bien pertinentes ! De quoi aborder l’analyse le cœur léger 😉

 

Embauchez des documentalistes !

Voilà. C’est dit.

C’était mon cri de désespoir il y a quelques semaines, quand j’ai commencé à structurer un corpus d’articles de presse que je dois analyser.

Making-of.
Pour un travail de recherche, je dois analyser le discours de certains titres de la presse quotidienne nationale sur un objet précis.
Bien.
Je me pose des tas de questions sur la méthodologie, à la fois de constitution de corpus et d’analyse ensuite, je passe un temps infini à retourner les hypothèses et la problématique du projet pour construire une démarche cohérente, je confronte mes idées à mes encadrants, pour gagner un peu en assurance avant de faire le grand saut.
Bref, allez, je me lance, même pas peur.
J’ai mes critères de recherche, je sais comment délimiter mon corpus, yapuka.
Hop, j’accède à la base de données documentaire qui contient tout ce dont j’ai besoin. J’interroge, j’affine ma stratégie, je finis par obtenir exactement ce que je veux.
Enfin, quand je dis obtenir… Je les vois, là, sur mon écran, youpi.
Mais comment je peux récupérer tout ça ?
Alors, déjà, pas tout d’un coup. Non, faut pas déconner non plus, ce serait trop simple. Je ne peux obtenir les articles qui m’intéressent que par groupes de 50 items. C’est pas grave, j’ai plein de temps devant moi, je ne suis pas du tout pressée (moi ? jamais !).
Allez, on y va.
Dans quel format puis-je rassembler mes articles de presse ? Comme je suis dans une base de données documentaire, je me dis, bêtement, il doit y avoir des formats (j’entends : structurés) de sortie, évidemment. Le principe de la base de données documentaire, c’est qu’à chaque document (ici : article de presse) correspond une description structurée dans des champs comme par exemple le titre, la date, la source, l’auteur… Non ?
Peut-être, sans doute, on ne sait pas, mais quoi qu’il en soit, il y a 2 formats proposés : HTML et PDF. Hein ? Oui, des formats de mise en page/impression. Chouette ! On va s’amuser. Et on a quoi comme options, sinon ? Grand luxe : texte intégral ou juste les données descriptives.
Ah, on va peut-être pouvoir s’en tirer avec les données descriptives.
En fait, non, pas du tout.
Pourquoi ? Parce qu’il n’y a aucun systématisme dans la description des données (normal, c’est du HTML, mais sait-on jamais, on aurait pu avoir des id (= dénomination) pour les balises, soyons fous). Donc on ne peut pas repérer et isoler chaque donnée automatiquement.
Ce n’est pas tout. Les données ne sont pas normées. Exemple ? L’auteur. Parfois écrit sous la forme « prénom nom », parfois « nom prénom », parfois les initiales, quand le nom de l’auteur a été relevé, parce que pas toujours, en fait.
Je ne vous parle pas du format des dates, ça va me déprimer.
J’ai 400 articles à analyser, aucun moyen de décrire proprement, automatiquement, exhaustivement mon corpus d’articles.

Or, figurez-vous, il existe des personnes sur terre dont le métier est justement de réfléchir à tout ça, de « documenter » correctement l’information, et je vous le donne dans le mille, comment les nomme-t-on ? Des documentalistes.

Je sais, c’est dingue.

Epilogue.
Je n’ai toujours pas commencé mon analyse. Etonnant, non ?

Et puis j’ai eu la bonne idée de vouloir tester Iramuteq sur mon corpus.
Après plusieurs jours de jonglage pour apprivoiser la bête, j’arrive enfin à lancer les outils sur mon corpus, yes !
Tiens, bizarre, le verbe UNIR semble avoir beaucoup d’occurrences, je n’avais pas remarqué (oui parce que à force, avant même d’avoir analysé quoi que ce soit, je commence à connaître mes 400 articles par coeur).
Je vérifie où il se trouve dans les articles…
Ah, ok.
Ne pas désespérer. Tout va bien.
Vu l’objet de ma recherche, il est beaucoup question des Etats-Unis et du Royaume-Uni dans mes articles. Voui.
Résultat : je suis présentement en train d’enrichir le dictionnaire des expressions en français d’Iramuteq avec tous les termes comportant un tiret, se trouvant dans mes 400 articles, mais ne figurant pas encore dans ce dictionnaire.

#ilovemyjob 😉

La gestion collaborative des connaissances vue par des éditeurs

J’en parlais dans le précédent billet, il a été question de réseau social d’entreprise et de gestion collaborative des connaissances lors d’une rencontre organisée le 2 décembre dernier à Lyon.

Il s’agissait dans un premier temps d’une table ronde, animée par @OlivierRoberget, journaliste de la revue en ligne Collaboratif-info. Étaient invités à débattre @VincentBouthors, @garniera et @tlg.

Deux heures d’échanges rondement menées, avec @solaci pour les questions provenant du public et des participants sur Twitter, qui utilisaient le hashtag #3E3VRSE.

Grâce à l’équipe technique de @insadelyon l’ensemble a été enregistré en vidéo consultable en ligne, en streaming. [Edit 2018-05-20 : la vidéo semble avoir été supprimée du serveur de l’INSA Lyon et n’est donc plus accessible…]

Grâce à la participation active des twittos, 2 storify ont été édités, qui permettent de relire ce qu’ils retenaient de ces échanges : l’un par @Pixel_Cec et l’autre par @helenepiment.
[Edit 2018-05-20 : Storify a cessé son activité et coupé les accès, donc il n’y a plus rien à voir…]

Enfin, grâce à l’équipe bénévole de l’ADBS Lyon, avec l’aide d’étudiants en master SIBIST de l’enssib, l’accueil et l’organisation générale ont été plébiscités par les 123 participants.

Après avoir échangé, plus tôt dans l’année, sur des retours d’expérience en matière d’animation de réseau et plus particulièrement de gestion de réseau social d’entreprise par des community managers et chefs de projet internes, il était particulièrement intéressant d’une part d’entendre le point de vue d’un journaliste spécialisé et d’éditeurs de solutions, et d’autre part de connaître les réactions d’étudiants et de professionnels de l’information, connaisseurs ou néophytes, sur ces visions qui leur étaient communiquées.

Examinons le cas des logiciels bibliographiques

Le 17 novembre 2014, l’URFIST de Lyon consacrera une journée d’étude aux LGRB, c’est à dire aux logiciels de gestion de références bibliographiques.Journée "Regard(s) sur les logiciels bibliographiques, au carrefour des usages et des innovations" 17 novembre 2014

La matinée étant plutôt consacrée aux usages et pratiques de ces logiciels, l’après-midi aux innovations dans le domaine de la référence et de la citation bibliographique.

J’aurai le plaisir de participer à la table ronde prévue le matin, pour échanger sur mon expérience de Mendeley et de Zotero dans le cadre de mes travaux de recherche.

Le programme est riche d’interventions à la fois de chercheurs, formateurs et professionnels de l’information de divers horizons.

Cette journée d’étude s’adresse notamment aux utilisateurs des logiciels bibliographiques, professionnels de l’information et chercheurs.

L’entrée est libre sur inscription, jusqu’au 14 novembre 2014.

Libre !

  1. Dans votre communication, remplacez donc Doodle qui n’a aucun sens, par le terme sondage, bien plus classe, et en bonus bien plus intelligible par tous vos interlocuteurs
  2. Utilisez désormais Framadate pour vos sondages
  3. Profitez-en pour faire un don à Framasoft, c’est déductible des impôt et tellement plus gratifiant que de slalomer entre les pubs gigotantes imposées à votre regard

Faites l’expérience, je vous garantis que vous vous sentirez plus légers 😉

Du coup, au passage, dans l’euphorie du moment, allez donc faire un tour du côté de Framastart et vous vous sentirez pousser des ailes créatives !

 

Outils d’information

Lancée avec enthousiasme dans mon tout nouveau job (aka « ma thèse ») j’ai entrepris de faire le point sur les outils que j’utilisais dans mon quotidien professionnel, afin de vérifier s’ils étaient bien adaptés à cette nouvelle activité et trouver le cas échéant une nouvelle organisation.

Au final, mis à part le remplacement de Mendeley par Zotero, je n’ai rien modifié de mes processus informationnels. Peut-être par résistance à l’idée de changer d’habitudes, sans doute également par peur de perdre trop de temps dans les tests, récupération d’infos, basculement d’un outil à l’autre, etc.

La plupart de ces outils, d’ailleurs, figurent listés ici, via mes signets Diigo.

Alors, qu’est-ce que j’utilise au quotidien ? Pourquoi ?

Tout part de ma veille. Sur les productions ou événements scientifiques qui pourraient m’intéresser, sur mon objet de recherche et sur le contexte élargi dans lequel il se situe.

La base de cette veille est constituée de mes flux RSS (plusieurs centaines, regroupés thématiquement). Ceux-ci sont désormais gérés via Feedly. Cependant je n’utilise jamais l’interface de Feedly pour prendre connaissance des nouvelles publications dans mes flux. Si je suis sur un terminal mobile, je les lis grâce à Newsify, si je suis sur un ordinateur, j’utilise ReadKit.

Lorsqu’une info issue de mes flux RSS m’intéresse au-delà de sa simple lecture, je la mets de côté, à partir de ces deux outils, de différentes manières : soit (cas le plus fréquent) je la sauvegarde dans Evernote, soit je l’enregistre directement dans Zotero.

J’ai tenté une organisation dans Evernote, mais le seul carnet que j’utilise vraiment est un carnet temporaire dans lequel je stocke tout ce que je mets de côté.

Je retourne ensuite régulièrement dans Evernote pour faire l’inventaire de toutes ces informations amassées. Dans le cas où elles peuvent m’être utiles en tant que références dans mon travail de thèse, alors je retourne sur leur source et je l’enregistre correctement dans Zotero. Lorsqu’il s’agit plutôt d’une source d’information à laquelle je peux avoir besoin de me référer, je l’enregistre en signet dans Diigo.

Autre pivot dans ma gestion d’information : Twitter. Il est à la fois un support de diffusion, un moyen d’échange et une source de découverte. Depuis mes lecteurs de flux RSS ou depuis mes navigateurs web je publie les infos qui me semblent intéressantes à partager. Par ailleurs, à partir de mes listes Twitter, comme la liste recherche par exemple, que je regarde régulièrement, j’obtiens des informations que je n’ai pas vues dans mes flux RSS et qui peuvent me conduire vers de nouvelles sources à ajouter dans ceux-ci. Au cas où, je mémorise tous les liens que je publie soit directement soit en re-publiant un utilisateur Twitter, grâce à Packrati.us, qui offre de bonnes fonctionnalités d’enregistrement de signets.

Et vous, comment organisez-vous la gestion de vos activités informationnelles ?