Iramuteq : quelques références utiles

Après la narration de mes aventures dans ma découverte d’Iramuteq, ce blog reçoit régulièrement la visite de lecteurs qui semblent rechercher quelques informations pratiques sur ce logiciel. En témoignent le nombre de commentaires que ce billet a suscité : c’est le plus « populaire » à ce jour 😉
J’ai d’ailleurs encore récemment échangé avec une utilisatrice d’Iramuteq par ce biais.
Alors je me suis dit : bon, ok, tu as partagé ton « mode d’emploi » pour l’avant-analyse, et si tu partageais, cette fois, sur l’après ?
Car l’outil est impressionnant, il fournit quantité d’informations, de calculs, de représentations graphiques, mais comment interpréter tout cela quand on n’est pas vraiment spécialiste du domaine ?
[Vous me direz, si on n’est pas suffisamment calé sur la question, il vaut peut-être mieux ne pas utiliser ce type de logiciel, et je ne suis pas loin de le penser, tant la facilité avec laquelle on obtient des « résultats » est vertigineuse et déconcertante.]
Les calculs sont lancés, des résultats sont affichés, le tout en quelques secondes.
Et maintenant, on fait quoi ?
Loin d’être experte, je vous propose simplement ci-dessous une petite liste de références d’ouvrages et d’articles qui m’ont été très utiles pour comprendre ce qui se passait (en gros) lors des calculs, et donc pour m’orienter dans l’interprétation des informations que j’avais sous les yeux. Si vous connaissez d’autres sources utiles, n’hésitez pas à m’en faire part dans les commentaires, je les ajouterai volontiers.

Bien entendu, dès le début de mon apprentissage, j’ai d’abord utilisé la documentation qui est disponible sur le site web du logiciel. Je vous recommande également, dès le début, de vous abonner à la liste de diffusion qui est consacrée au support. On ne reçoit pas un gros volume de messages, mais c’est instructif de les lire au fur et à mesure, car on apprend aussi par ce biais, au travers des réponses apportées.

Toujours à propos du site web consacré au logiciel, une page qui n’existait pas encore quand je l’ai utilisé et qui me paraît bien utile : il s’agit d’études publiées qui se sont appuyées sur Iramuteq.

Enfin, donc, les références qui m’ont été fort utiles :

Fénelon, J.-P. (1981). Qu’est-ce que l’analyse des données ? Paris : Lefonen.
Un ouvrage que j’ai emprunté en bibliothèque et qui a l’avantage de présenter les choses pour des « non mathématiciens ». Il va dans le détail, et permet de bien comprendre « ce qui se passe » au niveau des différents calculs effectués. Il donne des clés essentielles pour l’interprétation, il m’a beaucoup aidée pour les AFC notamment. Un lien utile pour le trouver en bibliothèque : http://www.sudoc.fr/022282033

Garnier, B. et Guérin-Pace, F. (2010). Appliquer les méthodes de la statistique textuelle. Paris : CEPED.
Très pédagogique, ce texte est facile à aborder et donne pas mal de premières pistes d’interprétation intéressantes. Il est téléchageable intégralement à cette adresse : http://www.ceped.org/fr/publications-ressources/editions-du-ceped-1988-2012/les-clefs-pour/article/appliquer-les-methodes-de-la

Kalampalikis, N. (2003). L’apport de la méthode Alceste dans l’analyse des représentations sociales. Dans J.-C. Abric (dir.), Méthodes d’étude des représentations sociales (p. 147‑163). Paris : Erès.
Un chapitre d’ouvrage qui donne des clés d’interprétation sur la classification obtenue d’après le corpus analysé, en s’appuyant pas à pas sur un exemple concret.

Lebart, L. et Salem, A. (1994). Statistique textuelle. Paris : Dunod.
Un ouvrage complet sur le sujet, avec notamment un glossaire, ce qui est bien pratique pour comprendre le domaine. Le texte intégral est téléchargeable à cette adresse : http://ses-perso.telecom-paristech.fr/lebart/ST.html

Mange, J. et Marchand, P. (2007). Oui ou non à la Constitution européenne. L’éloquence du forum. Mots, (83), 121‑137.
Un article très détaillé, qui m’a fourni des pistes pour l’interprétation des AFC et pour l’utilisation du chi2 signé des modalités par classes (dans mon cas). Le texte intégral est disponible à cette adresse : http://mots.revues.org/952

Reinert, M. (2002). Alceste : Un logiciel d’aide pour l’analyse de discours. Notice simplifiée de la version de base commune aux versions 4.x.
Ce n’est pas Iramuteq, certes. Cela dit ce logiciel permettant d’effectuer une analyse fondée sur la méthode Alceste, la lecture du manuel d’utilisation d’Alceste est éclairante sur pas mal de points. Le texte intégral est téléchargeable à cette adresse : http://tic-recherche.crifpe.ca/docs/guides/fr/Alceste_guide.pdf

Numérique, compétence et communication

En octobre 2014 (déjà ?) j’avais publié un billet sur ce carnet pour partager le live-tweet du colloque organisé par le RESIPROC sur Les métiers de la communication traversés par le numérique.
J’ai conservé un excellent souvenir de cette expérience, au cours de laquelle j’ai rencontré et écouté des personnes passionnantes. J’attendais avec impatience de pouvoir lire leurs contributions, tandis que je peinais à rédiger la mienne… 😉
Un an (et quelques mois) plus tard : Tada ! Le voici, le voilà, le numéro 3 des Cahiers du RESIPROC vient de sortir, je vais enfin pouvoir lire ses articles…
L’avant-propos est téléchargeable en ligne, il accroche bien la lecture et donne envie d’en savoir plus.
Les textes sont présentés dans trois parties distinctes :

  • Un communicateur bousculé par le numérique
  • Quelles compétences à transmettre ?
  • Le regard des professionnels

Outre l’avant-propos rédigé par Alexandre Coutant et Jean-Claude Domenget, on y trouve :

  • L’expertise communicationnelle au prisme de ses instruments : L’exemple de Google Analytics par Thomas Grignon
  • Communication et numérique : entre métiers émergents et discours circulants : Le cas du secteur des télécommunications par Amaia Errecart
  • L’ « animateur de communauté politique » : Faits, réflexions et hypothèses par Lena Alexandra Hübner
  • Modèle communicationnel d’un réseau socionumérique d’entreprise par Hélène Piment*
  • Community management et métiers émergents du numérique : Une analyse des représentations par l’étude des référentiels du marketing et de la communication par Valérie Larroche
  • Développer l’approche par compétences dans la réforme 2013 du programme du DUT Communication des Organisations : Comment faire reconnaître l’intégration d’Internet dans ce DUT ? par Laurent Bobin et Isabelle Vidalenc
  • La communication organisationnelle et numérique : formation en mutation, profession en construction par Sylvie P. Alemanno
  • Un art de l’information et de la communication ? par Antoine Moreau
  • L’appel à un laboratoire en sciences sociales par une agence : Le cas de l’agence Publika par David Gracia et Alexandre Coutant
  • La collaboration entre praticiens et chercheurs par Aurélie Valtat et Sandrine Roginsky

——
* NDLR : Oui, j’aime bien faire mon Alain Delon, de temps en temps 🙂

Interdiscursivité à Lyon le 14 janvier 2016

Qu’avez-vous de prévu le 14 janvier 2016 ?

Interdiscours, intertextualité, dialogisme, interdiscursivité : des termes qui vous causent ?

C’est parfait, inscrivez-vous !

L’Association Lyonnaise des Étudiants Chercheurs en Sciences de l’Information et de la Communication, plus simplement nommée Alec-SIC, organise une journée d’étude consacrée à la notion d’interdiscursivité.

L’appel à communication a permis de découvrir les travaux de 6 doctorants particulièrement intéressants, et ce dans diverses disciplines. Ce qui donne un programme croisant histoire, littérature, psychologie, politique et sémiotique avec l’interdiscursivité.

En dialogue avec ces doctorants, 6 enseignants chercheurs lyonnais ont répondu favorablement à l’invitation d’Alec-SIC pour enrichir cette journée avec des conférences en sciences de l’information et de la communication, mais aussi pour discuter chaque communication, offrant ainsi à chacun un retour construit sur le travail présenté.

Envie de participer ? Retrouvez toutes les informations sur cette journée d’étude sur le site web d’Alec-SIC.

Au plaisir de vous rencontrer le 14 janvier prochain !

Les affres de l’écriture scientifique (ou non)

Pas besoin de faire un dessin, quiconque s’est déjà trouvé à contempler désespérément sa belle page blanche, sur écran ou sur papier, comprend sans doute où je veux en venir…

Une initiative très intéressante, qu’il faudrait généraliser dans toutes les écoles doctorales, a été enregistrée en vidéo et est accessible librement.

Il s’agit de l’école doctorale d’été EED Unistra 2015 qui s’est donné pour objectif de répondre en une semaine aux besoins concrets des doctorants concernant la thèse.

J’ai particulièrement apprécié l’intervention de Thierry Olive, chercheur au CNRS en psychologie cognitive, qui s’intéresse à la production de l’écrit. La vidéo intéressera plus largement que les doctorants, car il s’agit de comprendre ce qui se passe dans notre cerveau lorsque nous écrivons, et ce que l’écriture produit sur nous. Regardez plutôt : (en cas de difficulté avec la vidéo intégrée, essayez par ce biais)

JW Player goes here

Pour la seconde vidéo ci-dessous, le titre est particulièrement bien choisi et interpelle directement la doctorante que je suis : « Assieds-toi et écris Ta thèse ! » Cette autre intervention, de Geneviève Belleville, professeur adjointe à l’Université de Laval en psychologie, est également captivante car elle semble promettre (enfin !) des solutions pour calmer l’anxiété constante du « je dois rédiger ma thèse ». Leitmotiv qui n’avance à rien et n’aide pas du tout à rédiger, mais que tous les doctorants que j’ai croisés ont en commun. Effectivement, j’ai retenu quelques conseils applicables et utiles, et qui sont surtout remis en contexte et expliqués, voyez vous-même : (en cas de difficulté avec la vidéo intégrée, essayez par ce biais)

JW Player goes here

Après tout ça, yapuka : à vos agendas, prenez rendez-vous avec vous-même ! 😉

Première publication !

L’an dernier, j’ai participé au colloque « Travail et loisir » organisé du 11 au 13 juin 2014 par le GRIPIC, laboratoire de recherche en SIC du Celsa.
Flyer du colloque Travail et loisir Gripic Celsa 2014
Les actes du colloque viennent de paraître sur le site web du laboratoire, ils sont librement accessibles.
J’ai communiqué avec Valérie Larroche, maître de conférences en SIC, sur une partie de mes recherches concernant le RSE. Il s’agit de ma toute première publication, en co-auteur : « De l’habileté dans les interactions numériques aux compétences professionnelles de l’animateur de communautés en ligne ».
Le début d’une longue série ? 😉

Doctorales de la SFSIC 2015

Les 21 et 22 mai derniers j’ai participé aux doctorales de la SFSIC qui se déroulaient à Lille. Une excellente expérience, très enrichissante, incontournable même à la fois pour échanger avec d’autres doctorants SIC, pour discuter de ses travaux de thèse avec des animateurs et discutants bienveillants, et pour mieux comprendre dans quelle discipline on s’inscrit.

Les séances plénières et tables rondes ont été captées en vidéo et mises en ligne sur Live 3 la webTV de l’université Lille 3, je les ai incluses dans un petit Storify, en suivant le programme des 2 journées, un très bon souvenir :

Le RSE dans Cairn et OpenEdition

D’autres chercheurs se sont-ils déjà penchés sur le réseau social d’entreprise ? Depuis quand ? Qu’en disent-ils ?
Voyons si Cairn et OpenEdition peuvent nous aider à répondre à ces questions.

(En réalité, ma recherche d’information sur support électronique a débuté sur Isidore, qui est multi-sources, et les résultats pertinents dans Isidore ne provenant que de Cairn et OpenEdition, je ne mentionne que ces deux sources.)

Impossible bien entendu de rechercher sur l’acronyme « RSE » car il renvoie un très grand nombre de réponses qui concernent quasiment toutes la responsabilité sociale/sociétale des entreprises.

Interrogeons donc sur les expressions « réseau social d’entreprise » et « réseaux sociaux d’entreprise ».

Les recherches qui portent sur le RSE le désignent-elles toujours par ces expressions ? Non, bien sûr. Il est parfois question de « réseau social interne » de « Facebook interne », de RSEI, de ESN, de SNS, etc. Cependant, s’il est parfois nommé autrement, sauf erreur (il se peut bien entendu que je sois passée à côté de quelques articles), tous les articles que j’ai trouvés jusqu’à présent contiennent toujours au moins une occurrence des expressions « réseau social d’entreprise » ou « réseaux sociaux d’entreprise ».
Malgré la précaution de rechercher sur ces expressions, certains articles sont hors sujet, car il est également question de réseaux sociaux d’entreprise au sens sociologique du terme, un sens donc différent de celui du RSE qui m’intéresse.

Après une première lecture des résultats obtenus, j’ai trouvé 51 documents électroniques répondant à mon besoin, publiés entre 2010 et avril 2015.
Les sources sont donc Cairn et OpenEdition, qui proposent des revues, articles, et autres documents en grande majorité académiques, mais pas uniquement. J’ai donc distingué les publications « académiques » des publications de « praticiens », dont le contenu est opérationnel mais ne rend pas compte de recherches scientifiques. J’ai également classé ces parutions en fonction de la discipline dont elles relevaient.

En voici une synthèse chiffrée :

Discipline Type 2010 2011 2012 2013 2014 Total
Economie/Gestion académique 8 2 7 17
praticien 2 1 4 7
Histoire académique 1 1
Lettres et linguistique académique 1 1
Sciences de l’Education académique 1 1
SIC académique 2 3 2 7
praticien 2 1 5 5 3 16
Sociologie académique 1 1
Total   6 1 15 10 19 51

Focalisons sur les documents classés comme « académiques » dans le tableau ci-dessus. On le voit les sciences de gestion en ont publié une large majorité. Viennent ensuite les sciences de l’information et de la communication, où les chiffres sont quasiment inversés par rapport aux sciences de gestion : ce sont en grande majorité des praticiens qui ont publié dans les deux sources consultées.

Que contiennent-ils ?
En bref, la plupart des publications scientifiques envisagent le RSE en tant que dispositif numérique parmi d’autres, qui sont à l’œuvre dans les organisations. Ce faisant, leurs auteurs étudient un ensemble d’éléments dans lequel ils citent ou ne font qu’évoquer le RSE, comme les TIC et les enjeux de visibilité qui leur sont liés, les systèmes de gestion des connaissances et leur régulation ou encore les technologies collaboratives et leur contribution à la configuration des organisations.
Les quelques travaux de recherche qui s’intéressent exclusivement au RSE l’envisagent comme un alias de Facebook interne ou comme un « réseau social interne », support numérique de nouveaux régimes de connectivité dans l’entreprise.

Pour ceux qui souhaiteraient approfondir le sujet, la liste des 51 références que j’ai sélectionnées se trouve ci-dessous. Si d’aventure certains d’entre vous ont connaissance d’une publication scientifique au format électronique qui s’intéresse au RSE et qui ne figure pas encore dans cette liste, je serais bien entendu ravie de l’ajouter 😉

—————

Abelin, J.-L., Aper, G., Maltinti, G. et Monneuse, D. (2014). Les réseaux sociaux d’entreprise tiennent-ils leurs promesses ? Le journal de l’école de Paris du management, 110(6), 8.

Andonova, Y. et Vacher, B. (2014). ‪Nouvelles formes de visibilité des individus en entreprise : technologie et temporalité‪. Communication & Organisation, 44(2), 5‑14.

Autissier, D., Johnson, K. J. et Moutot, J.-M. (2014). La conduite du changement pour et avec les technologies digitales. Question(s) de management, 7(3), 79.

Barbier, J.-Y. et Boissonnet, C. (2014). Gestion des connaissances et dynamiques collaboratives dans les pôles de compétitivité. Management & Avenir, 67(1), 136.

Bertin, E. et Tran, S. (2012). L’organisation multipolaire bouscule le management. L’Expansion Management Review, 147(4), 120.

Bolon, P.-L., Bouillon, J.-L., Thierry, B., Schröter, H. et Haakenstad, A. (2014). La circulation et le transfert de l’information dans les entreprises. Entreprises et histoire, 75(2), 102‑116.

Bonneau, C. (2013). Travailler à haute voix sur Twitter. Quand la collaboration informelle emprunte un réseau public. tic&société, 7(1).

Bouchez, J. (2014). L’émergence des communautés de pratique pilotées. L’Expansion Management Review, 154(3), 121‑130.

Bouchez, J.-P. (2014). Autour de « l’économie du savoir » : ses composantes, ses dynamiques et ses enjeux. Savoirs, 34(1), 9.

Bruna, M. G. (2014). Quelques thèses sur la confiance. Question(s) de management, 8(4), 103.

Bruna, M. G. et Deluzet, M. (2014). (Re)tissage de la confiance et nouveau pacte social : défis et conditions de déploiement des politiques du capital humain. Question(s) de management, 8(4), 57.

Carmes, M. (2010). L’innovation organisationnelle sous les tensions performatives. Propositions pour l’analyse d´une co-construction conflictuelle des politiques et pratiques numériques. Les cahiers du numérique, 6(4), 15‑37.

Carmes, M. (2013). Territorialisations socionumériques et sémio-politiques organisationnelles. Dans M. Carmes et J.-M. Noyer (dir.), Les débats du numérique (pp. 99‑135). Paris: Presses des Mines.

Chartron, G. (2013). Réseaux et documentation, un lien originel à revisiter. Documentaliste-Sciences de l’Information, 50(2), 24.

Chartron, G., Broudoux, É., Moreau, F., Cavalier, F., Barrand, A., Tremblay, J.-M., … Giusti, A. (2013). Transformation numérique des réseaux. Documentaliste-Sciences de l’Information, 50(2), 46.

Chérigny, F. (2012). La charte des bons usages des services de réseautage social, outil juridique au service d’une stratégie-réseau. Revue internationale d’intelligence économiqia, 4(1), 71‑85.

Cucchi, A. (2013). « Visibilité du capital social à travers les médias sociaux : Études de cas sur les dynamiques sociales de l’appropriation d’un outil d’Analyse de Réseaux Sociaux », par Myriam Karoui. Systèmes d’information & management, 18(1), 126.

De Lavergne, C. et Heïd, M.-C. (2013). Former à et par la collaboration numérique :: quels enjeux pour l’enseignement universitaire ? Tic & société, (Vol. 7, N° 1).

Deltour, F. (2013). Sébastien Tran (coord.) (2013), L’impact du Web 2.0 sur les organisations: Editions Springer, ISBN 978-2-8178-0432-3. Systèmes d’information & management, 18(2), 161.

Denervaud, I., Bouferrache, D., Thiollet, A.-M. et Vallejo, J.-L. (2012). Les nouveaux usages bousculent les stratégies IT. L’Expansion Management Review, 145(2), 92.

Denervaud, I., Dupuis, M. et Courcelle Labrousse, S. (2014). Innovation et digital : une convergence inéluctable. L’Expansion Management Review, 153(2), 96.

Denervaud, I., Gérardin, O., Noé, M., Souplet, C.-A. et Tartar, M. (2010). L’innovation collaborative dans tous ses états. L’Expansion Management Review, 138(3), 110.

Deschamps, C. (2012). Les multiples facettes de la curation. Documentaliste-Sciences de l’Information, 49(1), 22.

Deschamps, C. et Moinet, N. (2011). L’émergence d’internet dans les outils d’Intelligence économique. Le Temps des médias, 16(1), 147.

Dudezert, A., Roulleaux Dugage, M., Chauvin, F., Martin, F., Lemieux, É., Boisserpe, P., … Bruillon, É. (2012). Le KM au coeur de la stratégie d’entreprise. Documentaliste-Sciences de l’Information, 49(2), 26.

Ertzscheid, O., Lachal, J. et Gaucher, M. (2013). Métiers et compétences. Documentaliste-Sciences de l’Information, 50(3), 4.

Felio, C. (2014). ‪Visibilité numérique des cadres d’entreprise‪. Communication & Organisation, 44(2), 123‑132.

Fernandez, V. et Marrauld, L. (2012). Usage des téléphones portables et pratiques de la mobilité. L’analyse de journaux de bord de salariés mobiles. Revue française de gestion, 38(226), 137‑149.

Fouquier, E. et Camel, E. C. (2010). La communication interne, nouveau «soft power ». L’Expansion Management Review, 139(4), 114.

Gaglio, G. et Foli, O. (2012). L’improbable pérennité des journaux internes. Annales des Mines – Gérer et comprendre, 110(4), 6.

Galinon-Mélénec, B. (2010). Réseaux sociaux d’entreprise et DRH. Communication et organisation, 37, 41–51.

Garnier, A., Guérin, G., Le Deuff, O., Deschamps, C., Henrotte, G., Blas, F., … Delcroix, É. (2012). À l’échelle des organisations. Documentaliste-Sciences de l’Information, 49(1), 46.

Germain, M., Pérales, C., Buffard, P., Chaudiron, S., Charaudeau, M.-O., Garnier, A., … Salaün, J.-M. (2013). Les organisations du XXIe siècle. Documentaliste-Sciences de l’Information, 50(4), 38.

Gicquel, F. (2014). Quelles compétences pour la transformation numérique ? Documentaliste-Sciences de l’Information, Vol. 51(4), 9.

Gimenez, J. (2012). Research in electronically-mediated communication in professional contexts – revisiting the past, preparing for the future. ASp, (62), 79‑88.

Guesmi, S. et Rallet, A. (2012). Web 2.0 et outils de coordination décentralisée. Un entrelacement des sphères privées et professionnelles. Revue française de gestion, 38(224), 139‑151.

Karoui, M. et Dudezert, A. (2012). Capital social et enjeux de pouvoir : une perspective socio-politique de l’appropriation d’une technologie de réseaux sociaux au sein d’une collectivité territoriale. Systèmes d’information & management, 17(1), 49.

Khalil, C. et Dudezert, A. (2014). Entre autonomie et contrôle : quelle régulation pour les systèmes de gestion des connaissances ? Systèmes d’information & management, 19(1), 51‑76.

Lecocq, C., Créplet, F., Ulmer, G., Hazaël-Massieux, D., Silber, G.-A., Ertzscheid, O. et Bourhis, O. (2012). Technologies de la mobilité. Documentaliste-Sciences de l’Information, 49(3), 26.

Letrouvé, F., Maisonneuve, M., Meingan, D., de Kermadec, Y. et Chabin, M.-A. (2014). Méthodes techniques et outils. Documentaliste-Sciences de l’Information, 51(2), 12.

Martinez, R., Charaudeau, M.-O., Chabin, M.-A., Morand-Khalifa, N., Jules, A., Richy, P., … Roberge, M. (2013). Contextes. Documentaliste-Sciences de l’Information, 50(1), 38.

Martin, V. (2014). Réseaux sociaux d’entreprise : l’engagement des acteurs à l’épreuve de la prescription: Le cas du réseau Lean au sein du groupe Sivale. Sociologies pratiques, 28(1), 125.

Mlaiki, A., Kefi, H. et Kalika, M. (2012). Facteurs psychosociaux et continuité d’utilisation des réseaux sociaux numériques : le cas de facebook. Recherches en Sciences de Gestion, 92(5), 83.

Ogez, É., Castagnac, G., Motta, V., Bourcet, E., Candellier, L., Maubon, G., … Roumieux, O. (2010). Le social sous toutes ses facettes. Documentaliste-Sciences de l’Information, 47(3), 38.

Paris, T. (2014). Éditorial: L’esprit de coopération. Le journal de l’école de Paris du management, 110(6), 3.

Perelman, J. (2012). Les réseaux sociaux numériques : un mode d’apprentissage ? Dans P.-M. Riccio et D. Bonnet (dir.), TIC et innovation organisationnelle. Journées d’étude MTO’2011. Paris: Presses des Mines.

Poinsot, T., Duport, F., Champloix, S. et Japiot, G. (2010). Du collaboratif au social: l’avènement de la conversation. Documentaliste-Sciences de l’Information, 47(3), 26–37.

Prével, P., Juin, É., Sellin, K., Remande, V., Guillaume, L.-P., Quinqueneau, A., … Godlewski, F. (2012). Pratiques et méthodes du KM. Documentaliste-Sciences de l’Information, 49(2), 44–61.

Regards croisés sur la révolution digitale. (2014). Question(s) de management, 7(3), 155.

Reyre, I. (2014). Nouveaux outils en entreprise, nouvelles compétences. Documentaliste-Sciences de l’Information, Vol. 51(3), 4.

Tran, S. (2014). Quelle contribution des technologies collaboratives à la configuration des organisations ? Systèmes d’information & management, 19(2), 75‑111.

Iramuteq avant la classification et les statistiques

En épilogue dans un précédent billet, j’évoquais mes débuts avec Iramuteq et l’ajout d’un peu plus de 200 expressions dans son dictionnaire pour pouvoir le faire tourner.

Finalement, j’ai fait bien plus qu’ajouter des expressions, et il m’a fallu plusieurs semaines avant de pouvoir enfin examiner une classification cohérente de mon corpus.

Du coup, je me suis dit : et si je me faisais un petit mode d’emploi, pour la prochaine fois ?
Histoire de ne pas perdre trop de temps avec un nouveau corpus.

Puis, j’ai pensé : bah, peut-être que d’autres seraient intéressés, qui sait ?

Alors voilà non pas comment je m’y suis pris, parce que j’ai un peu navigué à vue, mais comment je m’y prendrais la prochaine fois dans un contexte similaire.

Soyons précis tout d’abord, quel est le contexte ?

Je travaille en environnement Mac. J’utilise la version 0,7 alpha 2 du 22/12/2014 d’Iramuteq, qui est l’acronyme d’Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. Le logiciel est libre GNU GPL, il est développé au sein du Lerass. Mon corpus est constitué d’une sélection d’articles de presse nationale quotidienne issus de la base Europress.

1 – Récupérer les articles depuis Europress

Dans cette base, il est possible de télécharger 4 fichiers différents pour chaque groupe de 50 articles : une liste des articles, aux formats PDF et HTML, le texte intégral des articles, aux formats PDF et HTML. Les 4 sont utiles, à différentes étapes, donc ça vaut le coup de prendre le temps de tous les récupérer.

Une fois tous ces fichiers récupérés, créer un répertoire spécifique pour Iramuteq, si possible directement à la racine du disque, ou pas trop loin, pour ne pas créer un chemin d’accès trop long. Coller uniquement les fichiers HTML du texte intégral des articles (donc autant de fichiers que de groupes de 50 articles) dans ce répertoire. Dans Iramuteq, choisir importer depuis Europress, désigner le répertoire en question, valider.

Hop, on obtient en retour, dans ce même répertoire, un fichier texte « corpus.txt » qui reprend tous les articles dans un format compréhensible par Iramuteq. C’est à dire que les variables « source », « date », « année et mois », et « année » sont déjà créées avec leurs modalités renseignées pour chaque article. Quand on en a 400, c’est toujours ça de pris !

Problème : les auteurs ne sont pas isolés dans une variable, certains intitulés sont repris en source, mais qui ne sont pas pertinents (pour moi) comme « quotidien deuxième édition ». De plus, j’aimerais pouvoir isoler le titre du corps de l’article.

Extrait du corpus import Europress par Iramuteq
Extrait du corpus importé d’Europress par Iramuteq

2 – Structurer le corpus

Ouvrir le corpus dans OpenOffice (qui conservera le jeu de caractère d’origine, UTF8, sinon c’est la panique) et patiemment, article par article : ajouter la variable *auteur et sa modalité (« nom de l’auteur », sinon, quand il n’y en a pas : « non », pour pouvoir isoler les articles non signés), couper chaque article en 2 thématiques (-*titre et -*corps), supprimer les sources non pertinentes (si nécessaire), supprimer les termes « de notre correspondant », « Illustration(s) », les crédits photos, c’est à dire tout ce qui ne sera pas nécessaire pour l’analyse et qui risque de créer de fortes occurrences dans les statistiques, et enfin, passer le correcteur orthographique pour déceler les espaces en trop ou en moins, les tirets qui coupent les mots en 2 (oui, oui), bref toutes les scories dont on se passerait bien et qui empêchent Iramuteq de reconnaître un mot.

Extrait corpus structuré
Extrait du corpus structuré pour Iramuteq
Localisation des dictionnaires Iramuteq sous Mac
Localisation des dictionnaires Iramuteq sous Mac

3 – Ajouter les expressions non connues dans le dictionnaire d’Iramuteq

Là, c’est spécifique Mac : le fichier est caché. Si, si. Un outil bien utile dans ces cas-là : Onyx. A son ouverture, annuler les 2 premières boîtes de dialogue (vérifications des disques). Dans le menu « Paramètres », onglet « Finder », cocher la case « Afficher les fichiers et dossiers cachés ». Attention, tous les fichiers et dossiers cachés seront visibles, mais si on n’y touche pas tout va bien 😉 . Les dictionnaires sont dans le répertoire « .iramuteq » sous votre nom d’utilisateur Mac. Dupliquer « expression_fr.txt » et « lexique_fr.txt » pour conserver les originaux. Les renommer. Prudence est mère de sûreté…

Ouvrir le corpus structuré dans OpenOffice et lancer une magnifique recherche, sans pleurer en voyant le nombre d’occurrences s’afficher : tous les tirets. Ah ben oui, y a pas, faut passer par là. Ouvrir le dictionnaire des expressions en vis-à-vis (tiens, une expression), toujours dans OpenOffice, mais dans le tableur, et pour chaque expression trouvée dans le corpus, vérifier si elle existe dans le dictionnaire.

Pour chaque expression non trouvée, l’ajouter en fin de fichier : première colonne = expression telle que trouvée dans le corpus, deuxième colonne = expression telle qu’elle doit être transformée, colonnes suivantes : nature, genre, nombre. Les autres colonnes peuvent rester vides.

Extrait du dictionnaire d'expressions Iramuteq
Extrait du dictionnaire d’expressions Iramuteq

Une fois toutes vos expressions ajoutées, sélectionner les lignes correspondantes (elles sont à la fin du fichier, remember), les copier et les coller dans une nouvelle feuille. Supprimer la première colonne, copier la seconde colonne pour la coller à la place de la première (donc, oui, deux colonnes sont identiques). Ouvrir le fichier lexique_fr_txt dans OpenOffice, dans un tableur, copier et coller, en fin de fichier, les lignes figurant dans la nouvelle feuille précédemment créée. Sélectionner la colonne qui contient la catégorie grammaticale et passer tout en caractères minuscules. Trier chacun des 2 fichiers expression_fr.txt et lexique_fr.txt par ordre alphabétique de la première colonne. Enregistrer. Yes ! Les expressions sont ajoutées et seront prises en compte par Iramuteq.

4 – Ouvrir le corpus dans Iramuteq

Extrait du fichier des formes actives Iramuteq
Extrait du fichier des formes actives Iramuteq

Tada !!! ça y est, on est fin prêt, on se frotte les mains, on y va ! Ouvrir le corpus et lancer les statistiques. Ouvrir le fichier des formes actives (répertoireducorpus\corpus_corpus_1\corpus_stat_1\formes_actives.csv) dans OpenOffice (tableur) et filtrer sur la colonne C = nr (non reconnu). Pleurer. Ne pas s’arracher les cheveux. Pourquoi ? Parce qu’on va trouver plein de mots non lemmatisés. Don’t panic ! Tout va bien se passer. Se resservir un gros mug de thé. Que vois-je ? Oh, voilà déjà 2 formes d’un même mot, « état », qui lui, est bien lemmatisé mais seulement quand il a son accent… Et oui ! Des tas de surprises bien sympathiques !

Soit corriger dans le corpus, soit ajouter dans le lexique ou dans les expressions (et donc le lexique ensuite) tout ce qu’on trouve de suspect dans les formes actives non reconnues.

5 – Ajouter les expressions sans tirets

Dans Iramuteq, cette fois, dans les statistiques du corpus, chercher dans les formes actives celles qui semblent pouvoir être une partie d’une expression sans tirets. Hein ? Par exemple, le mot « code » tout seul est-il intéressant pour l’analyse qu’on veut faire ? Un doute ? Clic droit sur la forme, concordancier : on voit le mot dans le corpus et donc dans son environnement. Peut-être serait-il intéressant d’ajouter les expressions « code pénal », « code d’accès », « code confidentiel » ? On commence ici à rentrer dans l’analyse donc tout dépend du travail de recherche. J’ai par exemple ajouté, parce que ça avait un sens dans mon cas, l’expression « base_de_données ». Le mot carte également : carte d’identité, carte grise, carte bleue, carte à puce ?

6 – Se lancer dans Iramuteq

Cette fois, c’est bon. Le corpus est nickel, les expressions et le lexique sont parfaits, tout va bien. On peut se jeter à corps perdu (tiens, encore une expression) dans les statistiques et les classifications, tester les 3 modes, comparer les classes obtenues et le pourcentage de segments de texte classés.

Au total, j’ai ajouté 612 formes dans le lexique, dont 330 expressions… Compter quelques semaines de boulot quand même… Mais pour quel résultat ! De belles classes bien pertinentes ! De quoi aborder l’analyse le cœur léger 😉

 

Embauchez des documentalistes !

Voilà. C’est dit.

C’était mon cri de désespoir il y a quelques semaines, quand j’ai commencé à structurer un corpus d’articles de presse que je dois analyser.

Making-of.
Pour un travail de recherche, je dois analyser le discours de certains titres de la presse quotidienne nationale sur un objet précis.
Bien.
Je me pose des tas de questions sur la méthodologie, à la fois de constitution de corpus et d’analyse ensuite, je passe un temps infini à retourner les hypothèses et la problématique du projet pour construire une démarche cohérente, je confronte mes idées à mes encadrants, pour gagner un peu en assurance avant de faire le grand saut.
Bref, allez, je me lance, même pas peur.
J’ai mes critères de recherche, je sais comment délimiter mon corpus, yapuka.
Hop, j’accède à la base de données documentaire qui contient tout ce dont j’ai besoin. J’interroge, j’affine ma stratégie, je finis par obtenir exactement ce que je veux.
Enfin, quand je dis obtenir… Je les vois, là, sur mon écran, youpi.
Mais comment je peux récupérer tout ça ?
Alors, déjà, pas tout d’un coup. Non, faut pas déconner non plus, ce serait trop simple. Je ne peux obtenir les articles qui m’intéressent que par groupes de 50 items. C’est pas grave, j’ai plein de temps devant moi, je ne suis pas du tout pressée (moi ? jamais !).
Allez, on y va.
Dans quel format puis-je rassembler mes articles de presse ? Comme je suis dans une base de données documentaire, je me dis, bêtement, il doit y avoir des formats (j’entends : structurés) de sortie, évidemment. Le principe de la base de données documentaire, c’est qu’à chaque document (ici : article de presse) correspond une description structurée dans des champs comme par exemple le titre, la date, la source, l’auteur… Non ?
Peut-être, sans doute, on ne sait pas, mais quoi qu’il en soit, il y a 2 formats proposés : HTML et PDF. Hein ? Oui, des formats de mise en page/impression. Chouette ! On va s’amuser. Et on a quoi comme options, sinon ? Grand luxe : texte intégral ou juste les données descriptives.
Ah, on va peut-être pouvoir s’en tirer avec les données descriptives.
En fait, non, pas du tout.
Pourquoi ? Parce qu’il n’y a aucun systématisme dans la description des données (normal, c’est du HTML, mais sait-on jamais, on aurait pu avoir des id (= dénomination) pour les balises, soyons fous). Donc on ne peut pas repérer et isoler chaque donnée automatiquement.
Ce n’est pas tout. Les données ne sont pas normées. Exemple ? L’auteur. Parfois écrit sous la forme « prénom nom », parfois « nom prénom », parfois les initiales, quand le nom de l’auteur a été relevé, parce que pas toujours, en fait.
Je ne vous parle pas du format des dates, ça va me déprimer.
J’ai 400 articles à analyser, aucun moyen de décrire proprement, automatiquement, exhaustivement mon corpus d’articles.

Or, figurez-vous, il existe des personnes sur terre dont le métier est justement de réfléchir à tout ça, de « documenter » correctement l’information, et je vous le donne dans le mille, comment les nomme-t-on ? Des documentalistes.

Je sais, c’est dingue.

Epilogue.
Je n’ai toujours pas commencé mon analyse. Etonnant, non ?

Et puis j’ai eu la bonne idée de vouloir tester Iramuteq sur mon corpus.
Après plusieurs jours de jonglage pour apprivoiser la bête, j’arrive enfin à lancer les outils sur mon corpus, yes !
Tiens, bizarre, le verbe UNIR semble avoir beaucoup d’occurrences, je n’avais pas remarqué (oui parce que à force, avant même d’avoir analysé quoi que ce soit, je commence à connaître mes 400 articles par coeur).
Je vérifie où il se trouve dans les articles…
Ah, ok.
Ne pas désespérer. Tout va bien.
Vu l’objet de ma recherche, il est beaucoup question des Etats-Unis et du Royaume-Uni dans mes articles. Voui.
Résultat : je suis présentement en train d’enrichir le dictionnaire des expressions en français d’Iramuteq avec tous les termes comportant un tiret, se trouvant dans mes 400 articles, mais ne figurant pas encore dans ce dictionnaire.

#ilovemyjob 😉