KH coder : Comment faire de l’analyse de contenu ou du Text-mining avec de l’opensource #Marketingthema

par marketingthema

Vous cherchez un outil gratuit et performant en Text-mining? Vous avez utilisé les solutions du marché classiques comme Sphinx lexica, MaxQDA, Rapidminer etc …. et vous voulez trouver autre chose?!

Voici un excellent outil open source pour faire du Text mining. L’avantage de cet outil est la grande richesse des méthodes qu’il propose pour faire des analyses textuelles bien avancées. J’ai découvert cet outil un peu par hasard et je l’ai testé pour vérifier ses capacités analytiques, et le moins qu’on puisse dire c’est qu’il est vraiment un bon compagnon analytique à utiliser pour ses projets qualitatifs.

L’outil a été développé par un professeur japonais (M. Koichi Higuchi) et il se base sur un moteur analytique R et une solution Mysql intégrée. L’outil permet de faire de l’analyse de contenu avancée en anglais, français, portugais, italien et espagnol.

Voici la liste extraite de Sourceforge des fonctionnalités de l’outil, je vais couvrir que les plus originales à mon avis:

  • Words: Frequency List (L’outil permet de sortir les fréquences de chacun des mots avec aussi une réprésentation visuelle de la loi de Zipf)

quick-start-tutorial-of-kh-coder-quantitative-content-analysis-or-text-mining-of-english-language-data-9-638

  • Words: Searching
  • Words: KWIC Concordance (Extraire le contexte de mots pivots n’a jamais été aussi facile! il est possible avec cet outil d’identifier toutes les séquences de texte ou le mot apparaît, on peut aussi en spécifier la profondeur « ici 20 mots à gauche et droite du mot pivot ») 

030_kwic

  • Words: Collocation Stats:  (Une des brillantes fonctionnalités de l’outil est de créer des vecteurs pour chacun des mots du corpus textuel, ceci permet donc de voir pour chaque mot « pivot » quels sont les mots qui le suivent souvent ou le précédent! dans le livre de Laurence Bardin sur l’analyse de contenu l’auteur évoque la notion d’association des mots. Par exemple, dans ce corpus le mot « Think » est très souvent associé à « porcupine » et il est plus souvent avant ce mot « 4LT » au lieu de « 3RT » on peut même déduire la proximité avec plus de précision et aussi exporter ces données pour faire d’autres types d’analyses quantitatives! bref, il y’a de quoi se faire plaisir!) 

040_coloc

  • Words: Correspondence Analysis (L’analyse de correspondance est une méthode de visualisation des données qualitatives, on l’appelle aussi AFC! elle permet de représenter sur 2 dimensions visuellement comment 2 variables d’intérêt ou dimensions se rapprochent! par exemple ici on voit les chapitres d’un livre et les mots qui les caractérisent! on aurait pu par exemple créer dans l’outil des catégories comme (individus, lieux, etc ) et voir quels mots sont utilisés pour les caractériser! la taille des bulles indique leur fréquence dans le corpus analysé). Dans ce cas par exemple, les 2 dimensions retenus résument plus de 45% des données du corpus. 

correspondance

  • Words: Multi-Dimensional Scaling : (Il s’agit d’une méthode utilisée pour étudier la proximité et la similarité des mots sur une carte bidimensionnelle. Le but étant de découvrir les unités qui se ressemblent le plus sur la base des attributs observés dans le corpus « Fréquence, Distance, etc ») 

080_mds2d

  • Words: Co-Occurrence Network  : (Le réseau des co-occurrences permet de voir une cartographie visuelle des mots les plus fréquents et comment ils sont connectées avec d’autres mots. Ceci peut par exemple être utilisé pour caractériser un discours politique, ou d’une marque ou argumentaire pour identifier quel est le coeur du message et quels sont les mots mobilisés pour l’exprimer, ainsi que leur articulation) 

cooccurence

  • Words: Hierarchical Cluster Analysis (L’outil fait une typologie qui classifie tous les mots qui apparaissent souvent ensemble! ceci est très pratique pour agréger de larges verbatims en des familles de mots fréquents ou grappes de sens tout en offrant leur fréquence d’apparition relative)

060_cluster1

  • Categories: Developing Your Own Categories or Dictionaries (L’outil permet de créer des catégories ou « thèmes » qu’on peut analyser dans le cadre d’une analyse de contenu! et on peut faire toutes les opérations précédentes réservées pour les mots pour ces nouvelles « catégories » crées) 
  • Categories: Frequency List : (Après le codage, il est possible de savoir quelles sont les catégories les plus abordées! par exemple grouper les mots « Israel , Sionisme, tsahal » sous la catégorie colonialisme et les mots « Boycott, antisionisme, résistance palestinienne » sous la même catégorie:  « résistance à l’occupation » vous permet de compatabiliser dans un texte combien de fois chacune des catégories revient dans un discours)  
  • Categories: Cross Tabulation : (Il est possible là encore de faire des croisements avec ces catégories artificielles crées à partir de simples mots, pour avoir des tableaux de contigence bivariés) 
  • Categories: Correspondence Analysis (Idem que pour les mots) 
  • Categories: Multi-Dimensional Scaling (Idem que pour les mots) 
  • Categories: Co-Occurrence Network (Idem que pour les mots) 
  • Categories: Hierarchical Cluster Analysis (Idem que pour les mots) 
  • Documents: Searching
  • Documents: Clustering  (Permet de classer automatiquement les documents en fonction de leur contenu! par exemple des articles de recherche, des contenus de presse etc peuvent être classés automatiquement) 
  • Documents: Naive Bayes classifier (Idem que pour la classification, ceci permet d’utiliser la classification bayésienne beaucoup moins gourmande en termes d’unités statistiques requises pour prendre une décision. Vos documents sont ainsi triés et organisés en fonction de leur contenu)

Page officielle de l’outil : http://khc.sourceforge.net/en/

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :