Stratidev
mar
20
2013

Cartographier vos informations avec Gephi

Aujourd’hui, je vais vous présenter un outil très puissant d’analyse de l’information, le logiciel Gephi. Cet outil va vous permettre de représenter sous forme de cartographie des données brutes et de les analyser. Les experts disent que cet outil est à l’analyse de l’information ce que Photoshop est à la retouche d’image : C’est un outil complexe, mais donnant des résultats impressionnants.

Gephi est encore assez peu connu en France, et qui est utilisé par des experts en entreprise. Les informations disponibles sur son fonctionnement sont assez peu nombreuses, et j’ai eu du mal à réunir les éléments que je vais vous présenter aujourd’hui.

Mon objectif est donc de vous présenter cet outil en le simplifiant au maximum  et en centralisant les informations qui vous seront nécessaires pour l’utiliser. Vous trouverez donc dans cet article :

  • Partie 1 : Un descriptif des informations que l’on peut tirer de cet outil : Concrètement que peut apporter en entreprise la cartographie de données, et quelles informations peut-on en retirer ? Cette section contiendra quelques exemples visuels pour vous montrer l’intérêt d’un tel outil.
  • Partie 2 : Une explication rapide sur ce qu’est la cartographie des réseaux : Je vais vous présenter ces éléments de compréhension de la manière la plus simple possible.
  • Partie 3 : Un exemple pour vous montrer l’interface : Un court tutoriel basé sur un exemple vous présentant son fonctionnement, mais aussi un détail des différentes fonctionnalités possibles. Lors de l’analyse, vous devrez faire des choix, et cette section vous sera utile pour naviguer entre les différentes possibilités.
  • Partie 4 : Un ensemble de tutoriels vidéo vous donnant clés en main des méthodes d’analyses applicables à Twitter, Facebook et autres sources d’informations. Vous pourrez prendre directement l’un de ces tutoriels pour réaliser votre première cartographie. Je vous conseille de lire en particulier celui sur Facebook.

Pour avoir un exemple complet et expliqué, vous pouvez directement lire l’exemple sur Facebook

Vous pouvez découvrir l’article dans son intégralité, ou simplement sauter directement à l’une des vidéos de la partie 4, si vous voulez apprendre directement à cartographier un réseau précis.

Si vous n’avez aucune notion de cartographie, je vous conseille tout de même de lire rapidement la partie 2.

J’espère que cet article va vous plaire, et je vous invite à le partager sur vos réseaux favoris. Je pense avoir réussi à réunir un grand nombre d’informations sur ce logiciel, et vous invite donc à le faire découvrir à vos collaborateurs. Vous pouvez aussi partager directement les vidéos si l’un des aspects vous intéresse tout particulièrement comme la cartographie de Facebook par exemple.

Partie 1) Ce que l’on peut tirer de la cartographie de l’information

Avec les informations que je vais fournir, vous allez pouvoir :

  • Identifier des données clés : sur les réseaux sociaux, vous pourrez par exemple identifier les leadeurs d’opinion dont les messages sont repris en masse par les autres utilisateurs, les principaux comptes qui font transiter 95% de l’information, ou les principaux consommateurs d’information.
  • Identifier des groupes de personnes ou de concept : à partir de données brutes, vous allez pouvoir mettre en avant les communautés sur les réseaux sociaux, ou des regroupements d’intérêt.
  • Suivre la diffusion d’un message : par exemple sur Twitter, vous pourrez identifier les principaux comptes concernés par une thématique
  • Cartographier vos réseaux sociaux : avec quelques outils simples, vous allez pouvoir obtenir une cartographie complète de vos propres réseaux Facebook, Twitter
  • Cartographier un compte Twitter : vous pourrez identifier le réseau d’une personne sur Twitter
  • Structurer un ensemble de données : Par exemple, si vous possédez en biologie une liste de molécules interagissant les unes avec les autres, vous allez pouvoir créer un graphique complet présentant les liens entre ces molécules

Partie 2) La cartographie de réseau : les données, l’organisation de l’information, et l’analyse

Pour vous expliquer le fonctionnement de ce type de logiciel, je vais me baser sur un exemple simple, la cartographie de réseau sur Twitter. Cet exemple est bien sûr transférable sur d’autres ensembles de données un peu plus complexes, mais je préfère vous montrer un exemple simple pour commencer :

En quoi consistent les données traitées ?

Concrètement, les données brutes vont se composer d’un ensemble de relations : vous aurez des comptes Twitter, et les liens entre ces comptes. Visuellement, on peut représenter ces liens de la façon suivante :

Les deux comptes Twitter sont appelés des nœuds, et la relation entre ces comptes est nommée « Arc ». Dans cet exemple, l’arc est orienté, cela veut dire que la relation va du compte 1, au compte 2. Ce type de relation est par exemple utilisé pour montrer que le compte 1 a envoyé un tweet ou suit le compte 2 en fonction des données collectées. Sur Twitter, en effet, les gens peuvent suivre une liste de personnes. C’est ce type de données qui est représenté dans cet exemple.

On obtient donc deux types de liens si on se centre sur un Node :

  • Les liens entrants : Le compte Twitter est suivi par une personne identifiée
  • Les liens sortants : Le compte Twitter suit une personne identifiée

Des outils vont vous permettre d’extraire automatiquement ces données

La 1ère étape consiste à l’importation des données :

Les données brutes peuvent donc se structurer de la façon suivante, un tableau contenant le compte principal, et le nom du compte qu’il suit :

Une fois les données importées, on se retrouve avec un graphique assez moche :

Ce graphique représente l’analyse de mon compte Twitter, je suis donc au centre de la cartographie, entouré par les comptes avec lesquels je suis relié.

La 2eme étape est de trier l’information.

Pour cela, on va utiliser des processus informatiques, appelés algorithmes qui permettent de trier automatiquement l’information. Différentes solutions existent, et vous allez pouvoir les découvrir plus en détail dans la section suivante. Une fois le tri effectué, on se retrouve avec un graphique un peu plus visuel :

Une fois un premier tri effectué, on va trier et analyser l’information. Pour cela, on dispose de nombreux outils statistiques automatisés. On peut par exemple, calculer le nombre de liens moyens pour chaque compte, et retirer les comptes possédant moins de 4 liens :

Premier trie de l'information

On effectue ensuite un calcul pour identifier les comptes proches.

Dans une 3eme étape, on va rendre visuelles nos données.

Pour cela, on modifie la taille de chaque compte en fonction de son nombre de liens, et on colorie les comptes en fonction de la communauté à laquelle ils appartiennent. On obtient une carte montrant les liens entre comptes en couleur, et l’importance des comptes par la taille :

Colorisation d'un réseau

On obtient trois communautés, une rouge, une bleue et une orange. Normalement, les noms de chaque compte sont affichés sur le rond, mais par souci de confidentialité, je n’ai pas activé cette fonctionnalité.

Dans une 4eme étape, on procède à un rendu pour obtenir un résultat un peu plus visuel :

Segmentation en fonction des possibles communautés

Dans la 3eme partie de ce tutoriel, je vais vous présenter en détail l’interface du logiciel, et les possibilités qu’il offre.

Partie 3 : Utilisation de Gephi, fonctionnement et interface

Pour cette partie, je vous propose une vidéo qui va vous permettre de découvrir ce logiciel. Je vais reprendre l’exemple dont je parle dans la partie 2, et vous présenter l’interface du logiciel en même temps. Cette vidéo passe rapidement sur les différents éléments du logiciel, que vous pourrez découvrir plus en détail juste en dessous ou en lisant l’exemple sur Facebook dans la partie 4.

Pour comprendre le fonctionnement et l’interface de Gephi, vous devez maitriser trois mots de vocabulaire sont à retenir pour comprendre en détail les explications sur Gephi :

  • Carte/réseau/représentation visuelle : c’est la représentation visuelle de vos données sur laquelle vous allez travailler
  • Les nodes : Ce sont les comptes Twitter par exemple, ils représentent les ronds sur le réseau. Ce sont les données que vous manipulez
  • Les liens : Ce sont les liens entre vos données. Ils sont représentés par les traits reliant les ronds sur le réseau

Le fonctionnement de Gephi :

SI on résume le fonctionnement, lorsque vous utilisez Gephi, vous allez passer par différentes étapes :

Etapes analyse Gephi

L’interface de Gephi

L’interface se structure autour de 3 onglets pour répondre à ces différents besoins :

  1. Une vue d’ensemble pour analyser l’information
  2. Un laboratoire des données pour voir vos données : Se présentant sous la forme d’un simple tableau, vous pourrez manipuler vos informations comme vous l’auriez fait sous Excel. Une particularité, le laboratoire de données possède deux onglets en haut à gauche, un onglet Nœuds, et un onglet lien. Vous pourrez donc passer des données concernant les acteurs de votre réseau (les comptes Twitter par exemple), aux données reliant ses acteurs (qui suit qui)
  3. Un outil de visualisation pour obtenir le rendu final : quelques paramètres simples pour apporter les dernières modifications à votre réseau de données. Je vous encourage à découvrir en détail ces différents paramètres proches de ce que l’on peut trouver pour modifier un texte sur PowerPoint.

Concrètement, vous irez  dans l’onglet laboratoire au début pour voir vos données, le gros du travail se fera ensuite sur l’onglet « Vue d’ensemble », et vous passerez quelques minutes sur la prévisualisation pour obtenir le rendu final.

Je vais maintenant vous présenter l’interface principale, les deux autres étant assez simples à comprendre :

Interface Gephi

1) Le changement de vue : Une zone vous permettant de passer d’un onglet à l’autre

2) La zone centrale vous permet de voir en temps réel un aperçu du résultat final

4) La zone de spatialisation : cet onglet va vous permettre de choisir un algorithme pour replacer les nœuds (comptes Twitter), au mieux et vous permettre de visualiser l’information. Différents algorithmes sont disponibles, vous devez les sélectionner en fonction de vos données :

Concrètement il existe 4 types d’algorithmes en fonction de vos besoins :

Algortyhme Gephi

Dans les exemples que je vais vous montrer, nous allons utiliser principalement l’algorithme Force Atlas. Si vous voulez plus de détails sur le choix de l’algorithme, vous pourrez retrouver à la page suivante un descriptif complet de l’utilisation de chaque algorithme et de ses paramètres (en anglais) : https://gephi.org/users/tutorial-layouts/

En plus de ces différents algorithmes, plusieurs autres algorithmes vont nous intéresser :

  • Ajustement des labels/noverlap : Éviter que les noms se chevauchent sur votre réseau
  • Contraction/expansion : Augmente ou diminue l’espace entre les nodes

3) La zone de classement et de partition : dans cette zone, vous allez pouvoir colorer les données en fonction des paramètres obtenus par l’analyse statistique, ou séparer vos données pour leur appliquer des couleurs différentes. Vous pourrez par exemple séparer deux groupes sur le schéma pour les classer en fonction de différentes informations.

2 éléments nous intéressent en particulier :

  • la colorisation des nœuds en fonction de certains paramètres statistiques
  • la modification de la taille des nœuds en fonction de certains paramètres statistiques

5) Un onglet de filtres et de statistiques : avec cet outil, vous allez pouvoir retirer certains nœuds (compte Twitter) de votre réseau, filtrer l’information en fonction de certains paramètres, mais aussi effectuer des analyses statistiques.

2 paramètres nous intéressent pour la suite :

  • Degré : calcule le nombre moyen de liens que possède un de vos nodes
  • Modularité : Identifier des regroupements pour mettre en avant les communautés dans un réseau

6) L’affichage des données : Cet onglet permet de faire varier la taille des nœuds, des liens entre les nœuds, et d’afficher le nom des nœuds

Ceci clôture la partie 3, nous allons maintenant voir comment concrètement l’utiliser pour cartographier des sources de données précises.

Partie 4 : Cartographie de différentes sources d’informations

Gephi est difficile à prendre en main, mais il est encore plus compliqué de trouver des données exploitables à cartographier. Je suis donc allez découvrir des méthodes pour récupérer de l’information de différentes sources de données. Pour vous aider à créer vos propres cartographies, je vous propose de découvrir ces méthodes de la façon suivante :

  1. Une explication et un exemple de résultat commenté
  2. Une vidéo présentant de A à Z la méthode en application pour récupérer et analyser l’information d’une source précise
  3. Une explication sous forme de texte quand cela est nécessaire, présentant les liens des logiciels à télécharger
  4. Un lien vers la ou les sources dont je me sers pour vous proposer aujourd’hui ces méthodes. Ces sources sont souvent anglaises, mais pourront peut-être vous apporter des éléments que j’aurais oubliés.

Vous allez pouvoir trouver dans cette partie des tutoriels sur les sources de données suivantes :

Cartographie de Facebook : Exemple complet

Facebook

Explication : Dans ce tutoriel, vous allez apprendre une solution clé en main pour cartographier votre réseau Facebook. Vous allez par exemple pouvoir regrouper les personnes en groupes par des méthodes statistiques.

Exemple de résultat :

Réseau facebook

Vous pouvez voir une cartographie de mon compte Facebook. On peut observer quatre communautés distinctes : mon école d’ingénieur reliée à quelques amis proches, l’école de guerre économique, un groupe d’amis séparés, et un groupe de personnes qui m’ont beaucoup aidé pour les jeux en lignes Facebook ^^. Une analyse donc plutôt efficace de mon réseau.

Vidéo :

Explication texte : Cette solution se passe en deux étapes :

1) La récolte des données

Vous devez vous rendre à l’adresse suivante et autoriser l’application netvizz. C’est une application qui va vous permettre de télécharger les données de votre compte Facebook pour les analyser : http://apps.facebook.com/netvizz/

Une fois identifié, vous devez simplement cliquer sur le bouton pour lancer le logiciel. Comme il n’est pas évident de trouver la bonne zone, je vous mets une copie d’écran :

Le logiciel analyse alors votre compte Facebook, et vous propose de télécharger le résultat sous la forme de deux fichiers :

Vous devez prendre le fichier GDF, et l’enregistrer. C’est celui qui sera utilisé par Gephi.

2) l’analyse des données

Pour analyser ces données, on importe le fichier GDF avec gephi en l’ouvrant dans le menu fichier. Au début, on observe une sorte de pelote contenant de l’information illisible.

On applique un premier tri de l’information en lançant dans l’onglet spatialisation un algorithme de type force atlas. Vous devez ensuite régler le paramètre force de répulsion en fonction de la taille de votre réseau, et relancer l’algorithme pour obtenir un résultat qui vous plaise (200 dans mon cas). Les différentes personnes sont replacées sur le réseau.

Nous effectuons ensuite une première colorisation du réseau en allant dans l’onglet classement en haut à gauche, et en sélectionnant un classement des nœuds par degré, c’est-à-dire le nombre de connexions. Une couleur est donc appliquée aux membres de votre réseau en fonction de leur nombre d’amis sur Facebook

Nous effectuons ensuite une première analyse statistique en calculant le nombre moyen de relations des personnes composant votre réseau. Pour cela, vous devez cliquer sur degré pondéré dans l’onglet statistique à droite. Le logiciel génère un rapport et des données que nous allons exploiter.

Nous allons utiliser ces données statistiques pour mettre en avant les personnes importantes de votre réseau. Pour cela, vous devez retourner dans l’onglet en haut à gauche de classement, et sélectionner une modification de taille.

Vous devez prendre ensuite dans le menu déroulant la statistique « Betweeness centrality » en sélectionnant une taille de 10 à 50 pour les personnes de votre réseau. En clinquant sur appliquer le réseau se modifie, et les personnes importantes sont mises en avant par leur taille.

On règle ensuite les labels, en utilisant l’outil en pied de page et les réglettes pour régler la taille des informations. Cette opération permet de faire apparaitre les noms de chaque personne.

Un des objectifs de cette cartographie est de mettre en avant les relations entre les personnes. Pour cela, on utilise l’outil dans l’onglet statistique à droite, qui s’appelle modularité. Il va détecter automatiquement si des personnes de votre réseau semblent liées entre elles.

Pour afficher cette information, vous devez vous rendre dans l’onglet partition en haut à gauche, et sélectionner la statistique que vous avez créée, « modularity class ». En appliquant cette partition, les couleurs de votre réseau vont se modifier, et mettre en avant les relations entre les personnes.

Pour finir avec l’analyse de l’information, nous allons supprimer certaines personnes qui sont peu importantes dans votre réseau. Pour cela, nous allons nous rendre dans l’onglet à droite Filtre, et sélectionner un filtre de type topologie qui s’appelle plage de degré. En réglant le premier nombre et en appliquant le filtre, vous affichez uniquement les personnes possédant un certain nombre d’amis.

Une fois toutes ces étapes réalisées, vous devez appliquer deux algorithmes de correction dans l’onglet spatialisation à gauche. Les algorithmes « Ajustement des labels » et « Noverlap » vont permettre d’éviter que des morceaux de texte se chevauchent.

Dernières étapes, vous devez vous rendre dans l’onglet en haut de prévisualisation, et sélectionner « affiché les labels » avant d’utiliser le bouton rafraichir en bas. Une fois ce premier résultat effectué, vous pouvez désactiver si besoin l’option « courbe » pour avoir des relations « droite », et régler la taille de vos textes avant de sauvegarder le résultat final.

Source :

https://persuasionradio.wordpress.com/2010/05/06/using-netvizz-gephi-to-analyze-a-facebook-network/

http://blog.ouseful.info/2010/04/16/getting-started-with-gephi-network-visualisation-app-my-facebook-network-part-i/

Cartographie de Twitter, YouTube et Flickr

Explication : Dans ce tutoriel, je vais vous montrer un outil externe utilisable entre autre sous Excel 2007 permettant de se connecter à Twitter, YouTube et Flickr et de télécharger des informations sur ces réseaux.

Vous allez donc pouvoir analyser un compte en particulier, ou suivre une tendance en observant les personnes qui en parlent. Vous pourrez par exemple suivre en temps réel une rumeur. Pour les besoins de ce tutoriel, je vais uniquement vous montrer une analyse sur un compte Twitter. Mais ce tutoriel va vous permettre de la même façon d’analyser les deux autres réseaux dont je parle.

Exemple de résultat :

Sur cette cartographie, on peut voir mon réseau Twitter. On observe 4 communautés :

- Le réseau de l’école de guerre économique

- Un réseau orienté informatique

- Quelques professionnels de l’intelligence économique et amis

- deux comptes n’ayant rien à voir avec les autres ^^

On peut aussi observer les personnes importantes et qui communiquent beaucoup, comme le portail de l’intelligence économique.

Vidéo :

Explication texte :

Dans un premier temps, vous devez télécharger le logiciel NodeXl qui est un Template pour Excel 2007. Vous pourrez le trouver à l’adresse suivante : http://nodexl.codeplex.com

Une fois téléchargé, vous devez l’ouvrir avec Excel 2007 ou 2010 et vous rendre dans l’onglet NodeXL.

Pour lancer une analyse, vous devez sélectionner dans le ruban office le bouton « Import » et choisir d’importer des données d’un réseau social.

  • Pour un compte Twitter, vous devez sélectionner les paramètres suivant : “Add a vertex for each: Both”, “ Add an edge for each: Followed/following relationship”, “Levels to include: 1.5”, “Limit to 300 people”
  • Pour un mot clé Twitter, vous devez régler les paramètres de la manière suivante: cocher toutes les cases sauf « Follows relationship » dans l’onglet « Add an edge for each boxes », décocher la case « limit to »

Dans cet exemple, nous utiliserons des données venant du compte Twitter de Stratidev. Pour enregistrer votre fichier sous NodeXL, vous devez choisir le bouton export en haut à gauche, et exporter vos données au format GraphML.

Attention, Twitter n’autorise qu’un certain nombre de connexions par heure, le logiciel va donc rester en attente le temps d’avoir une nouvelle autorisation. L’extraction des données peut donc s’étaler sur de longue période en fonction des paramètres choisis.

Une fois sous Gephi, pour un mot clé Twitter, nous utilisons la méthodologie suivante :

  • Lors de l’importation, vous devez choisir un réseau de type direct, et décocher Append Graph et Time Frame
  • Pour l’algorithme de spatialisation, on utilise un « force Atlas » avec pour paramètre : force de répulsion 200.000, force d’attraction 50, déplacement maximal 1, pas d’auto stabilisation, une gravité à 80, un ajustement par taille, et une vitesse de 5
  • Dans l’onglet de statistique, on calcule le degré pondéré pour ensuite dans l’onglet filtre utiliser un filtre de type topologie nommé « plage de degré. On le paramètre à 1, pour retirer toute personne n’ayant pas au moins une connexion
  • On applique de nouveau une spatialisation avec un algorithme de « Force Atlas »
  • On lance une analyse statistique de type modularité à droite, avant de colorer les nodes dans l’onglet classement en haut à gauche en fonction du paramètre « Modularity Class » généré pendant l’analyse statistique
  • on change ensuite la taille des nodes au même endroit en sélectionnant l’outil de classement par taille. On sélectionne le paramètre « degré entrant ». Les nodes représenteront alors le nombre de mentions sur Twitter

  • On règle ensuite la taille des labels, et on applique les algorithmes « ajustement des labels et noverlap » avant de lancer le rendu final

Pour un réseau d’un utilisateur Twitter, on applique les paramètres suivants :

  • On effectue une analyse statistique dans l’onglet à droite en utilisant le bouton « centralité Eigenvector ». Cette analyse statistique permet de déterminer l’importance d’une personne au sein d’un réseau, et donc d’attribuer des valeurs à chaque personne de votre réseau.
  • Une fois cette statistique calculée, vous pouvez aller sur le panneau de classement en haut à droite, et affecter une taille en fonction du paramètre « eigencentrality ». Vos données doivent être entre une taille minimum de 10 et maximum de 50. On visualise donc les personnes importantes du réseau.

  • on applique ensuite une nouvelle analyse statistique pour identifier les regroupements de personnes au sein du compte Twitter. Pour cela, on va dans l’onglet statistique, et on lance une analyse « Modularity »
  • On va ensuite dans le menu partition en haut à gauche, et on segmente le réseau en fonction du paramètre « Modularity class »
  • Dans l’onglet de statistique, on calcule le degré pondéré pour ensuite dans l’onglet filtre utiliser un filtre de type topologie nommé « plage de degré. On le paramètre à 1, pour retirer toute personne n’ayant pas au moins une connexion
  • On choisit ensuite un algorithme dans l’onglet spatialisation qui permet de bien visualiser le réseau. Pour l’exemple, j’ai réutilisé les mêmes paramètres que pour les mots clés sur Twitter (force de répulsion 200.000, force d’attraction 50, déplacement maximal 1, pas d’auto stabilisation, une gravité à 80, un ajustement par taille, et une vitesse de 5)
  • On règle ensuite la taille des labels, et on applique les algorithmes « ajustement des labels et noverlap » avant de lancer le rendu final

Sources :

http://social-dynamics.org/twitter-nodexl-gephi-memes/

http://social-dynamics.org/gathering-a-twitter-users-network-data-with-nodexl/

http://fr.slideshare.net/Verkostoanatomia/visualize-your-twitter-network

Cartographier des données brutes

Explication : Dans ce tutoriel, je vais vous montrer comment on peut créer un fichier Excel, pour ensuite en réaliser une cartographie. Cette méthode est assez simple et va vous permettre de créer des cartographies de données par exemple des liens entre molécules en biologie.

Exemple de résultat :

Dans cette cartographie, on voit simplement les liens entre mes données.

Vidéo :

Explication texte :

Pour créer vos données, vous devez ouvrir un nouveau classeur Excel, et nommer les 2 premières colonnes de la première page du classeur respectivement  « Source » et « Target », l’une montrant par exemple la molécule source, et l’autre la molécule cible :

Vous devez ensuite enregistrer ce tableau au format CVS avec séparateur point-virgule. Plusieurs alertes vous sont proposées, contentez-vous d’enregistrer le fichier au bon format.

Ensuite sous Gephi, vous devez ouvrir un nouveau projet, puis importer les données à partir du tableau de données.

Vous devez ensuite copier la colonne Id dans la colonne Label (voir la vidéo)

L’analyse se fait ensuite simplement comme avec n’importe quels autre ensemble de données.

Sources :

Pas de source pour ce tutoriel

Cartographier votre historique internet en temps réel

Explication : Avec cette méthode, vous allez pouvoir cartographier en temps réel l’historique de votre connexion internet et obtenir une représentation visuelle des sites internet que vous visitez. Ce n’est pas forcement très utile, mais c’est l’une des méthodes qui permettent de trouver les liens entre différents sites internet. C’est aussi un excellent moyen de découvrir ce que l’on appelle la cartographie dynamique sur Gephi

Exemple de résultat :

Le résultat final n’est pas forcement très concluant, mais tester ce plug-in vaut le détour ne serait ce que pour découvrir ce que l’on appelle la cartographie dynamique.

Vidéo :

Explication texte :

Pour cette méthode, vous allez avoir besoin d’un plug-in pour Gephi. Ce plug-in est directement téléchargeable sur le logiciel en allant dans l’onglet outil/ modules d’extension. Vous devez le rechercher dans l’onglet « Modules d’extension disponibles » puis l’installer.

Une fois ce plug-in chargé, vous devez régler votre navigateur avec les paramètres de proxy suivant : http://127.0.0.1:8088 puis visiter des sites internet pour que Gephi cartographie automatiquement l’information.

Une fois votre visite d’internet finie, vous devez mettre en forme l’information, et la traiter comme dans les exemples précédents.

Sources :

https://gephi.org/2011/the-http-graph-plugin/

Cartographier un texte et en analyser les mots

Explication : Dans ce tutoriel, vous allez découvrir comment analyser un texte avec Gephi. Pour cela, nous allons récupérer le texte avec un outil externe, le nettoyer et l’importer sous Gephi.

Exemple de résultat :

On observe bien les mots clés qui correspondent à la publication dont est tirée cette représentation sous forme de réseau : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3283649/

Vidéo :

Explication texte :

Pour commencer, il vous faut un texte et un outil d’analyse pour obtenir votre fichier de donnée.

Cet outil est disponible à l’adresse suivante : http://www.casos.cs.cmu.edu/projects/automap/

Vous devez copier-coller le texte à analyser dans un simple fichier texte puis avec le logiciel d’analyse nettoyer ce texte :

  • dans preprocess, vous devez lancer « perform all preparation » et « text refinement -> remove ponctuation » et « text refinement -> apply stemming » et « text refinement -> convert to lowercase ». Ces trois processus vont permettre de supprimer tous les mots peu importants comme les articles, passer tout le texte en minuscule, supprimer la ponctuation et mettre les verbes au présent.
  • Vous devez ensuite lancer une analyse du texte, en vous rendant dans « generate -> semantic network -> semantic network DyNetML ». Vous devez lui donner un dossier pour enregistrer le fichier, et lui régler le paramètre « Slect Window Size » à 3. Cet algorithme va parcourir votre texte, extraire les mots 3 par 3 et vérifier s’il retrouve des mots ensemble. Il va ensuite remplir un tableau contenant le nombre de fois ou il a trouvé dans ces séquences de trois mots, les mêmes deux mots ensembles.

Une fois cette analyse faite, vous devez ouvrir ce fichier sous Excel pour le nettoyer. En cherchant dans le fichier, vous trouverez une colonne « Source » et une colonne « Target ». Vous ne devez conserver que le contenu de ces colonnes. Le reste est à supprimer.

Vous devez ensuite enregistrer ce tableau au format CVS avec séparateur point-virgule. Plusieurs alertes vous sont proposées, contentez-vous d’enregistrer le fichier au bon format.

Ensuite sous Gephi,

  • vous devez ouvrir un nouveau projet, puis importer les données à partir du tableau de données.
  • Vous devez ensuite copier la colonne Id dans la colonne Label (voir la vidéo)
  • On effectue une analyse statistique dans l’onglet à droite en utilisant le bouton « centralité Eigenvector ». Cette analyse statistique permet de déterminer l’importance d’une personne au sein d’un réseau, et donc d’attribuer des valeurs à chaque personne de votre réseau.
  • Une fois cette statistique calculée, vous pouvez allez sur le panneau de classement en haut à droite, et affecter une taille en fonction du paramètre « eigencentrality ». Vos données doivent être entre une taille minimum de 10 et maximum de 50. On visualise donc les personnes importantes du réseau.

  • on applique ensuite une nouvelle analyse statistique pour identifier les regroupements de personnes au sein du compte Twitter. Pour cela, on va dans l’onglet statistique, et on lance une analyse « Modularity »
  • On va ensuite dans le menu partition en haut à gauche, et on segmente le réseau en fonction du paramètre « Modularity class »
  • Dans l’onglet de statistique, on calcule le degré pondéré pour ensuite dans l’onglet filtre utiliser un filtre de type topologie nommé « plage de degré. On le paramètre à 1, pour retirer toute personne n’ayant pas au moins une connexion
  • On choisit ensuite un algorithme dans l’onglet spatialisation qui permet de bien visualiser le réseau. Pour l’exemple, j’ai réutilisé les mêmes paramètres que pour les mots clés sur Twitter (force de répulsion 200.000, force d’attraction 50, déplacement maximal 1, pas d’auto stabilisation, une gravité à 80, un ajustement par taille, et une vitesse de 5)
  • On règle ensuite la taille des labels, et on applique les algorithmes « ajustement des labels et noverlap » avant de lancer le rendu final

Sources :

http://web.archive.org/web/20110703023601/http:/deemeetree.com/current/text-network-analysis/

Cartographier le net : Établir les liens entre plusieurs sites internet

Gephi31

Explication : Dans ce tutoriel, vous allez apprendre à cartographier en temps réel un ensemble de sites internet. Pour cela, on télécharge un navigateur contenant un plug-in, et on surfe sur les sites qui nous intéressent. En temps réel le plug-in enregistre tous les liens internet, et vous prépare un fichier pour l’analyse.

Exemple de résultat :

http://perso.telecom-paristech.fr/~lepoutre/site2011/cartographie.html

Vidéo :

Explication texte :

Pour commencer, il vous faut un logiciel spécifique qui permet de gérer les données. Vous pourrez le trouver à l’adresse suivante : http://webatlas.fr/wp/navicrawler/

C’est une version portable de Firefox qui contient un pluggin qui va nous servir pour la cartographie. Vous devez donc le télécharger et lancer ce navigateur. Ce plug-in fonctionne de manière simple :

Une fois le navigateur lancé, vous devez activer le plug-in en cliquant en bas à droite sur le bouton « turn on » :

Le plug-in se lance, et plusieurs onglets vont nous intéresser au sein de l’interface principale :

Pour délimiter votre corpus d’étude, vous devez utiliser l’onglet Next site pour afficher les sites reliés. L’objectif est de vider cet onglet pour ne plus avoir que des sites dans l’onglet « in site » c’est-à-dire les sites dont vous avez validé les liens.

A chaque site que vous allez visiter, vous devez simplement cliquer sur le bouton « accept » ou « refuse » pour rajouter ou retirer un site internet du groupe que vous voulez analyser.

Enfin, pour chaque site, vous pouvez utiliser ce que l’on appelle un « crawler ». C’est un outil qui va scanner chaque page d’un site pour extraire les liens HTTPS. Vous pouvez l’activer en cliquant sur l’onglet +, puis dans la fenêtre du crawl sur le bouton lecture :

Une fois vos données collectées, et la zone « next sites » vide, vous pouvez exporter vos données au format GDF

L’analyse des données se fait ensuite sur Gephi. Pour Gephi, je vous conseille de regarder le tutoriel sur Facebook pour trouver un guide complet d’analyse.

Sources :

http://webatlas.fr/wp/share/navicrawler/Documentation%20NC%202007.pdf

http://masterwebscience.org/Outils%20de%20visualisation%20des%20r%C3%A9seaux%20sociaux%20%28Mathieu%20Jacomy%29

http://j-blogging.com/2009/12/04/comment-visualiser-des-reseaux-sociaux-avec-gephi/

http://perso.telecom-paristech.fr/~lepoutre/site2011/cartographie.html

http://ecome.wordpress.com/2010/11/15/machines-learning-blogs/

Pour aller plus loin : D’autres tutoriels à découvrir un peu plus complexes

Utilisation avec Google analytics : http://www.mostlymaths.net/2011/08/using-gephi-to-visualize-keywords-and.html

Wikipedia : http://blog.ouseful.info/2012/07/03/visualising-related-entries-in-wikipedia-using-gephi/

Linkedin : http://dataiku.com/visualizing-your-linkedin-graph-using-gephi-part-1/

Partie 5: Pour aller plus loin

Dans cet article, j’ai exploré beaucoup de sources d’information différentes, et j’ai essayé de vous rendre l’utilisation de ce logiciel simple. Je pense avoir plutôt bien réussi cette mission, mais il me manque encore certaines cartographies que j’aimerais présenter. Si vous connaissez un tutoriel disponible sur cette thématique, j’aimerais beaucoup que vous me contactiez pour que je puisse le rajouter à mon article :

  • Cartographie de données scientifiques en récupérant les données de Pubmed par exemple
  • Cartographie de Brevet avec le WIPO

Vous pouvez m’envoyer des liens vers des tutoriels en ligne si vous en avec, ou me proposer directement un tuto écrit.

Je vous remercie pour l’attention que vous portez à cet article, et vous encourage encore une fois à me faire un retour, et à le partager sur vos réseaux sociaux favoris.

Share and Enjoy

Related Posts

About the Author: Sébastien Montaufier

Bienvenue sur mon blog spécialisé dans l’innovation et l’intelligence économique. Au travers de ce blog, j’aimerais vous faire partager ma passion du développement d’entreprise en vous présentant des outils et méthodes permettant d’utiliser au mieux l’information pour vous aider à développer votre entreprise et faire face à la concurrence.

Email
Print
WP Socializer Aakash Web