La visualisation des espaces d'informations

Benoît FRICEAU
Edition Multimédia de l'Information
Centre Universitaire d'enseignement du Journalisme
de Strasbourg
Année 2000-2001

ORGANISER LES DONNEES

Dans les lignes qui suivent, nous n'allons pas rentrer dans des considérations trop techniques. Ce que nous souhaitons faire passer après du lecteur, c'est que la visualisation de l'information n'est pas qu'une simple mise à plat joliment illustrée et interactive, mais surtout l'aboutissement d'un traitement rigoureux des données.

Les espaces d'information peuvent aujourd'hui revêtir de multiples formes. De la petite base de donnée d'une entreprise à la toile gigantesque d'internet, en passant par les archives d'une bibliothèque, les données sont partout et sur tous les supports. Dès lors que l'on va vouloir rendre compte de la structure de cet espace et des différentes relations qu'entretiennent les documents entre eux, il devient indispensable d'organiser cet ensemble de données. Car sans organisation, l'appréhension globale des documents reste impossible.

La question reste maintenant de savoir d'où peut bien provenir cette organisation.

Dans certains cas, elle peut être issue de la collection de documents elle-même.
Prenons l'exemple d'un outil de visualisation d'un site web qui a pour but de faire ressortir l'arborescence des pages présentes à l'intérieur d'un site.
Les liens qui unissent ces pages sont à la base physiques et explicites. Un logiciel de traçage pourra dans ce cas les repérer automatiquement, analyser la structure du site, dégager les liens ainsi que la place occupée par chaque document à l'intérieur du site.
Autres types de liens explicites : ceux qui constituent un organigramme (d'une société par exemple). Les liens sont par nature bien identifiés, et un travail manuel permettra de dégager l'arborescence de la société.
Il n'est donc pas nécessaire de déployer de grands moyens pour révéler l'organisation de telles structures.

Mais dans la majorité des cas, l'organisation de la collection n'est pas apparente.
Si l'on prend le cas d'Internet, les documents sont effectivement liés les uns aux autres par des liens physiques, mais sont-ils suffisants pour rendre compte de pôles thématiques complexes ? Deux documents peuvent en effet parler du même sujet, mais ne seront pas nécessairement liés.
L'organisation est donc implicite, sous-jacente.

Deux optiques peuvent alors être envisagées :

On applique à la collection de documents un schéma de classification pré-établi. Les documents et données pourront alors être organisées autour de " pôles " d'information qui structureront la collection.
Ce schéma peut reposer sur des thèmes, comme dans le cas des annuaires de recherche sur internet de type Yahoo!. La classification est effectuée manuellement et chaque site rentre dans une catégorie (classification mono-dimensionnelle) ou plusieurs (classification pluridimensionnelle).
Le schéma de classification peut également résulter d'une classification automatique basée par exemple sur les mots-clé, comme avec les moteurs de recherche Internet. Ces moteurs organisent les documents suivant qu'ils contiennent ou non les mêmes mots-clé. Une classe de documents sera donc déterminée par l'ensemble des documents qui contiennent les mêmes mots.
Une autre approche vise à mettre en évidence une organisation implicite. Elle est tout à fait différente de la précédente et repose sur des analyses statistiques complexes. C'est ce que l'on appelle la classification automatique (classification automatique libre, pour être exact).
Des logiciels, conçus pour traiter de grandes masses d'informations, s'appuient sur de puissants algorithmes pour classer les documents selon qu'ils contiennent des termes plus ou moins proches.
La caractéristique de cette approche est qu'elle ne fait pas appel à un schéma de classification pré-établi. Elle se sert de l'organisation implicite de la collection pour dégager des pôles autour desquels les documents viendront s'agréger. Après traitement, ces pôles se révelent être porteurs de sens, et c'est de cela dont rendront compte les interfaces de visualisation.

Il existe de très nombreux outils de classification automatique. Chacun est généralement développé que pour ne traiter qu'un type bien particulier d'informations (économiques, scientifiques...).

>>>Suite: Visualiser les données

Lien
Si l'on considère la définition du Petit Robert, un lien hypertexte est " un procédé permettant d'accéder aux fonctions ou informations liées à un mot affiché à l'écran, en cliquant simplement sur ce mot ".
En termes plus techniques, le lien hypertexte est l'indication, à l'intérieur d'une page , de la coordonnée d'une autre page, d'un élément multimédia (image, vidéo etc.) ou d'un endroit spécifique à l'intérieur de cette page.
Sur Internet , une page web va constituer le point d'origine du lien, et une autre son point d'arrivée.
Un lien peut également désigner une relation (purement technique ou simplement sémantique) entre deux informations.

Noeud
Un document vers lequel pointent au moins deux liens est appelé "Noeud".
D'où cette image de " maillage " souvent avancée pour décrire la structure du réseau, et qui lui a valu son appellation de " net " (en anglais " filet ").

" La caractéristique fondamentale de l'intelligence, qu'elle soit qualifiée de naturelle ou d'artificielle est l'interprétation. Une forme ou configuration étant perçue, que va-t-elle provoquer ? Sera-t-elle mise en mémoire ? Pour interpréter, il faut classer, séparer, comparer ; ceci dans une diversité presque incalculable. Bien entendu, on ne perçoit pas le réel, mais une partie de ce réel auquel on est sensible, directement ou par l'intermédiaire de machines concrètes ou abstraites. Ce qui est perçu il faut le séparer en classes, en familles, en agrégats, à partir desquels l'interprétation pourra se réaliser. "

A. KAUFMANN. Introduction à la théorie des sous-ensembles flous , volume 3. Masson, 1975.