|
ORGANISER
LES DONNEES
Dans les lignes qui suivent, nous n'allons pas rentrer
dans des considérations trop techniques. Ce que nous souhaitons
faire passer après du lecteur, c'est que la visualisation de l'information
n'est pas qu'une simple mise à plat joliment illustrée et
interactive, mais surtout l'aboutissement d'un traitement rigoureux des
données.
Les espaces
d'information peuvent aujourd'hui revêtir de multiples formes. De
la petite base de donnée d'une entreprise à la toile gigantesque
d'internet, en passant par les archives d'une bibliothèque, les
données sont partout et sur tous les supports. Dès lors
que l'on va vouloir rendre compte de la structure de cet espace et des
différentes relations qu'entretiennent les documents entre eux,
il devient indispensable d'organiser cet ensemble de données. Car
sans organisation, l'appréhension globale des documents reste impossible.
La question
reste maintenant de savoir d'où peut bien provenir cette organisation.
Dans certains
cas, elle peut être issue de la collection de documents elle-même.
Prenons l'exemple
d'un outil de visualisation d'un site web qui a pour but de faire ressortir
l'arborescence des pages présentes à l'intérieur
d'un site.
Les liens qui unissent ces pages sont à la base physiques
et explicites. Un logiciel de traçage pourra dans ce cas les repérer
automatiquement, analyser la structure du site, dégager les liens
ainsi que la place occupée par chaque document à l'intérieur
du site.
Autres types de liens explicites : ceux qui constituent un organigramme
(d'une société par exemple). Les liens sont par nature bien
identifiés, et un travail manuel permettra de dégager l'arborescence
de la société.
Il n'est donc pas nécessaire de déployer de grands moyens
pour révéler l'organisation de telles structures.
Mais dans
la majorité des cas, l'organisation de la collection n'est pas
apparente.
Si l'on prend le cas d'Internet, les documents sont effectivement liés
les uns aux autres par des liens physiques, mais sont-ils suffisants pour
rendre compte de pôles thématiques complexes ? Deux documents
peuvent en effet parler du même sujet, mais ne seront pas nécessairement
liés.
L'organisation est donc implicite, sous-jacente.
Deux optiques
peuvent alors être envisagées :
- On applique
à la collection de documents un schéma de classification
pré-établi. Les documents et données pourront alors
être organisées autour de " pôles " d'information
qui structureront la collection.
Ce schéma peut reposer sur des thèmes, comme dans le cas
des annuaires de recherche sur internet de type Yahoo!. La classification
est effectuée manuellement et chaque site rentre dans une catégorie
(classification mono-dimensionnelle) ou plusieurs (classification pluridimensionnelle).
Le schéma de classification peut également résulter
d'une classification automatique basée par exemple sur les mots-clé,
comme avec les moteurs de recherche Internet. Ces moteurs organisent
les documents suivant qu'ils contiennent ou non les mêmes mots-clé.
Une classe de documents sera donc déterminée par l'ensemble
des documents qui contiennent les mêmes mots.
- Une autre
approche vise à mettre en évidence une organisation implicite.
Elle est tout à fait différente de la précédente
et repose sur des analyses statistiques complexes. C'est ce que l'on
appelle la classification automatique (classification automatique libre,
pour être exact).
Des logiciels, conçus pour traiter de grandes masses d'informations,
s'appuient sur de puissants algorithmes pour classer les documents selon
qu'ils contiennent des termes plus ou moins proches.
La caractéristique de cette approche est qu'elle ne fait pas
appel à un schéma de classification pré-établi.
Elle se sert de l'organisation implicite de la collection pour dégager
des pôles autour desquels les documents viendront s'agréger.
Après traitement, ces pôles se révelent être
porteurs de sens, et c'est de cela dont rendront compte les interfaces
de visualisation.
Il existe de très nombreux outils de classification automatique.
Chacun est généralement développé que pour
ne traiter qu'un type bien particulier d'informations (économiques,
scientifiques...).

>>>Suite:
Visualiser les données
|
 |
Lien
Si l'on considère la définition du Petit Robert, un
lien hypertexte est " un procédé permettant d'accéder
aux fonctions ou informations liées à un mot affiché
à l'écran, en cliquant simplement sur ce mot ".
En termes plus techniques, le lien hypertexte est l'indication, à
l'intérieur d'une page , de la coordonnée d'une autre
page, d'un élément multimédia (image, vidéo
etc.) ou d'un endroit spécifique à l'intérieur
de cette page.
Sur
Internet , une page web va constituer le point d'origine du lien,
et une autre son point d'arrivée.
Un lien peut également désigner une relation (purement
technique ou simplement sémantique) entre deux informations.
Noeud
Un document vers lequel pointent au moins deux liens est appelé
"Noeud".
D'où cette image de " maillage " souvent avancée
pour décrire la structure du réseau, et qui lui a
valu son appellation de " net " (en anglais " filet
").
|

|
 |
"
La caractéristique fondamentale de l'intelligence, qu'elle
soit qualifiée de naturelle ou d'artificielle est l'interprétation.
Une forme ou configuration étant perçue, que va-t-elle
provoquer ? Sera-t-elle mise en mémoire ? Pour interpréter,
il faut classer, séparer, comparer ; ceci dans une diversité
presque incalculable. Bien entendu, on ne perçoit pas le réel,
mais une partie de ce réel auquel on est sensible, directement
ou par l'intermédiaire de machines concrètes ou abstraites.
Ce qui est perçu il faut le séparer en classes, en familles,
en agrégats, à partir desquels l'interprétation
pourra se réaliser. "
A. KAUFMANN. Introduction à la théorie
des sous-ensembles flous , volume 3. Masson, 1975. |

|
|