read ! — Hive

Il n’y a pas très longtemps, on ne pouvait pas traiter un tableau de 3000 lignes et 300
colonnes. L’apparition et le développement des ordinateurs a du coup levé cet obstacle de
calcul, et a permis la conservation et l’exploitation des grandes masses de données. Cette
amélioration continue de l’outil informatique a fortement contribué au développement et à la
vulgarisation de nombreuses méthodes statistiques, devenues maintenant d’usage assez
courant.
Aujourd’hui, des vastes données d’enquêtes sont dépouillées et, fournissent de grands
tableaux qui se prêtent aisément à l’interprétation. Des données issues d’investigations
spécifiques sont rassemblées et constituent une masse importante et apparemment
indéchiffrable d’informations mais, qu’on peut désormais traiter sans difficultés.
Cependant, comment « extraire les phénomènes, les lois, les connaissances que recèlent ces
données que nous ne pouvons appréhender directement » ?
La statistique classique nous a habitué à étudier les variables les unes après les autres, de
construire autant d’histogrammes que de variables. Comment faire pour que, à ces nombreux
graphiques se substitue un seul graphique, une carte plane ? Comment devant, la profusion
des descriptions parcellaires fournies par l’analyse variable par variable, donner une vision
globale de l’ensemble des résultats ? Les techniques dites d’analyse des données permettent
de répondre à ces questions.
Pour J-P. Fénelon « l’analyse des données est un ensemble de techniques pour découvrir la
structure, éventuellement compliquée, d’un tableau de nombres à plusieurs dimensions et de
traduire par une structure plus simple et qui la résume au mieux. Cette structure peut le plus
souvent, être représentée graphiquement».
Ces techniques qui sont essentiellement descriptives, ont pour but de décrire, de réduire, de
classer et de clarifier les données en tenant compte de nombreux points de vue et d’étudier, en
dégageant les grands traits, les liaisons, les ressemblances ou les différences entre les
variables ou groupes de variables. Les documents fournis sont qualifiés de « synthétiques et
percutants et valent souvent mieux qu’un long discours ». Cette approche descriptive et
multidimensionnelle permet de dire que l’Analyse des Données, c’est de la « statistique
descriptive perfectionnée».
L’analyse des données recouvre principalement deux ensembles de techniques: les
premières qui relèvent de la géométrie euclidienne et conduisent à l’extraction de valeurs et
de vecteurs propres, sont appelées « analyses factorielles »; les secondes, dites de
« classification automatique » sont caractérisées par le choix d’un indice de proximité et d’un
algorithme d’agrégation ou de désagrégation qui permettent d’obtenir une partition ou arbre
de classification.
Parmi ces deux techniques, les premières occupent une place de choix, car elles sont utilisées
soit seules, soit conjointement avec les secondes, alors que ces dernières sont rarement
appliquées seules.
On s’intéressera surtout aux analyses factorielles dont on ne décrira que les deux méthodes
les plus employées. Il s’agit de l’analyse en composantes principales (beaucoup utilisée dans
les pays anglo-saxons) et de l’analyse factorielle des correspondances. La classification
automatique sera introduite comme aide à l’interprétation d’une analyse factorielle. Ce qui
3
permet de compléter et d’enrichir les résultats de cette dernière. Cependant, vu la diversité des méthodes, on regardera comment se présentent les résultats pour l’une d’entre elles: la classification ascendante hiérarchique, qui est la plus élaborée des méthodes de classification.