Abstract
The theoretical basis and the features of some cluster analysis programs are described in this paper. These programs use as input data an N × M matrix. For the N ≤ N set of individuals, the cross-correlation matrix, R= {rij}, is then calculated. The dissimilarity matrix, D={dhk}, and the distribution histogram of the distances between each pair is worked out. Hierarchic and non-hierarchic clustering techniques are allowed. Using the non-hierarchic strategy, the non-overlapping clusters are then separated into different groups. The distances between these groups are calculated and statistical tests of significance are performed. In the hierarchic case, a dendrogram is drawn using an agglomerative algorithm. As an example the programs (written in FORTRAN, batch or TSS version) were used to classify human mitotic chromosomes.
Les bases théoriques et les caractéristiques de quelques programmes de Cluster Analysis sont présentees dans cet article. Ces programmes effectuent lescalculs à partir d'une matrice N × M. Pour l'ensemble N, des individus ≤ N, la matrice des correlations croisees, R= {rij}, est calculée. La matrice de dissemblance, D = {dhk}, et l'histogramme de distribution des distances entre chaque paire d'individus sont établis. L'utilisation des techniques de clusters hierarchiques et non-hiérarchiques est possible. En utilisant une strategie non-hiérarchique, les clusters ne présentant pas de recouvrement sont bien séparés en differents groupes. Les distances entre ces groupes sont calculées et des tests statistiques sont effectues pour rechercher si elles sont significatives ou non. Dans le cas hiérarchique, un arbre est dessine en utilisant un algorithme de regroupement. La classification des chromosomes humains en cours de mitoses est utilisee comme exemple d'application, avec des programmes écrits en FORTRAN.