Pour toute mon analyse de données, j'ai utilisé un logiciel, R, qui est libre de droit, mais qui s'utilise en lignes de commande (il faut donc connaître le langage R).
Sauf pour mesurer, j'ai pris le logiciel imageJ qui est aussi libre de droit.
En fait, avant de faire une UMAP, j'ai fait une ACP (Analyse en composantes principales).
Et l'ACP, c'est vraiment ce qui est important dans mon analyse. La UMAP, c'est *juste* une façon de visualiser les données (et classiquement, oui, elle est utilisée pour de très gros jeux de données, mais je trouve que ça fonctionne bien aussi avec des petits jeux).
L'ACP m'a servi de base pour calculer les distances (donc le niveau de différence) entre individus et pour créer des groupes de ressemblance.
La UMAP sert juste à voir de manière lisible les groupes.
L'ACP, c'est une façon de simplifier les données qui se base sur les corrélations entre variables.
Par exemple, dans mon jeu, il y a une très forte corrélation entre UWI, WER et WHI (qui représent tous plus ou moins l'involution). Mon ACP va "résumer" cette corrélation en créant une nouvelle dimension qui "résumera" ces trois variables.
Dans mon jeu, UWI/WER/WHI explique le plus la variabilité des données : mes ammonites se différencient pas mal en fonction de l'involution. Ca va être l'axe 1, la direction dans l'espace des données où la variation est la plus importante.
Et ensuite, elle varient pas mal en fonction de la taille et de l'épaisseur : ça va être l'axe 2, car en plus, y'a une corrélation négative modérée entre la taille et l'épaisseur.
Moi j'ai pris les trois axes de l'ACP, qui en gros représentent l'involution, la taille et l'épaisseur.
Pour représenter de manière plus "sympa" mes trois axes de l'ACP, j'ai utilisé la UMAP. La UMAP va résumer en 2D les dimensions en 3D.
Voilà la représentation sur les deux premiers axes de l'ACP :
Bon, ça va, c'est pas trop moche, mais je trouve la UMAP plus lisible. Et surtout, moi j'ai choisi de tenir compte du 3ème axe, et difficile de représenter des données 3D en 2D ^^.
Oui, pas évident !
Pour résumer, la UMAP est un algo qui va essayer de représenter le plus fidèlement possible en 2D des distances qui sont, elles en 3D, 4D.... 50D, 70D.