L’UMAP (Uniform Manifold Approximation and Projection), un nouvel outil pour les data scientists

Publié le : 19 octobre 2022Tags:

Le contexte

Avec l’incessante progression des performances informatiques et l’explosion du big data, ce qu’on appelle le machine learning, deep learning et autres algorithmes d’intelligence artificielle se démocratisent de plus en plus en routine pour effectuer divers types de modélisations. Les outils issus de ces algorithmes très puissants permettent de répondre à des besoins croissants en bioinformatique et biostatistiques. Le domaine de la génomique est celui qui en nécessite ajourd’hui probablement le plus, au point que “machine learning et génétique” deviennent presque indissociables aujourd’hui.

La problématique

La recherche en génomique s’intensifie de plus en plus, aussi parce que le séquençage devient de plus en plus courant et rapide. Les chercheurs se retrouvent donc avec des masses de données plus conséquentes en termes de gènes et de mutations. Avec ces thématiques anciennes et toujours d’actualité comme la recherche de profils génétiques, comment faire face de nos jours ?

La réponse

Une des solutions qui permet de rechercher et de visualiser des clusters, profils, groupes, etc., lorsqu’on possède un nombre de variables continues ou paramètres numériques très importants, est de « réduire » ce large ensemble dans un espace en 2 ou 3 dimensions. Les années 90 et 2000 ont vu l’apogée des analyses en composantes principales (ACP) et des méthodes de clustering type k-means permises grâce à des ordinateurs devenus suffisamment puissants pour effectuer très rapidement des calculs matriciels.

Mais l’ACP couplé aux méthodes de clustering, aussi éprouvées soient ces analyses, avaient leurs limites et pas aisés à appréhender, avec un résultat parfois frustrant. Courant des années 2010, les t-Distributed Stochastic Neighbor Embedding (t-SNE) ont fait leur apparition, permettant de détecter des clusters là où les ACP classiques nous proposaient des nuages quasi illisibles. L’amélioration majeure du t-SNE est que ce nouvel algorithme permettait non seulement d’analyser des données à très hautes dimensions, mais se focalisait davantage sur les proximités locales entre individus au lieu de les observer par rapport à la globalité de l’ensemble dans un espace euclidien. Cependant, les calculs étaient parfois longs, et à l’usage l’outil était difficile à paramétrer correctement pour les utilisateurs. C’est alors que l’UMAP est apparu, supplantant sitôt le t-SNE et reléguant les ACP au rang d’antiquités.

Les avantages de l’UMAP sont multiples. En s’affranchissant de l’espace euclidien, il s’oriente vers les similarités locales et en simplifiant ses méthodes de calculs au travers de nouvelles formules mathématiques très avancées (se basant sur de la stochastique). L’UMAP permet d’identifier et regrouper les points en clusters beaucoup plus distinctement que n’importe quelle autre méthode, le tout avec une incroyable rapidité. On estime le temps de calcul entre 10 et 20 fois plus court par rapport à la méthode t-SNE qui était pourtant très efficace. De plus, l’UMAP tient mieux compte également de la structure des données locales par rapport à l’échelle globale, alors que le t-SNE ne gère que l’aspect local des points. Concernant le paramétrage, l’outil se contente de deux « curseurs » : le nombre de « voisins » et la distance minimale entre ces voisins. Leurs réglages permettent de gérer l’agglomération des profils similaires et donc la formation de clusters.

Figure 1 : comparaison de visualisations entre ACP et UMAP pour un même jeu de données (source : https://data.nozav.org/post/2019-umap-vs-acp-vs-parcoursup/)

Un défaut inhérent de la méthode UMAP par rapport à t-SNE est que cet outil ne parvient pas à distinguer un cluster à l’intérieur d’un autre. L’important est de savoir lequel est le plus approprié. La compréhension, des deux ou trois axes des graphiques, est très éloignée de l’ACP. Il reste que dans les deux cas, on peut aussi représenter les points suivant des groupes d’individus pré-existants, comme on peut le voir sur la figure 1, où l’on observe le net avantage de l’UMAP.

Ce qu’il faut retenir

  • L’UMAP est d’une certaine manière la version ultra-moderne de l’ACP pour des bases de données de très hautes dimensions.
  • Rapidité de l’outil dans la visualisation de clusters ou de groupes préexistants.

Pour aller plus loin

1. Becht E, McInnes L, Healy J, Dutertre CA, Kwok IWH, Ng LG, Ginhoux F, Newell EW. ”Dimensionality reduction for visualizing single-cell data using UMAP”. Nat Biotechnol. 2018 Dec 3. doi: 10.1038/nbt.4314. Epub ahead of print. PMID: 30531897.

Auteur/autrice

Laisser un commentaire