{"id":16367,"date":"2022-10-19T10:22:55","date_gmt":"2022-10-19T08:22:55","guid":{"rendered":"https:\/\/convergences.online\/hemato\/?p=16367"},"modified":"2022-10-19T10:22:55","modified_gmt":"2022-10-19T08:22:55","slug":"lumap-uniform-manifold-approximation-and-projection-un-nouvel-outil-pour-les-data-scientists","status":"publish","type":"post","link":"https:\/\/www.hematostat.net\/en\/lumap-uniform-manifold-approximation-and-projection-un-nouvel-outil-pour-les-data-scientists\/","title":{"rendered":"L\u2019UMAP (Uniform Manifold Approximation and Projection), un nouvel outil pour les data scientists"},"content":{"rendered":"<h3>Le contexte<\/h3>\n<p>Avec l\u2019incessante progression des performances informatiques et l\u2019explosion du <i>big data<\/i>, ce qu\u2019on appelle le<i> machine learning<\/i>, <i>deep learning<\/i> et autres algorithmes d\u2019intelligence artificielle se d\u00e9mocratisent de plus en plus en routine pour effectuer divers types de mod\u00e9lisations. Les outils issus de ces algorithmes tr\u00e8s puissants permettent de r\u00e9pondre \u00e0 des besoins croissants en bioinformatique et biostatistiques. Le domaine de la g\u00e9nomique est celui qui en n\u00e9cessite ajourd&#8217;hui probablement le plus, au point que &#8220;<i>machine learning<\/i> et g\u00e9n\u00e9tique&#8221; deviennent presque indissociables aujourd\u2019hui.<\/p>\n<h3><b>La probl\u00e9matique<\/b><\/h3>\n<p>La recherche en g\u00e9nomique s\u2019intensifie de plus en plus, aussi parce que le s\u00e9quen\u00e7age devient de plus en plus courant et rapide. Les chercheurs se retrouvent donc avec des masses de donn\u00e9es plus cons\u00e9quentes en termes de g\u00e8nes et de mutations. Avec ces th\u00e9matiques anciennes et toujours d\u2019actualit\u00e9 comme la recherche de profils g\u00e9n\u00e9tiques, comment faire face de nos jours ?<\/p>\n<h3><b>La r\u00e9ponse<\/b><\/h3>\n<p>Une des solutions qui permet de rechercher et de visualiser des <i>clusters<\/i>, profils, groupes, etc., lorsqu\u2019on poss\u00e8de un nombre de variables continues ou param\u00e8tres num\u00e9riques tr\u00e8s importants, est de \u00ab r\u00e9duire \u00bb ce large ensemble dans un espace en 2 ou 3 dimensions. Les ann\u00e9es 90 et 2000 ont vu l&#8217;apog\u00e9e des analyses en composantes principales (ACP) et des m\u00e9thodes de <i>clustering<\/i> type <i>k-means <\/i>permises gr\u00e2ce \u00e0 des ordinateurs devenus suffisamment puissants pour effectuer tr\u00e8s rapidement des calculs matriciels.<\/p>\n<p>Mais l\u2019ACP coupl\u00e9 aux m\u00e9thodes de <i>clustering<\/i>, aussi \u00e9prouv\u00e9es soient ces analyses, avaient leurs limites et pas ais\u00e9s \u00e0 appr\u00e9hender, avec un r\u00e9sultat parfois frustrant. Courant des ann\u00e9es 2010, les <i>t-Distributed Stochastic Neighbor Embedding<\/i> (t-SNE) ont fait leur apparition, permettant de d\u00e9tecter des <i>clusters <\/i>l\u00e0 o\u00f9 les ACP classiques nous proposaient des nuages quasi illisibles. L\u2019am\u00e9lioration majeure du t-SNE est que ce nouvel algorithme permettait non seulement d\u2019analyser des donn\u00e9es \u00e0 tr\u00e8s hautes dimensions, mais se focalisait davantage sur les proximit\u00e9s locales entre individus au lieu de les observer par rapport \u00e0 la globalit\u00e9 de l\u2019ensemble dans un espace euclidien. Cependant, les calculs \u00e9taient parfois longs, et \u00e0 l\u2019usage l\u2019outil \u00e9tait difficile \u00e0 param\u00e9trer correctement pour les utilisateurs. C\u2019est alors que l\u2019UMAP est apparu, supplantant sit\u00f4t le t-SNE et rel\u00e9guant les ACP au rang d\u2019antiquit\u00e9s.<\/p>\n<p>Les avantages de l\u2019UMAP sont multiples. En s\u2019affranchissant de l\u2019espace euclidien, il s\u2019oriente vers les similarit\u00e9s locales et en simplifiant ses m\u00e9thodes de calculs au travers de nouvelles formules math\u00e9matiques tr\u00e8s avanc\u00e9es (se basant sur de la stochastique). L\u2019UMAP permet d\u2019identifier et regrouper les points en <i>clusters<\/i> beaucoup plus distinctement que n\u2019importe quelle autre m\u00e9thode, le tout avec une incroyable rapidit\u00e9. On estime le temps de calcul entre 10 et 20 fois plus court par rapport \u00e0 la m\u00e9thode t-SNE qui \u00e9tait pourtant tr\u00e8s efficace. De plus, l\u2019UMAP tient mieux compte \u00e9galement de la structure des donn\u00e9es locales par rapport \u00e0 l\u2019\u00e9chelle globale, alors que le t-SNE ne g\u00e8re que l\u2019aspect local des points. Concernant le param\u00e9trage, l\u2019outil se contente de deux\u00a0\u00ab curseurs \u00bb : le nombre de \u00ab voisins \u00bb et la distance minimale entre ces voisins. Leurs r\u00e9glages permettent de g\u00e9rer l\u2019agglom\u00e9ration des profils similaires et donc la formation de <i>clusters.<\/i><\/p>\n<div id=\"attachment_16320\" style=\"width: 1194px\" class=\"wp-caption alignnone\"><img decoding=\"async\" aria-describedby=\"caption-attachment-16320\" class=\"lazyload wp-image-16320 size-full\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%271184%27%20height%3D%27602%27%20viewBox%3D%270%200%201184%20602%27%3E%3Crect%20width%3D%271184%27%20height%3D%27602%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/horizonshemato.com\/wp-content\/uploads\/2022\/10\/Capture-decran-2022-10-10-a-10.21.11.png\" alt=\"\" width=\"1184\" height=\"602\" \/><p id=\"caption-attachment-16320\" class=\"wp-caption-text\">Figure 1\u00a0: comparaison de visualisations entre ACP et UMAP pour un m\u00eame jeu de donn\u00e9es (source : https:\/\/data.nozav.org\/post\/2019-umap-vs-acp-vs-parcoursup\/)<\/p><\/div>\n<p>Un d\u00e9faut inh\u00e9rent de la m\u00e9thode UMAP par rapport \u00e0 t-SNE est que cet outil ne parvient pas \u00e0 distinguer un cluster \u00e0 l\u2019int\u00e9rieur d\u2019un autre. L&#8217;important est de savoir lequel est le plus appropri\u00e9. La compr\u00e9hension, des deux ou trois axes des graphiques, est tr\u00e8s \u00e9loign\u00e9e de l&#8217;ACP. Il reste que dans les deux cas, on peut aussi repr\u00e9senter les points suivant des groupes d\u2019individus pr\u00e9-existants, comme on peut le voir sur la figure 1, o\u00f9 l\u2019on observe le net avantage de l\u2019UMAP.<\/p>\n<p><b>Ce qu\u2019il faut retenir<\/b><\/p>\n<ul>\n<li>L\u2019UMAP est d\u2019une certaine mani\u00e8re la version ultra-moderne de l\u2019ACP pour des bases de donn\u00e9es de tr\u00e8s hautes dimensions.<\/li>\n<li>Rapidit\u00e9 de l\u2019outil dans la visualisation de <i>clusters<\/i> ou de groupes pr\u00e9existants.<\/li>\n<\/ul>\n<h3>Pour aller plus loin<\/h3>\n<p><i>1. Becht E, McInnes L, Healy J, Dutertre CA, Kwok IWH, Ng LG, Ginhoux F, Newell EW. \u201dDimensionality reduction for visualizing single-cell data using UMAP\u201d. Nat Biotechnol. 2018 Dec 3. doi: 10.1038\/nbt.4314. Epub ahead of print. PMID: 30531897.<\/i><\/p>","protected":false},"excerpt":{"rendered":"<p>Le contexte Avec l\u2019incessante progression des performances informatiques et l\u2019explosion du big data, ce qu\u2019on appelle le machine learning, deep learning et autres algorithmes d\u2019intelligence artificielle se d\u00e9mocratisent de plus [&hellip;]<\/p>","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[7],"tags":[341],"ppma_author":[442],"class_list":["post-16367","post","type-post","status-publish","format-standard","hentry","category-focus-statistiques-generaux","tag-eha-2022","author-marion"],"aioseo_notices":[],"authors":[{"term_id":442,"user_id":2,"is_guest":0,"slug":"marion","display_name":"HematoStat.net (M)","avatar_url":{"url":"https:\/\/www.hematostat.net\/wp-content\/uploads\/2024\/01\/favicon-hematoStat.png","url2x":"https:\/\/www.hematostat.net\/wp-content\/uploads\/2024\/01\/favicon-hematoStat.png"},"first_name":"HematoStat.net (M)","last_name":"","user_url":"","description":""}],"_links":{"self":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/posts\/16367","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/comments?post=16367"}],"version-history":[{"count":0,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/posts\/16367\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/media?parent=16367"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/categories?post=16367"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/tags?post=16367"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/ppma_author?post=16367"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}