{"id":16365,"date":"2022-10-19T10:22:13","date_gmt":"2022-10-19T08:22:13","guid":{"rendered":"https:\/\/convergences.online\/hemato\/?p=16365"},"modified":"2022-10-19T10:22:13","modified_gmt":"2022-10-19T08:22:13","slug":"confection-dun-score-pronostic","status":"publish","type":"post","link":"https:\/\/www.hematostat.net\/en\/confection-dun-score-pronostic\/","title":{"rendered":"Confection d\u2019un score pronostic"},"content":{"rendered":"<p>&nbsp;<\/p>\n<h3>Le contexte<\/h3>\n<p>Des scores pronostic, pr\u00e9dictifs, ou dits de risque, on en calcule dans de nombreuses cohortes de patients. On pense au score Sokal ou ELTS pour la leuc\u00e9mie my\u00e9lo\u00efde chronique par exemple. Ils donnent une indication sur la gravit\u00e9 de l\u2019\u00e9tat initial d\u2019un patient, sur les risques qu\u2019il encourt sur le plan individuel, et ce que cela peut entra\u00eener en termes de rechute, survie \u00e0 l\u2019\u00e9chelle d\u2019une cohorte. Dans l\u2019ensemble, ces scores synth\u00e9tisent l\u2019impact potentiel de plusieurs caract\u00e9ristiques (\u00e2ge, comorbidit\u00e9s, variable biologique anormale, pr\u00e9sence d\u2019un biomarqueur, etc.). Ce score num\u00e9rique peut \u00eatre converti en cat\u00e9gories (bas, interm\u00e9diaire et haut risque) et permet de stratifier les patients dans le cadre de th\u00e9rapies.<\/p>\n<h3>La probl\u00e9matique<\/h3>\n<p>Pour qu\u2019un score pronostic \u00ab fonctionne \u00bb, il faut que celui-ci soit le plus possible reproductible d\u2019une cohorte de patients \u00e0 l\u2019autre, que ce soit \u00e0 l\u2019\u00e9chelle d\u2019un centre ou nationale. Au-del\u00e0 des m\u00e9thodes et outils de plus en plus pointus qui existent pour en construire, il faut tenir compte \u00e0 chaque \u00e9tape<span class=\"Apple-converted-space\">\u00a0 <\/span>de l\u2019enjeu principal qu&#8217;est sa reproductibilit\u00e9. D\u2019o\u00f9 la question : comment cr\u00e9er un nouveau score ?<\/p>\n<h3>La r\u00e9ponse<\/h3>\n<p>La premi\u00e8re \u00e9tape pour la cr\u00e9ation d\u2019un score pronostic (sur la survie ou un autre <i>endpoint<\/i>), est d\u2019\u00eatre en pr\u00e9sence d&#8217;une population de taille cons\u00e9quente (plusieurs centaines d\u2019individus) et tr\u00e8s repr\u00e9sentative. Cependant tous les centres n\u2019accueillent pas les m\u00eames profils de patients. Point crucial : il faut<br \/>\nque le registre ou la base de donn\u00e9es aient le moins de donn\u00e9es manquantes possibles pour toutes les variables qui y sont int\u00e9gr\u00e9es. Si la database ressemble \u00e0 un \u00ab gruy\u00e8re \u00bb, l\u2019effectif \u00e9tudi\u00e9 va se r\u00e9duire et cela peut entra\u00eener un biais de population. Trois conditions doivent \u00eatre rassembl\u00e9es : un effectif tr\u00e8s important, une population la plus possible repr\u00e9sentative et beaucoup de variables remplies \u00e0 100%.<\/p>\n<p>Ensuite, il s\u2019agit de trouver le meilleur mod\u00e8le, celui qui peut expliquer le mieux l\u2019<i>endpoint<\/i> analys\u00e9. Avant d\u2019\u00e9tablir la m\u00e9thodologie statistique, il convient de faire une pr\u00e9-s\u00e9lection de variables en amont. Quelles variables retenir parmi celles d\u00e9mographiques, la liste des morbidit\u00e9s, biomarqueurs, mutations, param\u00e8tres biologiques ? Cette question d\u00e9terminante n\u00e9cessite une discussion entre biostatisticiens et cliniciens. Le but sous-jacent est que les variables retenues puissent \u00eatre recueillies dans la majorit\u00e9 des centres en routine.<\/p>\n<p>La question cruciale est maintenant de d\u00e9terminer quelles sont les variables, parmi toutes celles pr\u00e9sentes dans notre jeu de donn\u00e9es, qui maximisent la vraisemblance du mod\u00e8le ou la capacit\u00e9 du mod\u00e8le \u00e0 obtenir l\u2019<i>endpoint <\/i>observ\u00e9. Il existe d\u2019autres indicateurs statistiques comme le crit\u00e8re d\u2019information d\u2019Aka\u00efke<br \/>\n(AIC), le R\u00b2 pour les r\u00e9gressions lin\u00e9aires g\u00e9n\u00e9ralis\u00e9es, ou encore son \u00e9quivalent : l\u2019indice de concordance (alias le c-index) pour le mod\u00e8le de Cox. Il s&#8217;agit de trouver la meilleure \u00e9quation pour retrouver notre <i>endpoint<\/i>.<\/p>\n<p>Plusieurs m\u00e9thodes classiques permettent d\u2019y parvenir, comme les algorithmes <i>stepwise<\/i> ou LASSO. D\u00e9j\u00e0 tr\u00e8s \u00e9prouv\u00e9s, ils marchent sur tous types de r\u00e9gressions et peuvent d\u00e9terminer le mod\u00e8le multivari\u00e9 ayant le plus de vraisemblance. Il existe d\u2019autres mani\u00e8res d\u2019affiner davantage ces mod\u00e8les, en transformant les variables continues (au carr\u00e9, cube, en log, etc.) ou en ajoutant des param\u00e8tres d\u2019interactions. Une autre solution vient des algorithmes de <i>machine learning<\/i>, de plus en plus utilis\u00e9s de nos jours. Plus pouss\u00e9s et \u00e9labor\u00e9s, comme les conditional inference trees (qui d\u00e9tectent des profils avec un syst\u00e8me d\u2019arborescence) ou les r\u00e9seaux de neurones, ils d\u00e9passent le cadre d\u2019analyses multivari\u00e9es habituelles. De nombreuses th\u00e9matiques d\u2019intelligence artificielle et de <i>big data font <\/i>aujourd&#8217;hui l&#8217;actualit\u00e9 et sont redoutablement efficaces.<\/p>\n<p>Une fois le mod\u00e8le \u00e9tabli, on peut commencer \u00e0 d\u00e9terminer son caract\u00e8re pr\u00e9dictif avec la cross-validation, un outil puissant qui permet d\u2019\u00e9valuer sa stabilit\u00e9 et sa pertinence. Le but est simple, mais peut se complexifier :<br \/>\nil s\u2019agit de cr\u00e9er \u00e0 partir de la partition de notre base de donn\u00e9es, un sous-ensemble d\u2019entra\u00eenement du mod\u00e8le en question, puis d\u2019en tester ses pr\u00e9dicateurs sur l\u2019ensemble restant. Les pr\u00e9dicateurs ne sont autres que les estimations des coefficients de chaque variable ou probabilit\u00e9s du mod\u00e8le. Les indicateurs, comme le R\u00b2, c-index, ou m\u00eame AUC et RMSE (racine de l\u2019erreur quadratique moyenne), calcul\u00e9s \u00e0 partir de cette cohorte de test, ils permettent d\u2019\u00e9valuer la robustesse et les performances du mod\u00e8le choisi et son caract\u00e8re pr\u00e9dictif.<\/p>\n<p>\u00c0 pr\u00e9sent, on peut enfin calculer son score de plusieurs mani\u00e8res. Les fa\u00e7ons plus r\u00e9pandues \u00e9tant soit :<\/p>\n<p>1) d\u2019additionner le nombre de facteurs de risque pr\u00e9sents (m\u00e9thode simple mais pas moins efficace), ou pour \u00eatre le plus pr\u00e9cis possible ;<\/p>\n<p>2) calculer \u00e0 partir des coefficients ou probabilit\u00e9s du mod\u00e8le, ce qui reste la m\u00e9thode la plus fine. Comme un score de propension, il s&#8217;agit d&#8217;une synth\u00e8se multifactorielle pour laquelle le mod\u00e8le retenu sert de formule math\u00e9matique. La recherche de cat\u00e9gories de patients plus ou moins graves peut \u00eatre d\u00e9termin\u00e9e par des courbes ROC ou des algorithmes d\u2019arborescence pour d\u00e9terminer une classification des patients bas\u00e9 sur le score obtenu.<\/p>\n<p>L\u2019\u00e9tape ultime, pas toujours effectu\u00e9e, est d\u2019\u00e9valuer et de valider ce score sur une cohorte externe appel\u00e9e aussi cohorte de validation. C\u2019est cette derni\u00e8re analyse, sur une toute autre population (provenant par exemple d\u2019un jeu de donn\u00e9es complet d\u2019un centre ou registre diff\u00e9rent), qui permet de valider et, si tout le processus s\u2019est bien d\u00e9roul\u00e9, d\u2019attester de la reproductibilit\u00e9 de ce score pronostic.<\/p>\n<p>&nbsp;<\/p>\n<p><b>Ce qu\u2019il faut retenir<\/b><\/p>\n<ul>\n<li>Le score pronostic est la synth\u00e8se d\u2019une combinaison de facteurs.<\/li>\n<li>Pour en cr\u00e9er, il faut disposer d\u2019une mod\u00e9lisation avec la meilleure vraisemblance sur une cohorte la plus fournie et repr\u00e9sentative possible.<\/li>\n<li>Si la <i>cross-validation<\/i> est incontournable avant de finaliser le choix du mod\u00e8le, sa confirmation sur une cohorte de validation externe est tout aussi cruciale.<\/li>\n<\/ul>\n<h3>Pour aller plus loin<\/h3>\n<ol>\n<li><i>El\u00e9ments et outils de statistiques et machine learning : R\u00b2, AUC et courbe ROC, c-index, cross-validation, RMSE, r\u00e9gressions lin\u00e9aires g\u00e9n\u00e9ralis\u00e9s ou de Cox, conditional inference trees, neural networks.<\/i><\/li>\n<li><i>Henri et Eva Laude (2018). \u201cData scientist et langage R\u201d.<\/i><\/li>\n<\/ol>","protected":false},"excerpt":{"rendered":"<p>&nbsp; Le contexte Des scores pronostic, pr\u00e9dictifs, ou dits de risque, on en calcule dans de nombreuses cohortes de patients. On pense au score Sokal ou ELTS pour la leuc\u00e9mie [&hellip;]<\/p>","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[7],"tags":[341],"ppma_author":[442],"class_list":["post-16365","post","type-post","status-publish","format-standard","hentry","category-focus-statistiques-generaux","tag-eha-2022","author-marion"],"aioseo_notices":[],"authors":[{"term_id":442,"user_id":2,"is_guest":0,"slug":"marion","display_name":"HematoStat.net (M)","avatar_url":{"url":"https:\/\/www.hematostat.net\/wp-content\/uploads\/2024\/01\/favicon-hematoStat.png","url2x":"https:\/\/www.hematostat.net\/wp-content\/uploads\/2024\/01\/favicon-hematoStat.png"},"first_name":"HematoStat.net (M)","last_name":"","user_url":"","description":""}],"_links":{"self":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/posts\/16365","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/comments?post=16365"}],"version-history":[{"count":0,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/posts\/16365\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/media?parent=16365"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/categories?post=16365"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/tags?post=16365"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/www.hematostat.net\/en\/wp-json\/wp\/v2\/ppma_author?post=16365"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}