2018 – Projet n°105 – Machine Learning pour la santé

Ce projet est réalisé par Mohanned Amara, Alaeddine Zekri et Ryme Kabak.

Le Machine Learning est une science moderne permettant de découvrir des
patterns et d’effectuer des prédictions à partir de données en se basant sur des
statistiques, sur du forage de données, sur la reconnaissances de patterns et sur les
analyses prédictives.
Aujourd’hui le machine learning est en plein essor et attire l’attention des
entreprises de toutes les industries et de tous les secteurs (finance, transport,
reconnaissance, détection de fraude...). Pour notre part, notre attention s’est portée sur
une exploitation de cette science dans le domaine médical. En effet, le secteur des soins
de santé est en passe de subir une transformation profonde grâce au Machine Learning
et à l’intelligence artificielle.

Le Machine Learning améliore les diagnostics, et permet de réaliser des
prédictions précises sur l’évolution de la santé d’un patient. C’est dans ce cadre que
s’inscrit notre projet qui a pour objectif de redéfinir le diagnostic du cancer en exploitant
autrement les données. Memorial Sloan Kettering Cancer Center (MSKCC) a lancé en
2017 une compétition visant à tirer profit à fond des algorithmes du Machine Learning et
à ainsi personnaliser la médecine.

Une fois séquencée, une tumeur cancéreuse peut avoir des milliers de mutations
génétiques. Le défi de ce projet est de distinguer les mutations qui contribuent à la
croissance de la tumeur (conducteurs) des mutations neutres (passagers).
Actuellement, cette interprétation des mutations génétiques se fait à la main. C’est une
tâche qui prend beaucoup de temps vu qu'un pathologiste/médecin spécialiste doit
examiner et classifier manuellement chaque mutation génétique en se fondant sur le
diagnostic textuel à savoir le rapport médical clinique concernant celle-ci.
Le modèle que nous développerons permettra de prédire la classe (numérotée de
1 à 9) à laquelle appartient la mutation à partir d’un dataset contenant 3321
observations données en fonction de 3 variables:
● “Gene”: la localisation de la mutation génétique.
● “Variation” : le changement d'acide aminé qui a causé cette mutation.
● “Text”: le diagnostic clinique concernant la mutation.
Cependant, pour répondre à cet objectif, il ne s’agira pas simplement de faire
appel à des algorithmes de prédiction et les comparer entre eux pour choisir le meilleur.
Il faudra d’abord comprendre les variables et gérer la particularité de celles-ci. En effet,
nous sommes en présence d’une part de variables discrètes nominales catégoriques et
d’autre part d’une variable textuelle qui illustre le diagnostic clinique. De plus, les deux
variables catégoriques prennent beaucoup de valeurs. Si on applique directement un
algorithme de machine learning on est presque sur que ça ne va pas marcher. Il s’agit
donc d’effectuer plusieurs étapes au préalable pour se passer de ces challenges.

Annonce