# TP3 : Introduction au Machine Learning pour la survie

- Auteur : Juliette Murris
- Date : Janvier 2025


L'objectif de ce TP est de se familiariser avec les notions de Machine Learning pour pr√©dire la survie


## Pr√©requis 

Pour commencer installez les library suivantes :

In [None]:
! pip install -U scikit-survival


Collecting scikit-survival
  Downloading scikit-survival-0.17.0.tar.gz (2.5 MB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2.5 MB 13.5 MB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
Building wheels for collected packages: scikit-survival
  Building wheel for scikit-survival (PEP 517) ... [?25l[?25hdone
  Created wheel for scikit-survival: filename=scikit_survival-0.17.0-cp37-cp37m-linux_x86_64.whl size=4080423 sha256=15b149f6ef3b8cc5b69144641528e2524e205c2fa7d8f98f13b24efa21129ae9
  Stored in directory: /root/.cache/pip/wheels/91/c1/99/2c2faacc82ff4f89d27612b1fd905ea35aa24f6a93dd4dcc0d
Successfully built scikit-survival
Installing collected packages: scikit-survival
Successfully installed scikit-survival-0.17.0


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder

from sksurv.datasets import load_flchain
from sksurv.preprocessing import OneHotEncoder
from sksurv.ensemble import RandomSurvivalForest
from sksurv.tree import SurvivalTree

Dans ce TP nous allons travailler sur le jeu de donn√©es **flchain**. Ces donn√©es sont issues d'une √©tude cherchant √† √©valuer la facult√© pr√©dictive des cha√Ænes l√©g√®res non clonales libres d'immunoglobulines sur le d√©c√®s. Vous trouverez le d√©tail de ces travaux dans la [publication](https://www.mayoclinicproceedings.org/article/S0025-6196(12)00388-6/fulltext) associ√©e.

La table disponible dans la library **sksurv** contient 7874 sujet et les 9 variables suivantes :
- Age : en ann√©e
- Sexe : F=femme, M=homme
- sample.yr : ann√©e √† le pr√©l√®vement de sang a eu lieu
- kappa : cha√Æne l√©g√®re sans s√©rum, kappa portion
- lambda : cha√Æne l√©g√®re sans s√©rum, lambda portion
- lc.grp : Groupe d√©fini suivant les cha√Ænes l√©g√®res sans s√©rum, comme utilis√© dans les analyses initiales
- creatinine : taux de cr√©atinine
- mgus : 1 si le patient a √©t√© diagnostiqu√© avec une gammapathie monoclonale
- chapter : pour les patients d√©c√©d√©s, le code CIM10 du la cause pruncipale de d√©c√®s

In [None]:
# Chargement des donn√©es :
    # X : Features
    # y : outcome ici le d√©c√®s
X, y = load_flchain()

In [None]:
y

array([( True,   85.), ( True, 1281.), ( True,   69.), ...,
       (False, 2507.), (False, 4982.), (False, 3995.)],
      dtype=[('death', '?'), ('futime', '<f8')])

## Pr√©traitement des donn√©es 

In [None]:
# On visualise les donn√©es 
print(X)
# On regarde le type des donn√©es
X.dtypes

       age      chapter  creatinine flc.grp  kappa  lambda mgus sample.yr sex
0     97.0  Circulatory         1.7      10  5.700   4.860   no      1997   F
1     92.0    Neoplasms         0.9       1  0.870   0.683   no      2000   F
2     94.0  Circulatory         1.4      10  4.360   3.850   no      1997   F
3     92.0  Circulatory         1.0       9  2.420   2.220   no      1996   F
4     93.0  Circulatory         1.1       6  1.320   1.690   no      1996   F
...    ...          ...         ...     ...    ...     ...  ...       ...  ..
7869  52.0          NaN         1.0       6  1.210   1.610   no      1995   F
7870  52.0          NaN         0.8       1  0.858   0.581   no      1999   F
7871  54.0          NaN         NaN       8  1.700   1.720   no      2002   F
7872  53.0          NaN         NaN       9  1.710   2.690   no      1995   F
7873  50.0          NaN         0.7       4  1.190   1.250   no      1998   F

[7874 rows x 9 columns]


age            float64
chapter       category
creatinine     float64
flc.grp       category
kappa          float64
lambda         float64
mgus          category
sample.yr     category
sex           category
dtype: object

On remarque qu'il y a des valeurs manquante dans la base. 
Le code suivant permet de quantifier les valeurs manquantes dans chacune des variables.

In [None]:
print(X.isnull().sum())

age              0
chapter       5705
creatinine    1350
flc.grp          0
kappa            0
lambda           0
mgus             0
sample.yr        0
sex              0
dtype: int64


On observe qu'il y a 1350 valeurs manquantes pour la variable cr√©atinine et 5705 pour la variables chapter. Pour la seconde variable cela peut s'expliquer par le fait que seul les patients d√©c√©d√©s ont cette variables renseign√©es. Cette variable ne sera pas utilis√©e pour pr√©dire le d√©c√®s. On peut donc supprimer cette variable de la table X.

On d√©cide ici d'imputer la variable cr√©atinine par sa m√©diane. **ATTENTION** : en pratique, il faut r√©fl√©chir un peu plus √† la gestion des donn√©es manquantes. 

In [None]:
#On supprime la variable chapter

#On impute les valeurs manquantes de cr√©atinine par la m√©diane

#On v√©rifie qu'il n'y a plus de valeurs manquantes


age           0
creatinine    0
flc.grp       0
kappa         0
lambda        0
mgus          0
sample.yr     0
sex           0
dtype: int64


Pour pouvoir facilement utiliser les donn√©es ont va transformer les donn√©es qualitatives en variables bool√©ennes et on v√©rifie que les variables continues sont bien en num√©rique.

In [1]:
#On identifie les variables quantitatives

#On v√©rifie les types

#On remarque que la variable flc.grp est cod√© en cat√©gorie. On la transforme donc en numerique

#On r√©cup√®re le noms des variables


In [None]:
#On identifie les variables qualitatives

#On r√©cup√®re le noms des variables

#On les transforme en variable bool√©enne


In [None]:
#On compile variables quanti et quali


Enfin, on termine cette partie de pr√©traitement des donn√©es par cr√©er une base de test et une base d'entrainement.

In [None]:
#R√©ponse 
#
#
#
#
#
#
#

## Entrainement du mod√®le de survie

#### <span style='color: #a13203; font-weight: 600;'>üí¨ Question 1 </span> D√©finissez une for√™t al√©atoire de survie avec : 
- 100 arbres, 
- $\sqrt{\text{nombre de covariables}}$ variables test√©es √† chaque noeud

et en fixant la graine de simulation.

In [None]:
#R√©ponse 
#
#
#
#
#
#
#

#### <span style='color: #a13203; font-weight: 600;'>üí¨ Question 2 </span> Entrainez le mod√®le pr√©c√©dent sur vos donn√©es d'entrainement

In [None]:
#R√©ponse 
#
#
#
#
#
#
#

## Pr√©diction

#### <span style='color: #a13203; font-weight: 600;'>üí¨ Question 3 </span> Calculer le C-index sur la base de test

In [None]:
#R√©ponse 
#
#
#
#
#
#
#

#### <span style='color: #a13203; font-weight: 600;'>üí¨ Question 4 </span> Afficher les scores de risque des 5 premiers patients de la base et interpr√©ter

In [None]:
#R√©ponse 
#
#
#
#
#
#
#

Le patient 2 semble √™tre le plus √† risque de d√©c√©der. A l'inverse le patient 4 semble √† faible risque de d√©c√®s. 

#### <span style='color: #a13203; font-weight: 600;'>üí¨ Question 5 </span> Evaluer les fonctions de survie des 5 premiers patients et les repr√©senter graphiquement

In [None]:
#R√©ponse 
#
#
#
#
#
#
#

#### <span style='color: #a13203; font-weight: 600;'>üí¨ Question 6 </span> Evaluer les incidences cumul√©es des 5 premiers patients et les repr√©senter graphiquement

In [None]:
#R√©ponse 
#
#
#
#
#
#
#

## Influence des variables

In [None]:
! pip install -U eli5

Collecting eli5
  Downloading eli5-0.11.0-py2.py3-none-any.whl (106 kB)
[?25l[K     |‚ñà‚ñà‚ñà                             | 10 kB 22.4 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                         | 20 kB 21.1 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                      | 30 kB 24.6 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                   | 40 kB 17.1 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                | 51 kB 17.6 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå             | 61 kB 14.0 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã          | 71 kB 11.6 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä       | 81 kB 12.7 MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 92 kB 13.9 MB/s eta 0:00

In [None]:
import eli5
from eli5.sklearn import PermutationImportance

In [None]:
#R√©ponse 
#
#
#
#
#
#
#