# Nettoyage : Usage des encoders

Les différents modèles de ML qu'on peut créer avec la bibliothèque Sklearn n'utilisent que des données numériques. Si, dans les nous données, on retrouve des données textuelles (représentant des catégories), on doit les transformer en numérique. Les *encoders* nous permettent de faire cette transformation. 



Pour illustrer l'usage des *encoders*, on va d'abord créer un DataFrame simple, qui nous servira de base de test. 

Dans ce DataFrame, on a des informations sur des votants pour une enquête sur internet. On a des informations sur le genre du votant, de sa région d'origine (US, Europe ou Asie), et du navigateur utilisé (Chrome, Firefox, Safari), ainsi que leur vote (approuve ou disapprouve). On peut imaginer utiliser un DataFrame comme celui-ci pour un problème de classification type une arbre de décision.  

In [11]:
import pandas as pnd

dfCategories = pnd.DataFrame (
    [ ['male', 'from US', 'uses Safari', 'approves'], 
      ['female', 'from Europe', 'uses Firefox', 'disaproves'] ,
      ['female', 'from US', 'uses Safari', 'approves'],
      ['male', 'from Europe', 'uses Safari', 'approves'],
      ['female', 'from US', 'uses Firefox', 'disaproves'] ,
      ['male', 'from Europe', 'uses Chrome', 'disaproves'] , 
      ['female', 'from Asia', 'uses Chrome', 'approves'],
      ['male', 'from Asia', 'uses Chrome', 'approves'] ],
    columns=['sex', 'region','browser', 'vote' ])

dfCategories

Unnamed: 0,sex,region,browser,vote
0,male,from US,uses Safari,approves
1,female,from Europe,uses Firefox,disaproves
2,female,from US,uses Safari,approves
3,male,from Europe,uses Safari,approves
4,female,from US,uses Firefox,disaproves
5,male,from Europe,uses Chrome,disaproves
6,female,from Asia,uses Chrome,approves
7,male,from Asia,uses Chrome,approves


## Exemple LabelEncoder

On va maintenant utiliser ce DataFrame pour tester nos *encoders*. 

Tout d'abord, on va transformer notre colonne **vote** (qui pourrait servir de **target**) en numérique avec un encoder de type ***LabelEncoder***. 

On va donc :
- créer un nouveau ***LabelEncoder***
- entrainer le nouveau *encoder* avec la colonne *vote* de notre DataFrame 
- utiliser l'encoder (une fois entrainé) pour transformer les données de cette même colonne 

In [12]:
from sklearn.preprocessing import LabelEncoder

labEnc = LabelEncoder()
labEnc.fit( dfCategories[ 'vote' ] )

print (labEnc.classes_)


['approves' 'disaproves']


Une fois l'encoder entrainé, on peut l'utiliser pour transformer les données de la colonne "**vote**". On va ainsi créer une nouvelle colonne "**code_vote**" avec les valeurs transformées à l'aide de l'opération ***transform***. 

In [13]:
dfCategories['code_vote'] = labEnc.transform( dfCategories['vote'] )

dfCategories

Unnamed: 0,sex,region,browser,vote,code_vote
0,male,from US,uses Safari,approves,0
1,female,from Europe,uses Firefox,disaproves,1
2,female,from US,uses Safari,approves,0
3,male,from Europe,uses Safari,approves,0
4,female,from US,uses Firefox,disaproves,1
5,male,from Europe,uses Chrome,disaproves,1
6,female,from Asia,uses Chrome,approves,0
7,male,from Asia,uses Chrome,approves,0


On peut également procéder à la transformation inverse et obtenir les catégories correspondantes à un ensemble de valeurs. 

On va créer un *array* avec une séquence de 0 et 1 aléatoires et obtenir les catégories leur correspondant.    

In [18]:
import numpy as np

aleatoire = np.random.randint(low=0, high=2, size=5)
print (aleatoire)

[1 0 1 0 1]


In [19]:
cate_aleatoire = labEnc.inverse_transform(aleatoire)
print (cate_aleatoire)

['disaproves' 'approves' 'disaproves' 'approves' 'disaproves']


## Exemple de OrdinalEncoder

L'encoder "***OrdinalEncoder***" va opérer de manière semblable à l'encoder "***LabelEncoder***" et transformer les valeurs en numéros entiers (0, 1, 2...). 

Contrairement au ***LabelEncoder***, l'encoder ***OrdinalEncoder*** considère l'usage des *features*, c'est-à-dire on est sur des valeurs des variables qu'on va utilser (le *X set*), pas sur les classes qu'on utiliserait dans une classificaiton (le *Y set*). 

L'usage d'un ***OrdinalEncoder*** suit exactement les mêmes étapes du ***LabelEncoder*** : 
- création de l'encoder
- entrainement de l'encoder sur un DataFrame 
- utilisation de l'encoder pour transformer les données. 
 

Pour illustrer l'usage d'un ***OrdinalEncoder***, on va transformer la colonne "*sex*" de notre DataFrame **dfCategories**, en suivant les étapes :
- créer un nouveau ***OrdinalEncoder***
- entrainer le nouveau *encoder* avec la colonne *sex* de notre DataFrame 
- utiliser l'encoder (une fois entrainé) pour transformer les données de cette même colonne

In [16]:
from sklearn.preprocessing import OrdinalEncoder

ordEnc = OrdinalEncoder()
ordEnc.fit( dfCategories[ [ 'sex' ] ] ) 
# attention aux 2 [[ ]], car l'encodeur s'attend à un DataFrame, pas une seule colonne 

print (ordEnc.categories_)

[array(['female', 'male'], dtype=object)]


Une fois l'encodeur entrainé, on va ajouter au DataFrame *dfCategories* une nouvelle colonne avec les valeurs de la colonne *sex* transformées par l'encoder.  

In [17]:
dfCategories['code_sex'] = ordEnc.transform( dfCategories[ ['sex'] ] )

dfCategories

Unnamed: 0,sex,region,browser,vote,code_vote,code_sex
0,male,from US,uses Safari,approves,0,1.0
1,female,from Europe,uses Firefox,disaproves,1,0.0
2,female,from US,uses Safari,approves,0,0.0
3,male,from Europe,uses Safari,approves,0,1.0
4,female,from US,uses Firefox,disaproves,1,0.0
5,male,from Europe,uses Chrome,disaproves,1,1.0
6,female,from Asia,uses Chrome,approves,0,0.0
7,male,from Asia,uses Chrome,approves,0,1.0


Avec un ***OrdinalEncoder***, il est aussi possible de réaliser de réaliser la transformation inversée (opération ***inverse_tranform***), et donc d'avoir le nom de la catégorie à partir d'une valeur.  

Pour illustrer l'opération ***inverse_tranform***, on va se servir de notre array de 

In [23]:
dfAleatoire = pnd.DataFrame(aleatoire)
print (dfAleatoire)

ordEnc.inverse_transform( dfAleatoire ) 

   0
0  1
1  0
2  1
3  0
4  1


array([['male'],
       ['female'],
       ['male'],
       ['female'],
       ['male']], dtype=object)

## Exemple OneHotEncoder

Les encoders "***OneHotEncoder***" vont transformer chaque colonne en plusieurs, un par valeur retrouvée, afin de se limiter à des valeurs *binaire* (c.a.d. juste 0 ou 1) pour chaque valeur possible.

Ainsi, si dans une colonne *A*, on retrouve les valeurs *"a"*,*"b"* et *"c"*, l'encoder "***OneHotEncoder***" va transformer celle-ci en 3 colonnes *"A_a"*, *"A_b"* et *"A_c"*. Les lignes où on avait la valeur *"a"* se retrouveront avec un "*1*" sur la colonne *"A_a"*  et un "*0*" sur les colonnes *"A_b"* et *"A_c"*. Les lignes où il y avait une valeur *"b"* se retrouveront avec une valeur "*1*" sur la colonne *"A_b"* et des "*0*" sur les colonnes *"A_a"* et *"A_c"*. Pareil, là où il y avait une valeur *"c"*, on se retrouvera avec une valeur "*1*" sur la colonne *"A_c"* et des "*0*" sur les colonnes *"A_a"* et *"A_b"*.      

| A |               
-----                               
| a |                               
| b |                                
| c |                              

devient alors 

| A_a | A_b | A_c |
-----|-----|-----|
| 1 | 0 | 0 | 
| 0 | 1 | 0 | 
| 0 | 0 | 1 |

On va se servir d'un encoder ***OneHotEncoder*** pour transformer le contenu de la colonne "**region**". 

Comme pour l'encoder précédent, on va devoir : 
- créer l'encoder
- entrainer l'encoder sur un DataFrame 
- utiliser de l'encoder pour transformer les données.

On va donc créer un objet ***OneHotEncoder*** et l'entrainer avec un *DataFrame* contenant la colonne **region** de notre *DataFrame* ***dfCategories***

In [58]:
from sklearn.preprocessing import OneHotEncoder

ohEnc = OneHotEncoder()
ohEnc.fit( dfCategories[ [ 'region' ] ] ) 
# attention aux 2 [[ ]], car l'encodeur s'attend à un DataFrame, pas une seule colonne 

print (ohEnc.get_feature_names())

['x0_from Asia' 'x0_from Europe' 'x0_from US']


On va transformer maintenant les valeurs de la colonne "*region*". On va créer une nouvelle DataFrame avec les valeurs transformées, de manière à ce qu'on puisse rajouter ensuite ces nouvelles colonnes à notre DataFrame *dfCategories*.

In [59]:
Xoh = ohEnc.transform( dfCategories[['region']])
print (Xoh.toarray())

dfXoh = pnd.DataFrame(Xoh.toarray(), columns=ohEnc.get_feature_names())
dfXoh

[[0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


Unnamed: 0,x0_from Asia,x0_from Europe,x0_from US
0,0.0,0.0,1.0
1,0.0,1.0,0.0
2,0.0,0.0,1.0
3,0.0,1.0,0.0
4,0.0,0.0,1.0
5,0.0,1.0,0.0
6,1.0,0.0,0.0
7,1.0,0.0,0.0


Afin de réunir les données de deux DataFrame, deux possibilités : avec l'opération ***concat*** proposée par la bibliothèque **Pandas**, ou l'opération ***join*** propre aux DataFrames. 

In [60]:
pnd.concat( [ dfCategories, dfXoh ] , axis='columns' )

Unnamed: 0,sex,region,browser,vote,code_vote,code_sex,x0_from Asia,x0_from Europe,x0_from US
0,male,from US,uses Safari,approves,0,1.0,0.0,0.0,1.0
1,female,from Europe,uses Firefox,disaproves,1,0.0,0.0,1.0,0.0
2,female,from US,uses Safari,approves,0,0.0,0.0,0.0,1.0
3,male,from Europe,uses Safari,approves,0,1.0,0.0,1.0,0.0
4,female,from US,uses Firefox,disaproves,1,0.0,0.0,0.0,1.0
5,male,from Europe,uses Chrome,disaproves,1,1.0,0.0,1.0,0.0
6,female,from Asia,uses Chrome,approves,0,0.0,1.0,0.0,0.0
7,male,from Asia,uses Chrome,approves,0,1.0,1.0,0.0,0.0


In [61]:
dfCategories_OneHot = dfCategories.join(dfXoh)

dfCategories_OneHot

Unnamed: 0,sex,region,browser,vote,code_vote,code_sex,x0_from Asia,x0_from Europe,x0_from US
0,male,from US,uses Safari,approves,0,1.0,0.0,0.0,1.0
1,female,from Europe,uses Firefox,disaproves,1,0.0,0.0,1.0,0.0
2,female,from US,uses Safari,approves,0,0.0,0.0,0.0,1.0
3,male,from Europe,uses Safari,approves,0,1.0,0.0,1.0,0.0
4,female,from US,uses Firefox,disaproves,1,0.0,0.0,0.0,1.0
5,male,from Europe,uses Chrome,disaproves,1,1.0,0.0,1.0,0.0
6,female,from Asia,uses Chrome,approves,0,0.0,1.0,0.0,0.0
7,male,from Asia,uses Chrome,approves,0,1.0,1.0,0.0,0.0


## Exemple de get_dummies

La bibliothèque *Pandas* offre elle aussi un encoder de type *OneHot* semblable à ***OneHotEncoder***, appelé ***get_dummies***. Contrairement à ce dernier, l'encoder ***get_dummies*** proposé par Pandas n'a pas besoin d'être entrainé. Il suffit de l'utiliser sur le DataFrame souhaité. 

On va donc utiliser l'encoder ***get_dummies*** pour encoder les colonnes "**region**" et "**browser**" de notre DataFrame **dfCategories**. 

Lors de la transformation, on va utiliser l'option ***drop_first=True*** afin de réduire le nombre de colonnes sur le résultat.  

In [62]:
dummies = pnd.get_dummies (dfCategories [['region', 'browser']], drop_first=True)
dummies

Unnamed: 0,region_from Europe,region_from US,browser_uses Firefox,browser_uses Safari
0,0,1,0,1
1,1,0,1,0
2,0,1,0,1
3,1,0,0,1
4,0,1,1,0
5,1,0,0,0
6,0,0,0,0
7,0,0,0,0


Une fois transformées, on peut ajouter le DataFrame obtenu à notre DataFrame **dfCategories**. 

In [66]:
dfCategories_dummies = pnd.concat ( [ dfCategories, dummies ], axis='columns' )

dfCategories_dummies

Unnamed: 0,sex,region,browser,vote,code_vote,code_sex,region_from Europe,region_from US,browser_uses Firefox,browser_uses Safari
0,male,from US,uses Safari,approves,0,1.0,0,1,0,1
1,female,from Europe,uses Firefox,disaproves,1,0.0,1,0,1,0
2,female,from US,uses Safari,approves,0,0.0,0,1,0,1
3,male,from Europe,uses Safari,approves,0,1.0,1,0,0,1
4,female,from US,uses Firefox,disaproves,1,0.0,0,1,1,0
5,male,from Europe,uses Chrome,disaproves,1,1.0,1,0,0,0
6,female,from Asia,uses Chrome,approves,0,0.0,0,0,0,0
7,male,from Asia,uses Chrome,approves,0,1.0,0,0,0,0
