# Exemple Normalisation

Il est souvent nécessaire de normaliser les données, avant d'éviter des écarts trop importants entre les valeurs des *features* qui peuvent impacter certains algorithmes, notamment ceux basés sur les calculs des distances,  comme la Régression Lineaire ou le K-Means. 

Les Scalers permettent de réaliser cette normalisation. 

Pour les tester, on va utiliser le dataset *"teleCust1000t.csv"*, utilisé par IBM dans sa formation *"Machine Learning with Python"*. Ce fichier contient plusieurs informations sur des clients d'une compagnie Telecom, dont notamment une indication sur la région et l'adresse d'habitation du client, ainsi que le nombre de résidents (*region, address, reside*), son état civil avec son âge, genre et si marié ou pas (*age, gender, marital*), s'il est employé ou retraité (*employ, retire*) et ses revenus moyens (*income*). La colonne *"custcat"* représente la catégorie du client. 



In [1]:
import pandas as pnd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.pipeline import Pipeline

## Lecture des données

In [2]:
df_cust = pnd.read_csv('./files/teleCust1000t.csv', delimiter=',', header=[0])

df_cust.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   region   1000 non-null   int64  
 1   tenure   1000 non-null   int64  
 2   age      1000 non-null   int64  
 3   marital  1000 non-null   int64  
 4   address  1000 non-null   int64  
 5   income   1000 non-null   float64
 6   ed       1000 non-null   int64  
 7   employ   1000 non-null   int64  
 8   retire   1000 non-null   float64
 9   gender   1000 non-null   int64  
 10  reside   1000 non-null   int64  
 11  custcat  1000 non-null   int64  
dtypes: float64(2), int64(10)
memory usage: 93.9 KB


La méthode ***describe*** nous montre un grand écart entre les valeurs de la colonne ***income***, dont les valeurs peuvent monter à *1668,00* et les autres colonnes, dont la valeur max est *77,00*.  

In [3]:
df_cust.describe()

Unnamed: 0,region,tenure,age,marital,address,income,ed,employ,retire,gender,reside,custcat
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,2.022,35.526,41.684,0.495,11.551,77.535,2.671,10.987,0.047,0.517,2.331,2.487
std,0.8162,21.359812,12.558816,0.500225,10.086681,107.044165,1.222397,10.082087,0.211745,0.499961,1.435793,1.120306
min,1.0,1.0,18.0,0.0,0.0,9.0,1.0,0.0,0.0,0.0,1.0,1.0
25%,1.0,17.0,32.0,0.0,3.0,29.0,2.0,3.0,0.0,0.0,1.0,1.0
50%,2.0,34.0,40.0,0.0,9.0,47.0,3.0,8.0,0.0,1.0,2.0,3.0
75%,3.0,54.0,51.0,1.0,18.0,83.0,4.0,17.0,0.0,1.0,3.0,3.0
max,3.0,72.0,77.0,1.0,55.0,1668.0,5.0,47.0,1.0,1.0,8.0,4.0


## Séparation des données en train et test
 
On va essayer de normaliser ces valeurs pour pouvoir les utiliser dans un algoritme de Regression Lineaire.  

Avant de normaliser les données, on va les séparer en test et train, X et Y, pour la prédiction. 

In [4]:
df_train, df_test = train_test_split (df_cust, test_size=0.3)

x_train = df_train.drop(columns=['custcat'])
y_train = df_train['custcat']

x_test = df_test.drop(columns=['custcat'])
y_test = df_test['custcat']

x_train.head()

Unnamed: 0,region,tenure,age,marital,address,income,ed,employ,retire,gender,reside
412,2,10,34,0,1,52.0,5,3,0.0,1,1
496,3,18,31,1,12,24.0,3,4,0.0,0,4
204,1,38,31,1,7,187.0,4,6,0.0,0,3
94,3,3,20,1,1,17.0,2,0,0.0,1,4
447,1,64,39,0,5,37.0,1,9,0.0,0,1


## Normalisation des données

In [5]:
# création de l'object Scaler
scaler = StandardScaler()

# entrainement avec les données d'entrainement
x_train_scal = scaler.fit_transform(x_train)

# et on l'applique aux données de teste
x_test_scal = scaler.transform(x_test)

# attention : fit_transform retourne un n-array (numpy array), pas un DataFrame (pandas) 
print(x_test_scal[:10])

[[ 1.1743368   1.23396465  1.67315293 -0.94711085  3.08289229  2.42818846
  -0.55227248  1.8758309  -0.22941573 -1.03785902 -0.90054049]
 [-1.28316921  0.49025243  0.48531617  1.05584261  0.02466314  1.64725588
   0.28631914  1.38404002 -0.22941573 -1.03785902  2.60156141]
 [ 1.1743368   1.23396465 -0.54414237  1.05584261 -0.96186239 -0.44748093
  -0.55227248 -0.28804894 -0.22941573  0.96352201 -0.20012011]
 [ 1.1743368  -0.20697776 -1.49441178  1.05584261 -1.06051495 -0.41991861
   0.28631914 -0.97655616 -0.22941573  0.96352201 -0.20012011]
 [-0.0544162   0.25784237  0.24774881 -0.94711085  0.22196824 -0.47504326
   0.28631914 -0.48476529 -0.22941573 -1.03785902 -0.90054049]
 [-1.28316921 -0.3464238  -0.7025206   1.05584261 -0.86320984 -0.57610512
   1.12491075 -0.97655616 -0.22941573 -1.03785902  0.50030027]
 [-1.28316921 -0.06753172  0.80207264  1.05584261 -0.96186239  0.26913956
  -0.55227248  0.79389098 -0.22941573 -1.03785902 -0.20012011]
 [-1.28316921 -0.02104971  0.6436944   1.

## Utilisation des données normalisées

Maintenant que les données sont normalisées, on peut les utiliser dans nos algorithmes. 

On va donc créer et entrainer un modèle de Regression Lineaire. 

In [6]:
model = LinearRegression()

model.fit(x_train_scal, y_train)

print(model.intercept_)
print(model.coef_)

2.474285714285714
[-0.00067246  0.17280098 -0.04394376  0.00124272  0.01820135  0.01685316
  0.22248398  0.09246935  0.01215862 -0.01727644  0.08185126]


Puis, on va tester notre modèle. 

In [7]:
y_pred = model.predict(x_test_scal)

from sklearn.metrics import mean_squared_error, explained_variance_score
from math import sqrt

mse = mean_squared_error(y_test, y_pred)
rmse = sqrt(mse)

expvar = explained_variance_score(y_test, y_pred)

print ('RMSE={0:.3f} \t MSE={1:.3f} '.format(rmse, mse) )
print ('Explained Variance={:.3f}'.format(expvar) )

RMSE=1.033 	 MSE=1.067 
Explained Variance=0.133


# Pipeline et Normalisation 

Comme on a pu voir dans l'exemple précédent, avant chaque ***fit*** ou ***predict***, on va devoir transformer les données. On peut donc construire un **pipeline de normalisation** avec le ***scaler*** et le modèle choisi. 

Un **pipeline** est comme un "tube" où on va enchainer des opérations sur les données : la sortie d'une opération est transmise à l'opération suivante. Ici, la sortie du ***fit*** du ***scaler*** sera transmise au ***fit*** du modèle. Idem pour le ***predict*** (qui enchaine ***transform*** et ***predict***). 

On va illustrer ce mode d'opération avec un autre type de *scaler*, le scaler ***MinMaxScaler***. 


## Création du pipeline

Pour créer un pipeline, on va d'abord créer les objets qui le composent, à savoir le scaler et le modèle. 

In [14]:
# création de l'object Scaler
scalermm = MinMaxScaler(feature_range=(0,1))

# création du modèle
linear = LinearRegression()

# créatin du pipeline
pipeline = Pipeline ( [ ('minmax', scalermm), 
                        ('linear', linear)])

pipeline

Pipeline(steps=[('minmax', MinMaxScaler()), ('linear', LinearRegression())])

## Usage du pipeline

Maintenant, on peut lancer le ***fit*** et le ***predict*** à la fois sur le scaler et le modèle, à traver le pipeline.   

In [15]:
pipeline.fit(x_train, y_train)
y_pred_pipe = pipeline.predict(x_test)

print ('RMSE={0:.3f}'.format(sqrt(mean_squared_error(y_test, y_pred_pipe))) )
print ('Explained Variance={:.3f}'.format(explained_variance_score(y_test, y_pred_pipe)) )

RMSE=1.033
Explained Variance=0.133
