Reprenons l'exemple fournit par Microsoft nommé "Predict Wine Quality - Classification".
Cet exemple montre comment à partir d'un ensemble de données fournies en entrée - cela s'appelle en data mining / statistiques des variables - les outils statistiques permettent d'élaborer un modèle pour prédire la qualité du vin.
Pour comprendre les différences entre classification et prédiction
http://www.tutorialspoint.com/data_mining/dm_classification_prediction.htm
Observons les données en entrée
Les données sont exportables en faisant un clic droit puis download. On obtient alors un dataset.
Autre méthode, on va directement chercher le fichier .CSV à l'URL visible dans la boîte "Saved dataset"
http://archive.ics.uci.edu/ml/machine-learning-databases/
On ouvre alors les données avec Excel ou autre
Cet exemple montre comment à partir d'un ensemble de données fournies en entrée - cela s'appelle en data mining / statistiques des variables - les outils statistiques permettent d'élaborer un modèle pour prédire la qualité du vin.
Pour comprendre les différences entre classification et prédiction
http://www.tutorialspoint.com/data_mining/dm_classification_prediction.htm
Observons les données en entrée
Les données sont exportables en faisant un clic droit puis download. On obtient alors un dataset.
Autre méthode, on va directement chercher le fichier .CSV à l'URL visible dans la boîte "Saved dataset"
http://archive.ics.uci.edu/ml/machine-learning-databases/
On ouvre alors les données avec Excel ou autre
Nous avons en entrée les variables suivantes:
fixed acidity
volatile acidity
citric acid
residual sugar
chlorides
free sulfur
dioxide total
sulfur dioxide
density pH
sulphates
alcohol quality
Toutes ces données sont des variables certaines quantitiatives et d'autres qualitatives.
Le jeu va consister à tenter de déterminer quelles variables permettent de prédire la qualité du vin.
La variable à prédire sera "alcohol quality".
Microsoft avec Azure Machine Learning a packagé sous forme d'algorithmes les modèles statistiques permettant de faire de la prédiction (entre autres).
Dans notre exemple, nous voulons déterminer la qualité d'un vin en fonction de variables telles que l'acidité, le taux de sucre, les sulfures etc.
Nous allons donc utiliser successivement plusieurs modèles statistiques et les comparer afin de déterminer celui qui permet de mieux déterminer si un vin est bon ou mauvais.
Premier essai avec le "Two class perceptron model"
Quelques informations pour comprendre de quoi il s'agit.
https://msdn.microsoft.com/library/azure/5ed44caa-5360-407d-ae6c-7a88c491474a
Une fois le modèle testé et scoré, on obtient les résultats en cliquant sur la boîte "Evaluate Model".
Interprétation des résultats:
Sur 1819 bons vins, il s’est trompé 410 fois et sur les 630 mauvais vins il s’est trompé 218 fois.
Essayons maintenant avec un autre classifier.
Le classifier "Two-Class Boosted Decision Tree" donne de meilleures résultats.
Les résultats sont maintenant meilleurs: dans 84.8% des cas le bons vins est reconnus.
Une fois le bon modèle déterminé, il suffit de cliquer sur la boîte "Score Model" du modèle retenu et de cliquer sur "CREATE SCORING EXPERIMENT"
Un nouvel onglet est alors créé par AZURE ML.
L'idée est ici de pouvoir créer un web service à partir d'un "scoring experiment".
Je vous renvoie vers cet article de MS pour tous les détails.
Bonne lecture Xavier