Le Machine Learning et Data Mining par Microsoft: par où commencer?

Le machine learning et le data mining selon Microsoft: par où commencer? 


Je vous fais profiter ici de mon retour d'expérience des solutions Microsoft de Machine Learning et Data Mining en qualité de Data Scientist habitué à utiliser R et R Studio. 

R Studio et R sont les outils communément utilisés par les statisticiens et data scientists mais nécessitent un apprentissage plus ou moins long pour les prendre en main et l'interprétation des résultats par des non statisticiens n'est pas évidente. 
Idem pour SAS, STATA, SPSS etc. 

Cet article va donc vous expliquer par où commencer pour tester par vous même les outils de Machine Learning / Data Mining proposés par Microsoft et mesurer leurs intérêts en terme de productivité. 

Microsoft publie un site dédié à la découverte de cette solution
http://gallery.azureml.net/



Azure Machine Learning propose les méthodes statistiques et des algorithmes améliorées sous forme packagées ergonomiques à utiliser. Plus besoin d'entrer des lignes de commandes à la syntaxe complexe. Tout se fait en mode graphique. 

Les solutions proposées permettent notamment de faire de la classification et de la prédiction. Plus d'infos ici: https://msdn.microsoft.com/library/azure/6d9e2516-1343-4859-a3dc-9673ccec9edc


Découvrir les solutions à travers des démonstrations et des exemples:

  • Se connecter avec votre compte Microsoft à la plateforme Azure Machine Learning
https://studio.azureml.net/


  • Sélectionner une des démonstrations proposées. Je prends dans mon exemple celle relative à la prédiction de la qualité du vin.




  • Au chargement nous voyons sous forme graphique toutes les étapes nécessaires à la réalisation de cette analyse. 
  • La première étape de l'analyse consiste à charger les données. Un fichier CSV contient dans cette exemple les données. 
  • Un clique droit permet de les récupérer pour les visualiser.
  • Chaque "boîte" décrit un traitement appliquée aux données. C'est là que la connaissance en data mining / statistiques s'avère nécessaire. Déterminer quelle nettoyage effectuée sur quelles données, quels formats de données peuvent ou non être utilisés, quelles sont les variables explicatives, sont-elles qualitatives ou quantitatives etc. 
  • Je ne rentre pas dans les détails aujourd'hui car l'objectif est la présentation de MS Azure Machine Learning. 
  • On voit dans cet exemple qu'il est possible d'exécuter un script R directement dans Azure ML.

  • Un clic sur le bouton "Run" permet de lancer le modèle. L'idée est d'utiliser des données de training pour déterminer un modèle statistique permettant de prédire en fonctions de variables - de critères - la qualité du vin.
  • Une fois ce modèle élaboré, il sera testé avec les données de Scoring. 






Comments