Microsoft SQL Server Analysis Services 2014: quels algorithmes de data mining sont disponibles?

Afin de poursuivre ma comparaison entre MS Azure Machine Learning et MS SQL Server Analysis Services 2014, je liste ci-dessous les algorithmes disponibles dans SSAS. 

Bien entendu, il reste possible d'utiliser d'autres algorithmes dès lors qu'ils sont conformes à la spécification OLE DB pour l'exploration de données ou qu'ils ont été développés par vos soins.


1/ Algorithme MDT (Microsoft Decison Trees)
L'algorithme MDT (Microsoft Decision Trees) est un algorithme de classification et de régression fourni par Microsoft SQL Server Analysis Services et utilisé pour la modélisation prédictive d'attributs discrets et continus.

2/ Algorithme MAR (Microsoft Association Rules)
L'algorithme Microsoft Association est un algorithme d'association fourni par Analysis Services qui est utile pour les moteurs de recommandation. 
Un moteur de recommandation recommande des produits aux clients en se basant sur les éléments qu'ils ont déjà achetés ou pour lesquels ils ont manifesté un intérêt.
L'algorithme Microsoft Association est utile également pour l'analyse du panier d'achat. 

3/ Algorithme MNB (Microsoft Naive Bayes)
L'algorithme MNB (Microsoft Naive Bayes) est un algorithme de classification basé sur les théorèmes de Bayes et fourni par Microsoft SQL Server Analysis Services en vue d'une utilisation pour la modélisation prédictive
Le terme Naïve dans le nom Naïve Bayes est dérivé du fait que l'algorithme utilise des techniques bayésiennes, mais ne prend pas en compte les dépendances qui peuvent exister.
https://technet.microsoft.com/fr-fr/library/ms174806%28v=sql.105%29.aspx

Utilisations possibles:
Ciblage de prospects pour mailing. L'idée est de parvenir à cibler uniquement les clients susceptible de répondre afin de réduire le coût de la campagne.

Dans le cadre d'une stratégie promotionnelle continue, le service marketing de la société Adventure Works Cycle a décidé de cibler les clients potentiels en envoyant des prospectus. 
Afin de réduire les coûts de la campagne, ils ne veulent envoyer des prospectus qu'aux clients susceptibles de répondre. La société stocke des informations dans une base de données sur des statistiques démographiques et la réponse à un publipostage antérieur. Ils souhaitent utiliser ces données pour déterminer si les statistiques démographiques, telles que l'âge et la situation géographique, peuvent permettre de prédire la réponse à une promotion, en comparant les clients potentiels aux clients existants qui présentent des caractéristiques similaires. Plus particulièrement, ils veulent déterminer les différences entre les clients ayant acheté un vélo et ceux qui n'en ont pas acheté.

En utilisant l'algorithme MNB (Microsoft Naive Bayes), le service marketing peut rapidement prédire un résultat pour un profil de client spécifique et peut ainsi déterminer quels clients sont les plus susceptibles de répondre aux prospectus. En utilisant la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes) de Business Intelligence Development Studio, le service marketing peut aussi identifier visuellement les colonnes d'entrée contribuant aux réponses positives aux prospectus.


4/ Algorithme MNN (Microsoft Neural Network)
L'algorithme MNN (Microsoft Neural Network) associe chaque état possible de l'attribut d'entrée avec chaque état possible de l'attribut prévisible, et il utilise les données d'apprentissage pour calculer les probabilités. Vous pouvez utiliser ces probabilités ultérieurement pour procéder à une classification ou à une régression ainsi que pour prédire le résultat de l'attribut prédit en fonction des attributs d'entrée.

Un modèle d'exploration de données généré avec l'algorithme MNN (Microsoft Neural Network) peut contenir plusieurs réseaux, en fonction du nombre de colonnes utilisées soit pour l'entrée et la prédiction, soit uniquement pour la prédiction. Le nombre de réseaux d'un modèle d'exploration de données dépend du nombre d'états figurant dans les colonnes d'entrée et dans les colonnes prédictibles utilisées par ce modèle d'exploration de données.


Utilisations possibles:
  • analyse de marketing et de promotion des ventes, par exemple pour mesurer le succès d'une campagne de publicité directe ou radiophonique
  • prédiction des mouvements des stocks, des fluctuations monétaires ou d'autres informations financières extrêmement inconstantes à partir des données d'historique
  • analyse de processus de fabrication et de processus industriels
  • exploration de texte.
  • tout modèle de prédiction qui analyse des relations complexes entre de nombreuses entrées et des sorties beaucoup moins nombreuses.
5/ Algorithmes MSC (Microsoft Sequence Clustering)
L'algorithme MSC (Microsoft Sequence Clustering) est un algorithme d'analyse de séquence fourni par Microsoft SQL Server Analysis Services. 
Cet algorithme vous permet d'explorer des données qui contiennent des événements qui peuvent être liés en suivant des chemins ou des séquences. L'algorithme recherche les séquences les plus communes en groupant, ou en regroupant en clusters, les séquences identiques. 

Utilisations possibles:
  • séquence de clics qui sont créées lorsque les utilisateurs parcourent un site Web.
  • journaux qui répertorient les événements précédant un incident, tels que la défaillance d'un disque dur ou le blocage d'un serveur.
  • enregistrements de transaction qui décrivent l'ordre dans lequel un client ajoute des articles dans son panier d'achat sur un site de vente en ligne.
  • enregistrements qui suivent les interactions du client (ou du patient) au fil du temps, pour prévoir les annulations de service ou d'autres résultats de qualité médiocre.

Cet algorithme est semblable à de nombreux égards à l'algorithme de gestion de clusters Microsoft. Toutefois, au lieu de rechercher des clusters de cas qui contiennent des attributs similaires, l'algorithme MSC (Microsoft Sequence Clustering) recherche des clusters de cas qui contiennent des chemins similaires dans une séquence.



6/ Algorithme MTS (Microsoft Time Series)
L'algorithme MTS (Microsoft Time Series) fournit des algorithmes de régression qui sont optimisés pour prévoir des valeurs continues, telles que les ventes de produits, dans le temps. 
Contrairement à d'autres algorithmes Microsoft, tels que les arbres de décision, un modèle de série chronologique ne nécessite pas de colonnes supplémentaires avec de nouvelles informations comme entrée pour prédire une tendance. Un modèle de série chronologique peut prédire des tendances en fonction uniquement du jeu de données d'origine utilisé pour créer le modèle. Vous pouvez également ajouter de nouvelles données au modèle lorsque vous effectuez une prédiction et les incorporer automatiquement à l'analyse de tendances.

Le diagramme suivant représente un modèle standard pour prévoir les ventes d'un produit dans quatre régions de ventes différentes dans le temps. Le modèle affiché dans le diagramme affiche des ventes pour chaque région représentée sous la forme de traits de couleur rouge, jaune, violette et bleue. Le trait de chaque région est constitué de deux parties :

Les informations sur l'historique apparaissent à gauche du trait vertical et représentent les données que l'algorithme utilise pour créer le modèle.

Les informations sur les prédictions apparaissent à droite du trait vertical et représentent les prévisions effectuées par le modèle.

La combinaison des données sources et des données de prédiction est appelée une série.
Exemple de série chronologique

Les prédictions croisées sont une fonctionnalité importante de l'algorithme MTS (Microsoft Time Series). 
Si vous effectuez l'apprentissage de l'algorithme avec deux séries distinctes mais connexes, vous pouvez utiliser le modèle résultant pour prédire le résultat d'une série en fonction du comportement de l'autre série. Par exemple, les ventes constatées d'un produit peuvent influencer les prévisions de ventes d'un autre produit. La prédiction croisée est également utile pour créer un modèle global qui peut s'appliquer à plusieurs séries. Par exemple, les prédictions pour une région particulière sont instables, car la série n'a pas de données de bonne qualité. Vous pouvez instruire un modèle global sur une moyenne de l'ensemble des quatre régions, puis appliquer le modèle aux différentes séries pour créer des prédictions plus stables pour chaque région.
7/ Clusters MicrosoftL'algorithme de gestion de clusters Microsoft est un algorithme de segmentation fourni par Analysis Services. 
L'algorithme utilise des techniques itératives pour grouper les cas d'un jeu de données en clusters contenant des caractéristiques similaires. Ces groupements sont utiles pour l'exploration des données, l'identification d'anomalies dans les données et la création de prévisions.
Les modèles de clusters identifient des relations dans un jeu de données que vous ne pourriez peut-être pas déduire d'une observation informelle. Par exemple, vous pouvez déduire logiquement que les personnes qui se rendent à leur travail en vélo n'habitent généralement pas très loin de leur travail. Toutefois, l'algorithme peut trouver d'autres caractéristiques moins évidentes sur les personnes qui se rendent à leur travail en vélo. 
Dans le diagramme ci-dessous, le cluster A représente des données sur les personnes qui se rendent généralement en voiture à leur travail, tandis que le cluster B représente des données sur les personnes qui vont généralement en vélo à leur travail.
Modèle de cluster de tendances des banlieusards
L'algorithme de clusters diffère des autres algorithmes d'exploration de données, tels que l'algorithme MDT (Microsoft Decision Trees), par le fait que vous n'avez pas à désigner de colonne prédictible pour être en mesure de 
générer un modèle de clusters. L'algorithme de clusters effectue l'apprentissage du modèle strictement à partir des relations qui existent dans les données et à partir des clusters que l'algorithme identifie.

Exemple:
Prenons l'exemple d'un groupe de personnes qui partagent des informations démographiques similaires et qui achètent des produits similaires de la société Adventure Works. Ce groupe de personnes représente un cluster de données. Plusieurs clusters de ce type peuvent exister dans une base de données. En observant les colonnes qui composent un cluster, vous pouvez voir plus clairement comment les enregistrements d'un jeu de données sont liés les uns aux autres.

8/ Algorithme MLR (Microsoft Linear Regression)
La régression logistique est une technique statistique connue utilisée pour modéliser les résultats binaires.
Il existe différentes implémentations de régression logistique dans la recherche de statistiques, qui utilisent différentes techniques d'apprentissage. L'algorithme de régression logistique de Microsoft a été implémenté en utilisant une variante de l'algorithme MNN de réseau neuronal de Microsoft. Cet algorithme partage un grand nombre des qualités des réseaux neuronaux, mais son apprentissage est plus aisé.
L'un des avantages de la régression logistique vient du fait que l'algorithme est très flexible (acceptant tout type d'entrée) et prend en charge plusieurs tâches analytiques différentes :
  • Utilisation des statistiques démographiques pour élaborer des prédictions sur les résultats, tels que le risque de contracter une certaine maladie.
  • Exploration et évaluation des facteurs qui contribuent à un résultat. Par exemple, vous pouvez rechercher les facteurs qui influencent les clients à se rendre plusieurs fois dans un magasin.
  • Classification de documents, messages électroniques ou autres objets ayant de nombreux attributs.
https://msdn.microsoft.com/fr-fr/library/ms174828.aspx
Exemple: Considérez un groupe de personnes qui partagent des informations démographiques similaires et qui achètent des produits de la société Adventure Works. En modélisant les données à lier à un résultat spécifique, tel que l'achat d'un produit cible, vous pouvez voir comment les informations démographiques contribuent à la probabilité de l’achat du produit cible.

Fonctionnement de l'algorithme
La régression logistique est une méthode statistique connue qui permet de déterminer la contribution de plusieurs facteurs à une paire de résultats. L'implémentation Microsoft utilise un réseau neuronal modifié pour modéliser les relations entre les entrées et les sorties. 
L'effet de chaque entrée sur la sortie est mesuré, et les diverses entrées sont pondérées dans le modèle fini. 
Le nom de régression logistique vient du fait que la courbe de données est compressée par une transformation logistique afin de réduire l'effet des valeurs extrêmes

9/ Algorithme MLR (Microsoft Logistic Regression)
La régression logistique est une technique statistique connue utilisée pour modéliser les résultats binaires.

Il existe différentes implémentations de régression logistique dans la recherche de statistiques, qui utilisent différentes techniques d'apprentissage. L'algorithme de régression logistique de Microsoft a été implémenté en utilisant une variante de l'algorithme MNN de réseau neuronal de Microsoft. Cet algorithme partage un grand nombre des qualités des réseaux neuronaux, mais son apprentissage est plus aisé.

L'un des avantages de la régression logistique vient du fait que l'algorithme est très flexible (acceptant tout type d'entrée) et prend en charge plusieurs tâches analytiques différentes :
  • Utilisation des statistiques démographiques pour élaborer des prédictions sur les résultats, tels que le risque de contracter une certaine maladie.
  • Exploration et évaluation des facteurs qui contribuent à un résultat. Par exemple, vous pouvez rechercher les facteurs qui influencent les clients à se rendre plusieurs fois dans un magasin.
  • Classification de documents, messages électroniques ou autres objets ayant de nombreux attributs.

Exemple:
Considérez un groupe de personnes qui partagent des informations démographiques similaires et qui achètent des produits de la société Adventure Works. En modélisant les données à lier à un résultat spécifique, tel que l'achat d'un produit cible, vous pouvez voir comment les informations démographiques contribuent à la probabilité de l’achat du produit cible.

Fonctionnement de l'algorithme
La régression logistique est une méthode statistique connue qui permet de déterminer la contribution de plusieurs facteurs à une paire de résultats.L'implémentation Microsoft utilise un réseau neuronal modifié pour modéliser les relations entre les entrées et les sorties. L'effet de chaque entrée sur la sortie est mesuré, et les diverses entrées sont pondérées dans le modèle fini. Le nom de régression logistique vient du fait que la courbe de données est compressée par une transformation logistique afin de réduire l'effet des valeurs extrêmes. 









Comments