Extreme Gradient Boosting or XGBoost: une introduction

Il existe actuellement beaucoup de modèles pour le machine learning. Les plus connus sont:
- la régression linéaire / logistique
- k-nearest neighbours
- support vector machines
- tree based model (decision trees, random forest, gradient boosting machine)
- réseaux de neurones (neural networks)

XGBoost est une raccourci pour désigner le modèle eXtreme Gradient Boosting. Il s'agit d'un outil open source disponible sous R, Python, Julia. C'est une variante du Gradient Boosting Machine.
Ce modèle a été utilisé par beaucoup de gagnants de compétitions Kaggle.

XGBoost est hébergé sur GitHub.
Ce modèle est largement utilisé sur Kaggle car il est facile à installer et disponible sous R et Python.
Il est efficace et permet un traitement en parallèle sur une seule machine ou sur un cluster.
Il est précis et donne de bons résultats pour bon nombre de jeux de données.

Quelques exemples de concours Kaggle gagnés avec ce modèle:
Marios Michailidis, Mathias Müller and HJ van Veen, 1st place of the Dato Truely Native? competition.
Vlad Mironov, Alexander Guschin, 1st place of the CERN LHCb experiment Flavour of Physics competition.
Josef Slavicek, 3rd place of the CERN LHCb experiment Flavour of Physics competition.
Mario Filho, Josef Feigl, Lucas, Gilberto, 1st place of the Caterpillar Tube Pricing competition.
Qingchen Wang, 1st place of the Liberty Mutual Property Inspection. Link to the Kaggle interview.
Chenglong Chen, 1st place of the Crowdflower Search Results Relevance. Link to the winning solution.
Alexandre Barachant (“Cat”) and Rafał Cycoń (“Dog”), 1st place of the Grasp-and-Lift EEG Detection.
Halla Yang, 2nd place of the Recruit Coupon Purchase Prediction Challenge.
Owen Zhang, 1st place of the Avito Context Ad Clicks competition.
Keiichi Kuroyanagi, 2nd place of the Airbnb New User Bookings.
Marios Michailidis, Mathias Müller and Ning Situ, 1st place Homesite Quote Conversion.

Un bon tutoriel est disponible ici.http://xgboost.readthedocs.io/en/latest/model.html
et ici https://www.r-bloggers.com/an-introduction-to-xgboost-r-package/






Comments