De nombreux termes barbares hantent les articles liés à la Data Science et au prédictif, que ce soient des algorithmes ou des modèles, comment avoir un aperçu de ce qui les caractérise et les différencie, sans pour autant être bac+10 en statistiques ?
Réponse sur 3 modèles que j’ai le plus fréquemment rencontrés : la régression linéaire, la régression logistique et l’arbre de décisions.
Attention, cet article s’adresse à des non-matheux, d’où un langage et des explications volontairement simplifiées 😉
La régression linéaire
C’est le plus commun des modèles, car le plus simple, mais pas le moins efficace. Alors quesaco ? Déjà, pourquoi parle-t-on de régression ?
Qu’est-ce qu’une régression ?
Le terme Régression est un terme qui porte à confusion. Rien à voir avec une régression au sens diminution, voire retour à l’enfance 😉 Non c’est un terme qui signifie revenir à la source, à la définition en quelque sorte. C’est un mouvement. Lorsqu’on modélise, et c’est bien ce que l’on fait lorsqu’on veut faire du prédictif – on modélise une variable, un indicateur, une statistique pour pouvoir décliner ce modèle dans le temps et donc prévoir le comportement de ladite variable dans le futur – on part des valeurs prises par la statistique pour revenir à un modèle qui la définit, quel que soit l’instant t (si la variable dépend du temps). On revient donc à sa définition. Un peu comme notre ADN !
Qu’est-ce qu’une régression linéaire ?
Maintenant, si la régression est linéaire, cela signifie que le modèle est par hypothèse linéaire. Un modèle linéaire est un modèle de type fonction affine. Vous vous rappelez ? Ca remonte à loin ? De manière simple, cela signifie que notre variable y est fonction de x de manière linéaire (un seul niveau de x), si x est une des variables discriminantes : y = ax + b. On part donc de cette hypothèses pour définir les paramètres du modèle.
En synthèse, le modèle linéaire consiste à dire que notre variable dépend de manière assez basique des paramètres dont on dispose.
Comment définit-on les paramètres du modèle ?
Effectivement, les paramètres pourraient être multiples et variés si on ne définit pas de critères de performances. On souhaite que le modèle soit le plus proche des valeurs observées. On utilise le plus souvent pour cela la méthode des moindres carrés. Grosso modo, on mesure les écarts horizontaux et verticaux des valeurs avec la prédiction, que l’on porte au carré, puis on essaye de minimiser la somme de ces écarts :
Source : Wikipedia
La régression logistique
La régression logistique est du même principe à la différence près que la variable à prédire est qualitative. C’est-à-dire que ce n’est pas une quantité (tel du CA, des sessions …), mais des valeurs discrètes (0 ou 1, Oui ou Non, Segment de client, avec tel ou tel attribut)… En fait, il n’existe pas de relation linéaire entre la variable à prédire et ses caractéristiques puisque la variable à prédire est dichotomique. La variable à prédire est transformée en probabilité de tendre vers telle ou telle donnée.
Le graphe ci-dessous issu du site d’Azure Machine Learning explique bien le concept. Plus la vitesse relative de l’hirondelle est élevée, plus elle tend à être de type africain 🙂
L’arbre de décision
Imaginez un organigramme, où le boss serait le point de départ de l’arbre de décision, et les stagiaires seraient le résultat du modèle, en fonction des décisions prises à chaque strate de management.
Ou encore les infographies humoristiques que l’on voit fleurir de plus en plus :
Source : L’arbre de décision de la vie
Voilà, cela ressemble de manière grossière à ce principe. A chaque noeud de l’arbre, on va vérifier dans quelle mesure une variable explique notre statistique à prédire (par exemple, est-ce que le temps joue sur les ventes de glaces ? ). Cela aboutit à une modélisation prenant en compte les variables discriminantes. C’est utile lorsque les variables sont volumineuses et que le processus peut être automatisable dans le cadre de machine learning.
En conclusion
Le choix des modèles prédictifs est basé sur plusieurs critères tels que la nature des données à prédire, de leur quantité … Une bonne connaissance de ces algorithmes permet de faire un pré-tri, mais le choix final des Data Scientists ne se fera qu’après tests et calculs de performance pour définir quel modèle se prête le mieux à ce type de données !
No Comments