Comment définir l’analyse prédictive ?
Les analyses prédictives se dirigent vers les probabilités et ne sont pas centrées sur l’idée de l’absolu. Contrairement aux analyses traditionnelles, ce type d’analyse ne permet pas de savoir à l’avance quelle donnée est importante. Elles permettent davantage de déterminer quelle donnée peut prédire le résultat attendu par l’entreprise.
Monsieur Bastien L. propose un exemple révélateur : « Un représentant des ventes cherchant un profil type sur une plateforme CRM comme Salesforce.com. Imaginons que l’affirmation est que ce profil achètera le produit de l’entreprise. Les autres affirmations sont que les variables sont le coût du produit, le rôle de ce profil au sein du business, et le ratio de profitabilité actuel de l’entreprise. En plaçant ces différentes variables dans une équation de régression, on obtient un modèle prédictif à partir duquel extrapoler une stratégie efficace pour vendre un produit aux bons profils ». Cet aperçu illustre en effet l’intérêt de l’analyse prédictive, elle permet de mieux gérer la stratégie de l’entreprise afin de rester en tête de la compétition.
Également, les analyses prédictives utilisent de plus en plus le Data Mining et le Machine Learning. Le Data Mining examine de larges ensembles de données dans le but de découvrir des patterns et de nouvelles informations. Les innovations dans le domaine du Machine Learning comme les réseaux de neurones ou les algorithmes de deep learning permettent quant à elles de traiter les ensembles de données non structurées plus vite qu’un Data Scientist traditionnel avec une précision supérieure à mesure que les algorithmes s’améliorent. On retrouve ces fonctionnalités sur des outils comme IBM Watson, Google TensorFlow ou Microsoft CNTK.
Quelles sont les différentes régressions que l’on peut constater dans une analyse prédictive ?
En effet, trois types de régressions seront présentés :
- La régression linéaire : Cette régression va déterminer la relation entre la variable à expliquer, aussi appelée variable à régresser, variable réponse ou variable dépendante, et la variable explicative, ou variable indépendante, dite régresseur. Si la variable à expliquer renvoie au niveau de tension artérielle, la variable explicative pourra être l’âge. Ainsi, nous parlons d’une éventuelle équation qui prédit les valeurs de la variable explicative comme une combinaison linéaire entre la variable explicative et à la variable à expliquer, les paramètres étant ajustés de façon à optimiser l’estimation et à minimiser la somme des résidus au carré.
- Logistique : Ce modèle propose la variable à expliquer ou variable dépendante qui renvoie à un nombre fini de valeurs (données dites discrètes) là où dans un modèle linéaire la variable est continue.
- Multinomial : Le modèle de régression logistique est dit multinomial lorsque la régression logistique s’applique donc pour la classification binaire ou la classification multi-classes.
Énumération des trois types d’analyse de données
En effet, à ce jour, nous connaissons trois catégories d’analyse de données : descriptive, prédictive et prescriptive.
- La descriptive s’appuie sur le data mining et l’agrégation de données historiques pour répondre à la question suivante : « Que s’est-il passé ? » L’analyse descriptive s’apparente essentiellement à la statistique : elle donne des informations sans analyse ni éclairage spécifique.
- L’analyse prédictive se réfère aux motifs que l’on retrouve dans les données précédentes et qui permet de répondre à la question suivante : « Que pourrait-il se passer ensuite ? »
- Celle que l’on appelle prescriptive est, en effet, un terme nouveau. Elle décrit une analyse conçue pour répondre à la question : « Que devons-nous faire ? » L’analyse prescriptive ne donne pas seulement une prédiction ou une prévision, elle produit également des recommandations sur la meilleure marche à suivre.
Après la lecture de cet article, pensez-vous que l’analyse prédictive est nécessaire au bon fonctionnement de l’entreprise ?