Browsing Category

Définitions

Cette catégorie reprend l’ensemble des définitions utiles à un Data Scientist

Définitions

Machine Learning vs Human Decision Making (Similarités et Différences):

Nous entendons tous parler du terme « Machine Learning », qui peut se décomposer en trois grandes catégories :

L’apprentissage supervisé
L’apprentissage non supervisé
L’apprentissage par renforcement

En apprentissage supervisé, un programme informatique reçoit un ensemble de données qui est étiqueté avec des valeurs de sorties correspondantes, ainsi on pourra alors « s’entrainer » sur ce modèle et une fonction sera déterminée. Cette fonction, ou algorithme pourra par la suite être utilisé sur de nouvelles données afin de prédire leurs valeurs de sorties correspondantes. C’est le cas par exemple de la Régression Linéaire, des Arbres de décisions, SVM (Support Vector Machine)…

En voici une illustration :

Pour l’Homme, il s’agit du même principe. De par son expérience, il va mémoriser une grande quantité d’informations et face à une situation, il va pouvoir se remémorer une situation similaire et émettre une conclusion.

Dans l’apprentissage non-supervisé, l’ensemble des données n’a pas de valeurs de sorties spécifiques. Puisqu’il n’y a pas de bonnes réponses à tirer, l’objectif de l’algorithme est donc de trouver lui-même tous les modèles intéressants à partir des données. Certains des exemples bien connus d’apprentissage non supervisé comprennent les algorithmes de Clustering comme KMeans, DB-Scan et de réduction de dimension comme l’ACP (Analyse en Composantes Principales) et les réseaux de neurones.

Chez l’Homme, le principe est le même, certains critères vous nous permettre de différencier ce que se présente sous yeux et donc de déterminer différentes classes.

Dans l’apprentissage par renforcement, les « bonnes réponses » contiennent des récompenses, que l’algorithme doit maximiser en choisissant les actions à prendre.

Essentiellement, l’apprentissage par renforcement consiste à trouver le bon équilibre entre l’exploration et l’exploitation, ou l’exploration ouvre la possibilité de trouver des récompenses plus élevées, ou risque de n’obtenir aucunes récompenses. Les jeux tels que les Dames sont basés sur ce principe.

Le psychologue BF Skinner (1938), a observé le même résultat au cours d’une expérience sur les rats ou un levier offrait une récompense tandis qu’un autre administrait un choc. Le constat est simple, la punition a entrainé une diminution de la pression du levier de choc.

En comparant le Machine Learning à l’apprentissage d’un Humain, on observe donc beaucoup de similitude mais évidemment, il existe encore des différences fondamentales entre les deux :

Bien que les algorithmes d’apprentissage supervisé fournissent un aperçu complet de l’environnement, ils nécessitent une grande quantité de données pour que le modèle soit construit, ce qui peut être un peu lourd en termes de calculs.

A l’inverse, l’Homme a besoin de beaucoup moins de données pour être capable de faire des prédictions notamment en extrapolant les concepts qu’il a en mémoire. Le Machine Learning lui ne pourra pas le faire car les programmes n’interprètent pas des concepts mais des données.

Un autre problème survient quand on parle de sur-apprentissage ou « Overfitting » en anglais, qui se produit lorsque les données d’apprentissage utilisées pour construire un modèle expliquent très voire « trop » bien les données mais ne parviennent pas à faire des prédictions utiles pour de nouvelles données. L’Homme aura donc plus de flexibilité dans son raisonnement alors que les algorithmes de Machine Learning seront eux plus rigides.

En conclusion, le Machine Learning a souvent été comparé au raisonnement Humain, même si les deux ne sont pas exactement les mêmes.

Chez l’Homme, l’apprentissage a été façonné par des processus évolutifs pour devenir ce qu’il est aujourd’hui. Bien que de nombreuses théories ont tenté de d’expliquer ses mécanismes, sa nature dynamique conduit à dire que différentes stratégies peuvent être utilisées simultanément ou séparément, selon la situation. Il est donc difficile de le comparer au Machine Learning. Après tout, le Machine Learning a été programme par les humains… ainsi, de nouveaux concepts verront le jour pour pouvoir sans cesse améliorer nos algorithmes d’apprentissage qui sont déjà très efficace pour la prise de décision sur de large bases de données. Une Machine dotée d’une conscience ne verra sans doute jamais le jour, mais d’ici peu, la capacité de prise de décision des automates supplantera celle des humains dans quasiment tous les domaines

by Aurelia F

Définitions

Il y a CDO et CDO !

Dans le digital, la mode est de plus en plus aux acronymes, si possible en anglais et qui claquent. Notamment ce qu’on appelle les C-levels…

Ca ne vous parle pas ?

by Marjolaine Baratte

Définitions

Aperçu – simple ! – des principaux modèles prédictifs

De nombreux termes barbares hantent les articles liés à la Data Science et au prédictif, que ce soient des algorithmes ou des modèles, comment avoir un aperçu de ce qui les caractérise et les différencie, sans pour autant être bac+10 en statistiques ?

Réponse sur 3 modèles que j’ai le plus fréquemment rencontrés : la régression linéaire, la régression logistique et l’arbre de décisions.

Attention, cet article s’adresse à des non-matheux, d’où un langage et des explications volontairement simplifiées 😉

by Marjolaine Baratte

Définitions

Les Data Scientists sont-ils tous des amateurs de photo?

Voici un post un peu plus léger. Mais qui part d’une véritable interrogation!

En effet, depuis que je m’intéresse au sujet du métier de Data Scientist et du monde des Big Data, je rencontre pas mal de monde, et souvent, souvent je me rends compte que ces personnes sont amateurs de photographie.

Mais pourquoi donc?

by Marjolaine Baratte

Définitions

R ou Python: Comment choisir ?

On me pose souvent la question: pourquoi avoir commencé à apprendre Python plutôt que R?

A la base, je n’ai pas de réponse, si ce n’est le hasard, puisque j’ai commencé à apprendre Python grâce à Codecademy. Et il semblerait que ce soit difficile d’apprendre les deux en parallèle…

Mais les deux s’opposent-ils vraiment? Choisir, c’est renoncer, alors à quoi devons-nous renoncer exactement?

by Marjolaine Baratte

illustration abstraite du machine learning

Définitions

Qu’est-ce que le Machine Learning ?

Comment définir le Machine learning ?

Le Machine learning est un type d’intelligence artificielle (IA) qui permet aux ordinateurs d’apprendre sans être explicitement programmés. Il se concentre sur le développement de programmes informatiques qui peuvent changer lorsqu’ils sont exposés à de nouvelles données.
Le processus d’apprentissage automatique est similaire à celui de l’exploration de données. Les deux systèmes recherchent dans les données pour trouver des modèles. Cependant, au lieu d’extraire les données pour la compréhension humaine, le Machine learning utilise ces données pour détecter des modèles dans ces données et ajuster les actions du programme en conséquence. Par exemple, Facebook utilise l’apprentissage automatique pour ajuster chaque contenu en fonction du profil d’un utilisateur.

by Marjolaine Baratte

Définitions

La genèse du métier de Data Scientist

D’où vient le métier du Data Scientist? Il fait partie des métiers à avoir vu le jour récemment, et le nombre de profils LinkedIn contenant le mot-clé DataScientist a été multiplié par 30 sur ce laps de temps (cf. infographie)!

by Marjolaine Baratte

Définitions

Les technologies du web à connaître

Abordons un peu de technique maintenant: Qui contrôle les normes du Web, qu’est-ce qu’une architecture 3-tiers, qu’est-ce qu’un hub…? Vous séchez?

Voici une infographie que j’ai produite pour mettre en images (et en couleurs!) les notions quelque peu barbares pour les novices à propos des technologies du web.

by Marjolaine Baratte

Définitions

Le vocabulaire du Data Scientist pour les nuls

Voici les principaux éléments de vocabulaire et acronymes à connaître autour de la Data Science et du Big data (cf. sourcing des définitions à la fin du post).

Avec quelques explications vulgarisées selon ma compréhension et des schémas qui me semblent parlants.

N’hésitez pas à ajouter des commentaires, ce post est évolutif!

by Marjolaine Baratte

Définitions

Data Scientist, Data Analyst et autres définitions

Qui dit nouveau métier, dit nouveau vocabulaire!

L’objectif de ce post est de lister un panel représentatif des dénominations de métiers trouvées (sans pour autant aborder les qualités requises ainsi que les responsabilités, qui feront l’objet de posts ultérieurs!) pour tenter d’y voir un peu plus clair.

Au fond, l’équation Data Scientist = Data Analyst = Dataminer = Data Architect … est-elle vérifiée?

by Marjolaine Baratte

Newer Posts