Aller au contenu
MLOps medium

Data science : définition, disciplines et métiers

8 min de lecture

La data science (ou science des données) est la discipline qui extrait de la connaissance et de la valeur à partir de données, en combinant statistiques, machine learning et ingénierie informatique. Son but : transformer des données brutes en décisions et en prédictions utiles.

Ce guide donne la définition de la data science, la distingue du machine learning, de l'IA et du big data, détaille ses disciplines, son cycle de vie, ses métiers et ses outils. Public : débutants qui veulent comprendre le domaine avant de s'y plonger.

  • Définir la data science et ce qu'elle recouvre.
  • Distinguer data science, machine learning, IA et big data.
  • Identifier les disciplines qui la composent.
  • Suivre le cycle de vie d'un projet data science.
  • Situer les métiers et les outils du domaine.

La data science est un domaine à l'intersection des mathématiques, de l'informatique et d'une expertise métier. Elle répond à des questions concrètes à partir de données : quels clients risquent de partir, quel sera le chiffre d'affaires du trimestre, quelles transactions sont frauduleuses.

Elle ne se limite pas à entraîner des modèles. Une grande partie du travail consiste à collecter, nettoyer et comprendre les données, puis à communiquer les résultats de façon actionnable. Le machine learning n'est qu'une étape de ce processus plus large.

Ces termes sont souvent employés comme synonymes alors qu'ils désignent des choses différentes. Voici comment les situer :

TermeCe que c'estRelation
Data scienceExtraire de la valeur des donnéesLa discipline englobante
Machine learningApprendre des règles à partir de donnéesUn outil de la data science
Intelligence artificielleImiter une capacité humaineLe domaine où s'inscrit le ML
Big dataGérer des données très volumineusesUn contexte technique des données

La distinction la plus utile est data science contre machine learning : le machine learning est une technique (faire apprendre un modèle), tandis que la data science est une démarche complète qui va de la question métier jusqu'à la décision, et qui utilise le ML parmi d'autres méthodes (statistiques, visualisation, requêtes).

La data science est par nature pluridisciplinaire. Un projet mobilise plusieurs savoir-faire, rarement réunis chez une seule personne.

  • Statistiques et mathématiques : comprendre les distributions, tester des hypothèses, quantifier l'incertitude.
  • Machine learning : construire des modèles prédictifs à partir des données.
  • Data engineering : collecter, stocker et industrialiser les flux de données (pipelines, bases, big data).
  • Visualisation et communication : rendre les résultats lisibles et actionnables pour des décideurs.
  • Expertise métier : poser les bonnes questions et interpréter les résultats dans leur contexte.

Un projet suit un enchaînement d'étapes bien établi, souvent appelé CRISP-DM. Il est itératif : on revient en arrière dès qu'une étape révèle un problème.

  1. Comprendre le besoin : traduire une question métier en problème analysable.

  2. Collecter les données : rassembler les sources pertinentes, internes et externes.

  3. Préparer les données : nettoyer, corriger, transformer. L'étape la plus chronophage, souvent 80 % du temps.

  4. Modéliser : entraîner des modèles de machine learning ou appliquer des méthodes statistiques.

  5. Évaluer : mesurer la performance et vérifier que le résultat répond au besoin métier.

  6. Déployer et suivre : mettre le modèle en production et le surveiller, ce qui relève du MLOps.

Le domaine s'est spécialisé en plusieurs rôles complémentaires. Les frontières varient d'une entreprise à l'autre, mais la répartition classique est la suivante :

MétierRôle principal
Data analystAnalyser et visualiser les données pour éclairer les décisions
Data scientistConstruire des modèles prédictifs et mener l'analyse avancée
Data engineerBâtir et maintenir les pipelines et l'infrastructure de données
ML engineerIndustrialiser et déployer les modèles en production

Ces métiers travaillent en chaîne : le data engineer prépare le terrain, le data scientist et l'analyst en tirent des enseignements, le ML engineer met les modèles en production.

L'écosystème est dominé par Python et son riche ensemble de bibliothèques. Pour débuter, un socle réduit suffit :

  • Python, pandas et NumPy pour manipuler les données.
  • scikit-learn pour le machine learning classique.
  • Jupyter pour explorer et documenter les analyses de façon interactive.
  • matplotlib et seaborn pour la visualisation.

La data science est la discipline qui extrait de la valeur des données en combinant statistiques, machine learning et ingénierie, pour transformer des données brutes en décisions et en prédictions.

Quelle différence entre data science et machine learning ?

Section intitulée « Quelle différence entre data science et machine learning ? »

Le machine learning est une technique (faire apprendre un modèle). La data science est une démarche complète, de la question métier à la décision, qui utilise le machine learning parmi d'autres méthodes.

Principalement le data analyst (analyse et visualisation), le data scientist (modèles prédictifs), le data engineer (pipelines de données) et le ML engineer (mise en production des modèles).

Python avec pandas, NumPy, scikit-learn et Jupyter forment le socle. Ils couvrent la manipulation, la modélisation et l'exploration des données.

  1. La data science extrait de la valeur des données en combinant statistiques, machine learning et ingénierie.
  2. Le machine learning en est un outil, pas un synonyme : la data science est la démarche englobante.
  3. Cinq disciplines : statistiques, ML, data engineering, visualisation, expertise métier.
  4. Un cycle en 6 étapes (CRISP-DM), dont la préparation des données occupe le plus clair du temps.
  5. Quatre métiers clés : data analyst, data scientist, data engineer, ML engineer.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracking. Un soutien, même symbolique, m'aide à couvrir l'hébergement et à garder ces ressources gratuites. Merci pour votre appui.

Le formulaire ne s'affiche pas ? Ouvrir Ko-fi dans un onglet.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn