Formation métier : Data Scientist

La mission d'un data scientist ou data miner consiste à valoriser et exploiter les données afin de répondre à une problématique métier.  Son rôle consiste à manipuler, explorer et analyser les données pour en extraire la connaissance clef pour la réussite de l'entreprise.

Ce cursus a pour objectif de former de façon très opérationnelle des data scientists afin de répondre à une demande de plus en plus croissante sur le marché de l'emploi.

Le cursus de formation Data Scientist proposé est très opérationnel. Il permet d'avoir une bonne culture générale concernant le Big Data et l'environnement Hadoop et présente deux principaux objectifs :

  1. Il consiste à consolider la compétence statistique et data mining pour analyser les données et construire des modèles prédictifs.
  2. Il permet l'acquisition d'outils informatiques reconnus sur le marché tels que IBM SPSS Modeler, IBM SPSS Statistics, IBM SPSS Text Analytics et le langage de programmation R. Le passage des certification de l'Editeur IBM SPSS est inclus dans ce parcours.
14 jours de formation + 10 jours de travaux pratiques  Durée totale : 24 jours soit 168 heures

Les qualités requises d'un data scientist :

  • Une forte compétence en statistique et data mining
  • La maîtrise d'au moins un logiciel de data mining reconnu sur le marché
  • Une bonne culture informatique qui lui permet de collaborer avec le service informatique de l'entreprise pour trouver et fédérer les sources de données nécessaires à son métier
  • Une culture métier et un bon sens de la communication pour échanger avec le business et savoir restituer les résultats

Public concerné par le rôle de Data Scientist :

Toute personne technique ayant une formation initiale scientifique (au moins Bac + 4) et qui a une appétence pour l'analyse des données et l'informatique 

  • Niveau au moins Bac+4  scientifique ou technique de préférence Mathématiques, Informatique ou  Physique, Biologie, etc.
  • Rigueur du raisonnement logique, faculté d'analyse, esprit de synthèse, sens de l'organisation
  • Etre à l'aise avec l'environnement Windows 
  • Connaissance de l'anglais pour le passage des certifications

Méthodes et moyens pédagogiques du parcours Data Scientist

Méthodes pédagogiques

Ce parcours de formation comporte :

  • Un rappel opérationnel de la logique et des concepts fondamentaux et de la statistique avec des exemples d'application sur des jeux de données marketing, risque bancaire. Le participant analysera les données en utilisant IBM SPSS Statistics, IBM SPSS Modeler et des programmes R.
  • Une revue des principaux modèles statistiques et automatiques " Machine learning " qui sont utilisés dans les projets de data mining et Big Data. Ces modèles sont mis en application sur des jeux de données marketing, risque bancaire et maintenance prédictive avec le logiciel IBM SPSS Modeler et avec des programmes R.

Le cursus de cette filière est composé d'une alternance :

  • D'exposés théoriques
  • De démonstrations sur les logiciels IBM SPSS Modeler et sur R avec des exemples de jeux de données de différents domaines d'activité : Marketing, bancaire, médical, industriel
  • De travaux dirigés avec des exemples de jeux de données de différents domaines d'activité : Marketing, bancaire, médical, industriel 

Moyens pédagogiques

Pour ce faire, durant le cursus chaque stagiaire aura à sa disposition :

  • Des supports de cours reprenant la théorie abordée durant les exposés (supports officiels éditeurs/constructeurs et supports officiels Global Knowledge) ainsi que des cahiers d’exercices
  • Un ordinateur et un accès à Internet lui permettant d’accéder aux environnements virtuels et/ou distants nécessaires à la réalisation des travaux dirigés et des travaux pratiques

Les exposés théoriques seront menés par des formateurs experts ayant une expérience métier en consulting et traitement des données ainsi que les certifications techniques se référant aux sujets traités.

Programme de formation Data Scientist

Introduction au Big Data : Hadoop et son écosystème

Préparation des données avec IBM SPSS

Exploration et Visualiser des données avec IBM SPSS

Déterminer les liens et relations entre facteurs

Modélisation :

  • Classification Supervisée
    • Modèles statistiques : Régression Linéaire | Modèle linéaire | Régression logistique | Analyse Discriminante
    • Modèles automatiques : Machine learning | Arbres de décision (C5, CART, CHAID, QUEST) | Liste de Décision | Réseaux de neuronnes | Support Vector Machine (SVM) | Réseaux Bayésiens | Analyse de Survie : Modèle de Cox | Séries Chronologiques
  • Classification Non Supervisée
    • Nuées Dynamiques
    • Classification Two Steps
    • Réseaux de Kohonen
  • Analyse d'association
    • A priori
    • CARMA
    • Séquences

Text Mining

Programmation avec le langage R

Analyse avec IBM SPSS Modeler et IBM SPSS Statistics

Travaux Pratiques

  • Cas d'usage en Marketing
  • Cas d'usage en Telécommunication
  • Cas d'usage en Risque Bancaire
  • Cas d'usage en Maintenance Prédictive
  • Cas d'usage en Analyse de commentaires clients.

Certification associée à ce cursus

Suite à ce cursus, les candidats pourront prétendre aux titres de certification IBM suivants :

  • IBM Certified Associate - SPSS Modeler Data Analysis
  • IBM Certified Associate - SPSS Modeler Data Mining
  • IBM Certified Specialist - SPSS Modeler Professional   

Ces certifications IBM sont reconnues sur le marché du data mining. Elles prouvent que le candidat dispose des compétences en statistique et data mining nécessaires pour mener à bien un projet avec IBM SPSS Modeler ou IBM SPSS Statistics. Toutes les SSII en informatique qui sont partenaires IBM doivent posséder dans leurs équipes des consultants certifiés IBM SPSS.

Pour connaître les modalités de réalisation de la formation Data Scientist et de son financement, écrivez à metier@globalknowledge.fr.