Introduction à Spark
- Référence GKDSP
- Durée 3 jour(s)
Modalité pédagogique
Options de paiement complémentaires
-
GTC 25 TTC
Les GTC sont proposés en exclusivité aux partenaires autorisés afin de gagner du temps et de fluidifier le processus d'achat des formations chez Global Knowledge. Il s’agit d’un crédit universel qui peut être utilisé dans les centres Global Knowledge à travers le monde.
Classe inter en présentiel Prix
EUR2 290,00
hors TVA
Demander une formation en intra-entreprise S'inscrireAller à:
Modalité pédagogique
La formation est disponible dans les formats suivants:
-
Classe inter en présentiel
Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.
Demander cette formation dans un format différent
Résumé
Haut de pageApache Spark est un framework open source de calcul distribué en mémoire permettant le traitement de grands volumes. Le but de cette formation est de présenter le framework Spark et d’apprendre à l’utiliser avec le langage Python pour traiter des problèmes de Big Data.
Prochaines dates
Haut de pagePublic
Haut de pageDéveloppeur, Data Analyst, Data Scientists, Architectes Big Data et toute autre personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark
Objectifs de la formation
Haut de page- Comprendre le principe de fonctionnement de Spark
- Apprendre à utiliser l’API PySpark pour interagir avec Spark en Python
- Apprendre à utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
- Apprendre à traiter les flux de données avec Spark Streaming
- Apprendre à manipuler les données avec Spark SQL
Programme détaillé
Haut de page- L’ère du Big Data
- Architecture et composants de la plateforme Hadoop
- HDFS
- NameNode / DataNode / RessourceManager
- Paradigme MapReduce et YARN
Introduction à Spark
- Qu’est-ce que Spark ?
- Spark vs MapReduce
- Fonctionnement : RDD, DataFrames, Data Sets
- Comment interagir avec Spark
- PySpark : programmer avec Spark en Python
Manipulation des données
- Formats basiques (fichiers textes, JSON, CSV, SequencesFiles, fichiers compressés)
- Interagir avec des sources de données externes : connecteurs Hive, JDC, Hbase, ElasticSearch, …
Spark Streaming
- Introduction à Spark Streaming
- La notion de « DStream »
- Principales sources de données
- Utilisation de l’API
- Manipulation des données
Spark SQL
- Initiation à Spark SQL
- Création de DataFrames
- Manipulation des DataFrames (opérations basiques, agrégations & Groupby, Missing Data)
- Chargement et stockage de données (avec Hive, JSON, etc…)
Spark ML avec MLlib
- Modélisation Statistique & Apprentissage
- Types de données (Vector / LabeledPoint / Model)
- Préparation des données
- Utilisation d’algorithme de MLlib (k-means / Régression logistique / arbre de discrimination / forêt aléatoire)
- Exemple de création d’un modèle et de son évaluation avec Spark MLlib sur un jeu de données
GraphX et GraphFrames
- Présentation de GraphX
- Principe de création des graphes
- API GraphX
- Présentation GraphFrames
- GraphX vs GraphFrames
Travaux pratiques
- Alternance d’apports théoriques, d’exercices pratiques et de mise en situation sous forme de travaux pratiques permettant de tester les différentes notions abordées avec le langage Python
Pré-requis
Haut de pageUne première expérience en programmation Python, avoir des connaissances en SQL, avoir des connaissances en mathématiques et statistiques.
Bon à savoir
Haut de pageSupport de cours remis aux participants.
- <p><br /></p><table style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;" border="3" cellspacing="2" cellpadding="5" data-mce-style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;"><tbody><tr><td style="width: 100%;" data-mce-style="width: 100%;"><p style="text-align: left;" data-mce-style="text-align: left;"><strong><span style="color: #141c36;" data-mce-style="color: #141c36;">Modalité d'évaluation</span></strong></p><hr /><p style="text-align: left;" data-mce-style="text-align: left;">A l'issue de la formation, le participant est invité à s’auto-évaluer par rapport aux objectifs énoncés.</p></td></tr></tbody></table>
- <table style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;" border="3" cellspacing="2" cellpadding="5" data-mce-style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;"><tbody><tr><td style="width: 100%;" data-mce-style="width: 100%;"><p style="text-align: left;" data-mce-style="text-align: left;"><strong><span style="color: #141c36;" data-mce-style="color: #141c36;">Délais d’inscription</span></strong></p><hr /><p style="text-align: left;" data-mce-style="text-align: left;">Avant le début de la formation <strong>jusqu’à 5 jours ouvrés sous réserve de disponibilité </strong>sauf dans le cas d'un financement <a title="compte CPF" href="https://www.globalknowledge.com/fr-fr/formations/compte-personnel-de-formation-cpf" data-mce-href="https://www.globalknowledge.com/fr-fr/formations/compte-personnel-de-formation-cpf">CPF,</a> jusqu'à 11 jours ouvrés. <a rel="noopener noreferrer" title="formations éligibles CPF" href="mailto:cpf@globalknowledge.fr" target="_blank" rel="noopener noreferrer" data-mce-href="mailto:cpf@globalknowledge.fr">Contactez-nous</a> pour connaître les formations éligibles.</p></td></tr></tbody></table><p><br /></p>
- /fr-fr/-/media/global-knowledge/merchandising/right-side-column/emea/gk-polaris/gk-polaris-accelerate-cybersecurity.png https://www.globalknowledge.com/fr-fr/products/abonnement/pl-accelerate #000000
- #000000
- #000000
- GKDSP
- Introduction à Spark
- Big Data
- formation Introduction à Apache Spark (GKDSP)
- Applications Development