Introduction à Spark

Référence GKDSP
Durée 3 jour(s)

Modalité pédagogique

Options de paiement complémentaires

GTC 25 TTC

Les GTC sont proposés en exclusivité aux partenaires autorisés afin de gagner du temps et de fluidifier le processus d'achat des formations chez Global Knowledge. Il s’agit d’un crédit universel qui peut être utilisé dans les centres Global Knowledge à travers le monde.

Classe inter en présentiel Prix

EUR2 290,00

hors TVA

Demander une formation en intra-entreprise S'inscrire

Aller à:

Modalité pédagogique

La formation est disponible dans les formats suivants:

Classe inter en présentiel

Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

Demander cette formation dans un format différent

Télécharger le programme complet

Résumé

Haut de page

Apache Spark est un framework open source de calcul distribué en mémoire permettant le traitement de grands volumes. Le but de cette formation est de présenter le framework Spark et d’apprendre à l’utiliser avec le langage Python pour traiter des problèmes de Big Data.

Prochaines dates

Haut de page

Public

Haut de page

Développeur, Data Analyst, Data Scientists, Architectes Big Data et toute autre personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark

Objectifs de la formation

Haut de page

Comprendre le principe de fonctionnement de Spark
Apprendre à utiliser l’API PySpark pour interagir avec Spark en Python
Apprendre à utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
Apprendre à traiter les flux de données avec Spark Streaming
Apprendre à manipuler les données avec Spark SQL

Programme détaillé

Haut de page

Introduction à Hadoop

L’ère du Big Data
Architecture et composants de la plateforme Hadoop
HDFS
NameNode / DataNode / RessourceManager
Paradigme MapReduce et YARN

Introduction à Spark

Qu’est-ce que Spark ?
Spark vs MapReduce
Fonctionnement : RDD, DataFrames, Data Sets
Comment interagir avec Spark
PySpark : programmer avec Spark en Python

Manipulation des données

Formats basiques (fichiers textes, JSON, CSV, SequencesFiles, fichiers compressés)
Interagir avec des sources de données externes : connecteurs Hive, JDC, Hbase, ElasticSearch, …

Spark Streaming

Introduction à Spark Streaming
La notion de « DStream »
Principales sources de données
Utilisation de l’API
Manipulation des données

Spark SQL

Initiation à Spark SQL
Création de DataFrames
Manipulation des DataFrames (opérations basiques, agrégations & Groupby, Missing Data)
Chargement et stockage de données (avec Hive, JSON, etc…)

Spark ML avec MLlib

Modélisation Statistique & Apprentissage
Types de données (Vector / LabeledPoint / Model)
Préparation des données
Utilisation d’algorithme de MLlib (k-means / Régression logistique / arbre de discrimination / forêt aléatoire)
Exemple de création d’un modèle et de son évaluation avec Spark MLlib sur un jeu de données

GraphX et GraphFrames

Présentation de GraphX
Principe de création des graphes
API GraphX
Présentation GraphFrames
GraphX vs GraphFrames

Travaux pratiques

Alternance d’apports théoriques, d’exercices pratiques et de mise en situation sous forme de travaux pratiques permettant de tester les différentes notions abordées avec le langage Python

Pré-requis

Haut de page

Une première expérience en programmation Python, avoir des connaissances en SQL, avoir des connaissances en mathématiques et statistiques.

Bon à savoir

Haut de page

Support de cours remis aux participants.

<p><br /></p><table style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;" border="3" cellspacing="2" cellpadding="5" data-mce-style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;"><tbody><tr><td style="width: 100%;" data-mce-style="width: 100%;"><p style="text-align: left;" data-mce-style="text-align: left;"><strong><span style="color: #141c36;" data-mce-style="color: #141c36;">Modalité d'évaluation</span></strong></p><hr /><p style="text-align: left;" data-mce-style="text-align: left;">A l'issue de la formation, le participant est invité à s’auto-évaluer par rapport aux objectifs énoncés.</p></td></tr></tbody></table>
<table style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;" border="3" cellspacing="2" cellpadding="5" data-mce-style="width: 100%; border-collapse: collapse; border-style: solid; border-color: #141c36; float: left;"><tbody><tr><td style="width: 100%;" data-mce-style="width: 100%;"><p style="text-align: left;" data-mce-style="text-align: left;"><strong><span style="color: #141c36;" data-mce-style="color: #141c36;">Délais d’inscription</span></strong></p><hr /><p style="text-align: left;" data-mce-style="text-align: left;">Avant le début de la formation <strong>jusqu’à 5 jours ouvrés sous réserve de disponibilité </strong>sauf dans le cas d'un financement <a title="compte CPF" href="https://www.globalknowledge.com/fr-fr/formations/compte-personnel-de-formation-cpf" data-mce-href="https://www.globalknowledge.com/fr-fr/formations/compte-personnel-de-formation-cpf">CPF,</a> jusqu'à 11 jours ouvrés. <a rel="noopener noreferrer" title="formations éligibles CPF" href="mailto:cpf@globalknowledge.fr" target="_blank" rel="noopener noreferrer" data-mce-href="mailto:cpf@globalknowledge.fr">Contactez-nous</a> pour connaître les formations éligibles.</p></td></tr></tbody></table><p><br /></p>
/fr-fr/-/media/global-knowledge/merchandising/right-side-column/emea/gk-polaris/gk-polaris-accelerate-cybersecurity.png https://www.globalknowledge.com/fr-fr/products/abonnement/pl-accelerate #000000
#000000
#000000

Code: GKDSP
Meta Description: Apache Spark est un framework open source de calcul distribué en mémoire permettant le traitement de grands volumes. Le but de cette formation est de présenter le framework Spark et d’apprendre à l’utiliser avec le langage Python pour traiter des problèmes de Big Data
Meta Keywords: formation spark, couras apache spark
Name: Introduction à Spark
Tech Type: Big Data
Title: formation Introduction à Apache Spark (GKDSP)
Vendor: Applications Development

DOMAINES

EDITEURS INFORMATIQUES

Certifications éditeurs IT et Management

Classe inter en présentiel

Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

DOMAINES

EDITEURS INFORMATIQUES

Certifications éditeurs IT et Management

Introduction à Spark

Modalité pédagogique

Options de paiement complémentaires

Classe inter en présentiel Prix

Aller à:

Modalité pédagogique

Classe inter en présentiel Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

Résumé

Prochaines dates

Public

Objectifs de la formation

Programme détaillé

Pré-requis

Bon à savoir

"Nous nous soucions de votre vie privée"

Concernant votre vie privée.

Cookies nécessaires

Cookies d'analyse

Cookies de préférences

Cookies de performance

Classe inter en présentiel

Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.