Pyspark sur databricks pour les ingénieurs de données
Cette formation s’adresse aux professionnels qui souhaitent comprendre les principes de bases de PySpark et des outils Big Data.
OBJECTIFS DE LA FORMATION 🎯
Comprendre les principes de PySpark et des outils Big Data.
Acquérir une première connaissance de PySpark pour le traitement des données.
DURÉE ⏳
3 jours
PRÉREQUIS 📝
Connaissances de Python et Spark acquises lors du cours « Initiation à Python ».
PUBLIC VISÉ 👥
Chargés d’études statistiques, actuaires et data scientists souhaitant maîtriser PySpark pour le traitement des données Big Data.
PROGRAMME DÉTAILLÉ 📚
Jour 1 : Introduction à PySpark et analyse des données 🐍📊
Module 1 : Le monde Big Data
Le Big Data : pourquoi ? : comprendre les enjeux et les opportunités.
Rappel des outils principaux du Big Data : Hadoop, MapReduce, Hive, Spark.
Rappel de Spark avec Python : introduction à PySpark.
Module 2 : Analyse des données avec PySpark DataFrame et PySpark SQL
PySpark DataFrame : API pour traiter des données au format tabulaire.
PySpark SQL : module Spark pour traiter les données comme des tables SQL.
Démonstration : acquisition, analyse, filtrage, nettoyage et sauvegarde des données avec PySpark DataFrame et PySpark SQL.
Lab : application des techniques sur un jeu de données du domaine de l’assurance.
Jour 2 : Analyse exploratoire et traitement des données 🔍📂
Module 3 : PySpark et analyse des données
Analyse exploratoire de données avec PySpark :
Vérification de l’intégrité des données.
Statistiques descriptives et création de résumés statistiques.
Création de graphiques exploratoires.
Traitement des données manquantes :
Suppression.
Imputation : moyenne, médiane, création d’une nouvelle catégorie.
Nettoyage et normalisation des données :
Normalisation de données scrappées.
Traitement des données de date/heure.
Analyse de données :
Réduction de dimension.
Clustering.
Lab : application des techniques sur un jeu de données du domaine de l’assurance.
Jour 3 : Données en temps réel et données de graphe ⏱️📊
Module 4 : PySpark et les données en temps réel
APIs de PySpark pour le traitement des données en temps réel :
Spark Streaming.
Structured Streaming : nouvelle API basée sur DataFrame.
Démonstration : traitement des données avec Structured Streaming.
Lab : application des techniques sur un jeu de données du domaine de l’assurance.
Module 5 : PySpark et les données de graphe
APIs de PySpark pour le traitement des données de graphe :
GraphFrames : nouvelle API basée sur DataFrame.
Démonstration : traitement des données avec GraphFrames.
Lab : application des techniques sur un jeu de données du domaine de l’assurance.
MODALITÉS D’ÉVALUATION 📊
En début de formation :
Test de positionnement 🧠 pour évaluer les connaissances initiales des participants.Pendant la formation :
Tests de formation 📝 pour valider l’acquisition des connaissances.
Pédagogie adaptée aux adultes : participation active, mises en situation, exemples concrets et échanges interactifs au sein du groupe.
Application pratique des concepts théoriques à travers des exercices et des études de cas.En fin de formation :
Test de fin de formation 🎓 pour valider les connaissances acquises.
Remise d’une attestation de fin de formation 📜 à chaque participant.
Cette formation offre une immersion complète dans PySpark, en combinant théorie et pratique pour maîtriser le traitement des données Big Data, l’analyse exploratoire, les données en temps réel et les données de graphe. 🌟

Cette formation vous intéresse ?
Contactez-nous
- Des méthodes expositives
- Méthodes participatives
- Méthodes démonstratives
- Méthodes actives
Un audit personnalisé sous forme de QCM sera envoyé au stagiaire avant le début de la formation ainsi qu’un appel téléphonique afin de cibler spécialement les attentes et les bases déjà présentes.
– Mise en pratique sur micro-ordinateur
– Un support de cours sera remis en fin de stage
En présentiel :
Au sein de nos locaux à Levallois-Perret pour les particuliers ou au sein des locaux des entreprises.
A distance :
Via différentes plateformes comme Zoom, Teams, Whatsapp, Skype avec possibilités d’autres plateformes selon votre convenance.
Délais d’accès à la formation :
– Nous nous engageons à mettre tout en œuvre pour vous apporter une réponse dans les meilleurs délais.
– Les délais d’accès moyens sont généralement inférieurs à 3 jours à compter de la date de signature de la convention de formation ou si CPF, acceptation sur mon compte formation. Ce délai suppose que les dates de planification proposées soient rapidement validées.
Accessibilité aux personnes en situation d’handicap :
– La formation est accessible aux personnes en situation de handicap. En cas d’impossibilité, nous vous orienterons vers des organismes adaptés, si nécessaire.
INTER : 450 € HT / Jour
INTRA : Durée et objectifs adaptés et sur mesure : tarifs sur devis