Taieb Badis

Data Science

Voir le profil
Mis à jour le 1er juillet 2022 | Télécharger la version PDF

Formation Data Engineering

Formation Data Engineering

    à distance
  • 73h/11j
  • À partir de 1800.00€*

*Prix minimum hors frais annexes.

Comprendre les financements

Objectifs

  • Identifier la plateforme technologique et les outils de l’écosystème Hadoop sur lesquels s’appuyer en fonction des cas d’usage?
  • Développer des applications temps réel avec Kafka et spark streaming
  • Maîtriser l’utilisation de l’écosystème HADOOP : HDFS, MapReduce, HIVE, Sqoop ,Flume, HBASE, PIG, Spark
  • Comprendre les différents concepts des bases NoSQL
  • Comprendre l’architecture des différentes bases NoSQL
  • Savoir quelle catégorie de base NoSQL (clé/valeur, document,colonne, graphe) choisir en fonction des cas d’usages
  • Savoir créer, manipuler et interroger des données dans MongoDB
  • Utiliser Spark SQL et les dataframes
  • Développer des applications avec Apache Spark

Points forts

Formation Data Engineer pour apprendre à manipuler avec aisance les bases de données non structurées, mais également lancer des calculs intensifs sur des clusters distants.

Publics visés

Data Scientists, Consultants IT, Chef de projet Data, Data Anlayst

Domaines

Bases de données - data

Pré-requis

Aucun

Certification

Aucune

Méthode d'évaluation

Questionnaire en ligne

Accessibilité

Aucune information

Conditions d'accès

Programme

Data Engineering

    Auto formation à distance sans support synchrone
  • 70h
    Questionnaire en ligne
  • 3h

1- Construire un système de stockage de données volumineusesExpression du besoin métier et cadrage de la problématique.Identifier les besoins précis et définir les objectifs concrets de l'étude.Appliquer des traitements sur des données volumineuses.Collecter des données volumineuses et les stocker efficacement.Réaliser des pipelines de données sur des données volumineuses.Exécuter des clusters de calcul parallèle dans le Cloud.Utiliser des bases de données non structurées.Configurer une base de données non structurées.Requêter sur une base de données non structurée.2- Intercepter et manipuler des données en temps réel.Mettre en place une plateforme de Data Streaming.Installer et configurer une plateforme de Data Streaming à un seul noeud.Intégrer des applications et services tiers pour augmenter les cas d'usages de la plateforme de Data Streaming.Configurer des connections avec des bases cibles.Configurer des connecteurs vers des bases de données cibles.Définir les habilitations et les autorisations sur les bases de données.Définir les habilitations et les autorisations sur les bases de données.Manipuler un registre de schémas.Utiliser une sérialisation binaire pour la validation des données par des schémas.3- Installer une plateforme d'automatisation.Installer une plateforme d'automatisation avec Apache Airflow.Configurer une plateforme d'automatisation dans un environnement de production.Développer des pipelines automatisés.Développer des processus automatisés séquencés.Développer des processus automatisés en parallèleAdministrer et surveiller les exécutions automatisées.4- Gérer le cycle de vie et déployer des algorithmes prédictifs.Comprendre les phases d'expérimentation et de déploiement des algorithmes prédictifs. Intégrer une plateforme de gestion du cycle de vie des modèles.5- Déployer un algorithme prédictif sur un serveur.Construire une API pour rendre l’algorithme prédictif accessible sur un serveur.Conteneuriser une API d'un algorithme prédictifPrésenter l'architecture réalisé à un client.

Supervision pédagogique : Aide en ligne Assistance technique : Par email (sous 24h)

Toutes nos formations sont mises en œuvre dans le respect du label Qualiopi

Ganapati formations est certifié Qualiopi

La certification qualité a été délivrée au titre des catégories suivantes :

  • Action de formation
  • Action permettant de faire valider les acquis de l'expérience
  • Action de formation par apprentissage

Réserver la formation