Plan de cours
Durée : 4 jours
|
Dans ce cours, l'étudiant découvrira les modèles et les pratiques d'ingénierie des données dans le cadre de solutions analytiques en temps réel et par lots utilisant les technologies de la plate-forme de données Azure. Les étudiants commenceront par comprendre les technologies de calcul et de stockage de base qui sont utilisées pour construire une solution analytique. Ils exploreront ensuite comment concevoir des couches de service analytiques et se concentreront sur les considérations d'ingénierie des données pour travailler avec des fichiers sources. Les étudiants apprendront à explorer de manière interactive les données stockées dans des fichiers dans un lac de données. Ils apprendront les différentes techniques d'ingestion qui peuvent être utilisées pour charger des données à l'aide de la fonctionnalité Apache Spark présente dans Azure Synapse Analytics ou Azure Databricks, ou comment ingérer à l'aide de Azure Data Factory ou des pipelines Azure Synapse. Les étudiants apprendront également les différentes façons de transformer les données à l'aide des mêmes technologies que celles utilisées pour l'acquisition des données. Les étudiants apprendront à surveiller et à analyser les performances des systèmes analytiques afin d'optimiser les performances des charges de données ou des requêtes émises sur les systèmes. Il comprendra l'importance de la mise en œuvre de la sécurité pour garantir la protection des données au repos ou en transit. L'étudiant montrera ensuite comment les données d'un système analytique peuvent être utilisées pour créer des tableaux de bord ou des modèles prédictifs dans Azure Synapse Analytics. | |
Public concerné | Le public principal de ce cours est constitué de professionnels des données, d'architectes de données et de professionnels de la veille stratégique qui souhaitent se familiariser avec l'ingénierie des données et la création de solutions analytiques à l'aide des technologies de plateforme de données qui existent sur Microsoft Azure. Le public secondaire de ce cours sont les analystes de données et les scientifiques de données qui travaillent avec des solutions analytiques construites sur Microsoft Azure. |
Préalables | Les étudiants qui réussissent commencent ce cours avec une connaissance du cloud computing et des concepts de données de base, ainsi qu'une expérience professionnelle des solutions de données. Plus précisément en complétant:
|
Objectifs |
|
Méthode pédagogique | Formations dirigées par un instructeur |
Contenu | Module 1: Explorer les options de calcul et de stockage pour les charges de travail d'ingénierie des données.Ce module offre une vue d'ensemble des options technologiques de calcul et de stockage Azure qui sont à la disposition des ingénieurs de données créant des charges de travail analytiques. Ce module enseigne les moyens de structurer le lac de données, et d'optimiser les fichiers pour les charges de travail d'exploration, de streaming et de batch. L'étudiant apprendra à organiser le lac de données en niveaux de raffinement des données au fur et à mesure qu'il transformera les fichiers par le biais du traitement par lots et en flux. Il apprendra ensuite à créer des index sur ses ensembles de données, tels que les fichiers CSV, JSON et Parquet, et à les utiliser pour accélérer les requêtes et les charges de travail. Cours
Lab : Explorez les options de calcul et de stockage pour les charges de travail d'ingénierie des données.
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 2: Conception et mise en œuvre de la couche de serviceCe module enseigne comment concevoir et mettre en œuvre les magasins de données dans un entrepôt de données moderne pour optimiser les charges de travail analytiques. L'étudiant apprendra à concevoir un schéma multidimensionnel pour stocker les données de faits et de dimensions. Il apprendra ensuite à alimenter des dimensions qui évoluent lentement grâce au chargement incrémentiel de données à partir de Azure Data Factory. Cours
Lab : Conception et mise en œuvre de la couche de service
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 3: Considérations d'ingénierie des données pour les fichiers sourcesCe module explore les considérations d'ingénierie de données qui sont courantes lors du chargement de données dans un entrepôt de données analytique moderne à partir de fichiers stockés dans un lac de données Azure, et la compréhension des considérations de sécurité associées au stockage de fichiers stockés dans le lac de données. Cours
Lab : Considérations relatives à l'ingénierie des données
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 4: Exécuter des requêtes interactives à l'aide des pools SQL sans serveur Azure Synapse Analytics.Dans ce module, les étudiants apprendront à travailler avec des fichiers stockés dans le lac de données et des sources de fichiers externes, par le biais d'instructions T-SQL exécutées par un pool SQL sans serveur dans Azure Synapse Analytics. Les étudiants interrogeront des fichiers Parquet stockés dans un lac de données, ainsi que des fichiers CSV stockés dans un magasin de données externe. Ensuite, ils créeront des groupes de sécurité Azure Active Directory et appliqueront l'accès aux fichiers dans le lac de données par le biais du contrôle d'accès basé sur les rôles (RBAC) et des listes de contrôle d'accès (ACL). Cours
Lab : Exécuter des requêtes interactives à l'aide de pools SQL sans serveur
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 5: Explorer, transformer et charger des données dans l'entrepôt de données à l'aide de Apache SparkCe module enseigne comment explorer les données stockées dans un lac de données, transformer les données et charger les données dans un magasin de données relationnelles. L'étudiant explorera les fichiers Parquet et JSON et utilisera des techniques pour interroger et transformer les fichiers JSON avec des structures hiérarchiques. Ensuite, l'étudiant utilisera Apache Spark pour charger les données dans l'entrepôt de données et joindre les données Parquet dans le lac de données avec les données dans le pool SQL dédié. Cours
Lab : Explorer, transformer et charger des données dans l'entrepôt de données à l'aide de Apache Spark
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 6: Exploration et transformation des données dans Azure DatabricksCe module enseigne comment utiliser diverses méthodes Apache Spark DataFrame pour explorer et transformer les données dans Azure Databricks. L'étudiant apprendra à exécuter les méthodes DataFrame standard pour explorer et transformer les données. Il apprendra également à effectuer des tâches plus avancées, telles que la suppression des données en double, la manipulation des valeurs de date/heure, le renommage des colonnes et l'agrégation des données. Cours
Lab : Exploration et transformation des données dans Azure Databricks
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 7: ingérer et charger des données dans l'entrepôt de donnéesCe module apprend aux étudiants à ingérer des données dans l'entrepôt de données par le biais de scripts T-SQL et de pipelines d'intégration Synapse Analytics. L'étudiant apprendra à charger des données dans des pools SQL dédiés à Synapse avec PolyBase et COPY en utilisant T-SQL. Il apprendra également à utiliser la gestion de la charge de travail avec une activité de copie dans un pipeline Azure Synapse pour l'ingestion de données à l'échelle du pétaoctet. Cours
Lab : Ingestion et chargement de données dans l'entrepôt de données
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 8: Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines.Ce module apprend aux étudiants à construire des pipelines d'intégration de données pour ingérer des données provenant de plusieurs sources, les transformer à l'aide de flux de données de mappage et les déplacer vers un ou plusieurs puits de données. Cours
Lab : Transformation de données avec Azure Data Factory ou Azure Synapse Pipelines
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 9: Orchestrer le mouvement et la transformation des données dans Azure Synapse PipelinesDans ce module, vous apprendrez à créer des services liés et à orchestrer le mouvement et la transformation des données à l'aide de notebooks dans Azure Synapse Pipelines. Cours
Lab : Orchestrer le mouvement et la transformation des données dans Azure Synapse Pipelines
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 10: Optimiser les performances des requêtes avec des pools SQL dédiés dans Azure SynapseDans ce module, les étudiants apprendront des stratégies pour optimiser le stockage et le traitement des données lors de l'utilisation de pools SQL dédiés dans Azure Synapse Analytics. L'étudiant saura comment utiliser les fonctions de développement, telles que le fenêtrage et les fonctions HyperLogLog, utiliser les meilleures pratiques de chargement de données, et optimiser et améliorer les performances des requêtes. Cours
Lab : Optimiser les performances des requêtes avec les pools SQL dédiés dans Azure Synapse
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 11: Analyser et optimiser le stockage de l'entrepôt de donnéesDans ce module, les étudiants apprendront à analyser puis à optimiser le stockage des données des pools SQL dédiés de Azure Synapse. Il connaîtra les techniques permettant de comprendre l'utilisation de l'espace de table et les détails du stockage des colonnes. Ensuite, l'étudiant saura comment comparer les exigences de stockage entre des tables identiques qui utilisent différents types de données. Enfin, l'étudiant observera l'impact des vues matérialisées lorsqu'elles sont exécutées à la place de requêtes complexes et apprendra comment éviter une journalisation importante en optimisant les opérations de suppression. Cours
Lab : Analyser et optimiser le stockage des entrepôts de données
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 12: Prendre en charge le Hybrid Transactional Analytical Processing (HTAP) avec Azure Synapse LinkDans ce module, les étudiants apprendront comment Azure Synapse Link permet une connectivité transparente d'un compte Azure Cosmos DB à un espace de travail Synapse. L'étudiant comprendra comment activer et configurer Synapse Link, puis comment interroger le magasin analytique Azure Cosmos DB en utilisant Apache Spark et SQL serverless. Cours
Lab : Prise en charge du Hybrid Transactional Analytical Processing (HTAP) avec Azure Synapse Link
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 13: Sécurité de bout en bout avec Azure Synapse AnalyticsDans ce module, les étudiants apprendront à sécuriser un espace de travail Synapse Analytics et son infrastructure de soutien. L'étudiant observera l'administration SQL Active Directory, gérera les règles de pare-feu IP, gérera les secrets avec Azure Key Vault et accédera à ces secrets par le biais d'un service lié à Key Vault et d'activités de pipeline. L'étudiant comprendra comment mettre en œuvre la sécurité au niveau des colonnes, la sécurité au niveau des lignes et le masquage dynamique des données lors de l'utilisation de pools SQL dédiés. Cours
Lab : Sécurité de bout en bout avec Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 14: Traitement de flux en temps réel avec Stream AnalyticsDans ce module, les étudiants apprendront à traiter des données en continu avec Azure Stream Analytics. Ils ingéreront des données de télémétrie de véhicules dans des concentrateurs d'événements, puis traiteront ces données en temps réel, en utilisant diverses fonctions de fenêtrage dans Azure Stream Analytics. Ils transmettront les données à Azure Synapse Analytics. Enfin, l'étudiant apprendra à mettre à l'échelle le job Stream Analytics pour augmenter le débit. Cours
Lab : Traitement de flux en temps réel avec Stream Analytics
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 15: Créer une solution de traitement des flux de données avec Event Hubs et Azure Databricks.Dans ce module, les étudiants apprendront à ingérer et à traiter des données en streaming à l'échelle avec Event Hubs et Spark Structured Streaming dans Azure Databricks. L'étudiant découvrira les principales caractéristiques et utilisations du streaming structuré. Il mettra en œuvre des fenêtres glissantes pour agréger des morceaux de données et appliquera le filigrane pour supprimer les données périmées. Enfin, l'étudiant se connectera à Event Hubs pour lire et écrire des flux. Cours
Lab : Créer une solution de traitement de flux avec Event Hubs et Azure Databricks
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 16: Créer des rapports en utilisant l'intégration Power BI avec Azure Synapse AnalyticsDans ce module, l'étudiant apprendra à intégrer Power BI à son espace de travail Synapse pour créer des rapports dans Power BI. L'étudiant créera une nouvelle source de données et un rapport Power BI dans Synapse Studio. Il apprendra ensuite à améliorer les performances des requêtes grâce aux vues matérialisées et à la mise en cache des ensembles de résultats. Enfin, l'étudiant explorera le lac de données avec des pools SQL sans serveur et créera des visualisations sur ces données dans Power BI. Cours
Lab : Créer des rapports avec Power BI en utilisant son intégration avec Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront en mesure de:
Module 17: Exécuter des processus d'apprentissage automatique intégrés dans Azure Synapse AnalyticsCe module explore l'expérience intégrée et de bout en bout de Azure Machine Learning et de Azure Cognitive Services dans Azure Synapse Analytics. Vous apprendrez à connecter un espace de travail Azure Synapse Analytics à un espace de travail Azure Machine Learning à l'aide d'un service lié, puis à déclencher une expérience ML automatisée qui utilise les données d'une table Spark. Vous apprendrez également à utiliser les modèles formés de Azure Machine Learning ou de Azure Cognitive Services pour enrichir les données d'une table SQL pool, puis à servir les résultats de prédiction à l'aide de Power BI. Cours
Lab : Exécuter les processus d'apprentissage automatique intégré dans Azure Synapse Analytics
Après avoir terminé ce module, les étudiants seront en mesure de:
|