Page 164 - CATALOGUE AGINIUS 2020
P. 164

IT - Big Data - Cybersécurité                                                                                                                                IT - Big Data - Cybersécurité



            Machine Learning sous Python et R                                Deep Learning                                                                          Data Scientist


                                              4 jours                                              2 jours                                                     5 jours
          Objectifs                         Ref. 4-PY-MLPR     Objectifs                          Ref. 4-IT-DL             Objectifs                          Ref. 4-IT-DAS  8. Le Big Data
       •  Utiliser R et Python dans le cadre de modèles d’apprentissage et de   •  Comprendre l’évolution des réseaux de neurones et les raisons du succès   •  Savoir mettre en place un DataLake et un DataMart en SQL ou big data,   •  Qu’est-ce que Apache Hadoop ?
                                                                                                                                                                              •  Qu’est-ce que l’informatique distribué ?
        fonctions algorithmiques                             actuel du Deep Learning                                     puis une stratégie de Machine Learning en Python afin de créer le modèle   •  Installation et configuration de Hadoop
          Public                                           •  Utiliser les bibliothèques de Deep Learning les plus populaires  le plus satisfaisant possible en le mesurant et en affichant les résultats, le   •  HDFS
                                                           •  Comprendre les principes de conception, les outils de diagnostic et les
                                                                                                                                                                              •  Création d’un datanode
                                                                                                                         tout en utilisant des algorithmes performants
       •  Cette formation s’adresse au profil métier orienté Data Scientist  effets des différents verrous et leviers                                                         •  Création d’un namenode distribué
                                                           •  Acquérir de l’expérience pratique sur plusieurs problèmes réels  Public                                         •  Manipulation de HDFS
          Prérequis                                            Public                                                   •  Développeurs, chefs de projets proches du développement, ingénieur   •  Hadoop comme DataLake
       •  Bonnes bases de statistiques et de data mining                                                                 scientifique sachant coder                           •  Map Reduce
                                                            •  Ingénieurs/Chefs de projet IA, consultants IA et toute personne souhaitant                                     •  Hive
          Moyens pédagogiques                                découvrir les techniques Deep Learning                        Prérequis                                          •  Hadoop comme DataMart
                                                                                                                                                                              •  Python HDFS
      •  Formation avec un formateur, dans une salle dédiée à la formation, équipée   Prérequis                         •  Maîtriser l’algorithmique, avoir une appétence pour les mathématiques  9. Les bases de données NoSql
                                                                                                                        •  La connaissance de Python et des statistiques est un plus
       d’un vidéoprojecteur, d’un tableau blanc ou à distance dans le cas de solutions   •  Bonnes connaissances en statistiques                                              •  Les bases de données structurées
       de Digital Learning                                 •  Bonnes connaissances du Machine Learning                     Moyens pédagogiques                                •  SQL avec SQLite et Postgresql
      •  1 poste de travail par stagiaire adapté aux besoins de la formation + 1 support   Moyens pédagogiques                                                                •  Les bases de données non ACID
       de cours et/ou un manuel de référence au format numérique ou papier                                              •  Alternance entre apports théoriques et exercices pratiques Support de   •  JSON
      •  Modalités pédagogiques : Exposés – Cas pratiques – Synthèse  •  Formation avec un formateur, dans une salle dédiée à la formation, équipée   cours fourni lors de la formation  •  MongoDB
                                                             d’un vidéoprojecteur, d’un tableau blanc ou à distance dans le cas de solutions                                  •  Cassandra, Redis, CouchDb
                                                             de Digital Learning                                                             Programme                        •  MongoDB sur HDFS
                                                           •  1 poste de travail par stagiaire adapté aux besoins de la formation + 1 support                                 •  MongoDB comme DataMart PyMongo
                                                             de cours et/ou un manuel de référence au format numérique ou papier                                             10. Numpy et SciPy
                                                           •  Modalités pédagogiques : Exposés – Cas pratiques – Synthèse  1. Introduction aux Data Sciences                  •  Les tableaux et les matrices
                                                                                                                        •  Qu’est que la data science ?                       •  L’algèbre linéaire avec Numpy
                            Programme                                            Programme                              •  Qu’est-ce que Python ?                             •  La régression linéaire SciPy Le produit et la transposée
                                                                                                                        •  Qu’est que le Machine Learning ?                   •  L’inversion de matrice
                                                                                                                        •  Apprentissage supervisé vs non supervisé Les statistiques  •  Les nombres complexes
      1. Généralités                                       1. Introduction                                              •  La randomisation                                   •  L’algèbre complexe
       •  Présentation et installation du logiciel R        •  Créer un premier graphe et l’exécuter dans une session.  •  La loi normale                                     •  Les transformées de Fourier Numpy et Mathplotlib
       •  GUIs et IDEs                                      •  Cycle de vie de la valeur d’un nœud.                     2. Introduction à Python pour les Data Science       11. ScikitLearn
       •  Prise en main et premiers pas                     •  Manipuler des matrices.                                  •  Les bases de Python                                •  Régressions polynomiales
       •  Fonctions et packages                             •  Régression linéaire.                                     •  Les listes                                         •  La régression linéaire
       •  Utilisation des aides                             •  Descente de gradient.                                    •  Les tuples                                         •  La création du modèle
      2. Rappel des concepts de base du Data Mining         •  Fournir des données à l’algorithme d’entraînement.       •  Les dictionnaires                                  •  L’échantillonnage
       •  Introduction à R - Concepts de base               •  Enregistrer et restaurer des modèles.                    •  Les modules et packages                            •  La randomisation
       •  Syntaxe                                           •  Visualiser le graphe et les courbes d’apprentissage.     •  L’orienté objet                                    •  L’apprentissage avec fit
       •  Type de données                                   •  Portées de noms. Partage des variables.                  •  Le module math                                     •  La prédiction du modèle
       •  Import/Export de données                         2. Introduction aux réseaux de neurones artificiels          •  Les expressions lambda                             •  Les metrics
       •  Manipulation des librairies                       •  Du biologique à l’artificiel.                            •  Map, reduce et filter                              •  Choix du modèle
      3. Manipulation des données                           •  Entraîner un PMC (perceptron multicouche) avec une API TensorFlow de   •  Le module CSV                        •  PreProcessing et Pipeline
                                                                                                                                                                              •  Régressions non polynomiales
                                                                                                                        •  Les modules DB-API 2 Anaconda
       •  Rappels des grandeurs statistiques de bases        haut niveau.
       •  Calcul des grandeurs statistiques de bases avec R  •  Entraîner un PMC (perceptron multicouche) avec TensorFlow de base.  3. Introduction aux DataLake, DataMart et DataWharehouse  12. Nearest Neighbors
       •  Aperçu des types de visualisation courants en Data Mining  •  Régler précisément les hyperparamètres d’un réseau de neurones.  •  Qu’est-ce qu’un DataLake ?        •  Algorithme des k plus proches voisins (k-NN)
       •  Fonctions et librairies de base de visualisation avec R  3. Entraînement de réseaux de neurones profonds      •  Les différents types de DataLake                   •  Modèle de classification
      4. Data Preprocessing                                 •  Problèmes de disparition et d’explosion des gradients.   •  Le Big Data Qu’est-ce qu’un DataWharehouse ?       •  K-NN avec SciKitLearn
                                                                                                                                                                              •  Choix du meilleur k
                                                                                                                        •  Qu’est qu’un DataMart ?
       •  Data Cleaning                                     •  Réutiliser des couches pré-entraînées.                   •  Mise en place d’un DataMart                        •  Sérialisation du modèle
       •  Data Reduction (Analyse en composantes principales)  •  Optimiseurs plus rapides.                             •  Les fichiers                                       •  Variance vs Erreurs
       •  Data Preprocessing et ACP avec R                  •  Éviter le sur-ajustement grâce à la régularisation.      •  Les bases de données SQL                           •  Autres modèles : SVN, Random Forest
      5. Règles d’association                               •  Recommandations pratiques.                               •  Les bases de données No-SQL                       13. Pandas
       •  Rappels théoriques de l’algorithme Apriori       4. Réseaux de neurones convolutifs                           4. Python Package Installer                           •  L’analyse des données avec Pandas
       •  Application et exploitation des règles d’association avec R  •  L’architecture du cortex visuel.              •  Utilisation de PIP                                 •  Les Series
      6. Classification et Regression                       •  Couche de convolution.                                   •  Installation de package PIP PyPi                   •  Les DataFrames
                                                            •  Couche de pooling.
       •  Règles bayesiennes naïves                         •  Architectures de CNN.                                    5. MathPlotLib                                        •  La théorie ensembliste avec Pandas
       •  Rappels théoriques                               5. Deep Learning avec Keras                                  •  Utilisation de la bibliothèque scientifique de graphes MathPlotLib  •  L’importation des données CSV
       •  Initiation à la librairie «e1071» de R                                                                        •  Affichage de données dans un graphique 2D Affichages de sous-graphes  •  L’importation de données SQL
       •  Arbre de décision CART                            •  Régression logistique avec Keras.                        •  Affichage de polynômes et de sinusoïdales          •  L’importation de données MongoDB Pandas et SKLearn
       •  Rappels théoriques                                •  Perceptron avec Keras.                                   6. Machine Learning                                  14. Le Clustering
       •  Initiation à la librarie «party» de R             •  Réseaux de neurones convolutifs avec Keras.                                                                    •  Regroupement des données par clusterisation Les clusters SKLearn
       •  Arbre de décision RandomForest                   6. Réseaux de neurones récurrents                            •  Mise en place d’une machine learning supervisé      avec k-means
       •  Rappels théoriques                                •  Neurones récurrents.                                     •  Qu’est qu’un modèle et un dataset                  •  Autres modèles de clusterisation : AffinityPropagation, MeanShift, …
       •  Initiation à la librairie «randomForest» de R     •  RNR de base avec TensorFlow.                             •  Qu’est qu’une régression                           •  L’apprentissage semi-supervisé
       •  Régression linéaire                               •  Entraîner des RNR. RNR profonds.                         •  Les différents types de régression                15. Jupyter
       •  Rappels théoriques                                •  Cellule LSTM. Cellule GRU.                               •  La régression linéaire
       •  Initiation à la fonction lm() de R                •  Traitement automatique du langage naturel.               •  Gestion du risque et des erreurs                   •  Présentation de Jupyter et Ipython
      7. Clustering                                        7. Autoencodeurs                                             •  Quarter d’Ascombe                                  •  Installation
                                                                                                                                                                              •  Utilisation de Jupyter avec Mathplotlib et Sklearn
                                                                                                                        •  Trouver le bon modèle
       •  Centroid-based clustering                         •  Représentations efficaces des données.                   •  La classification                                 16. Python Yield
       •  Algorithme du K-means                             •  ACP avec un autoencodeur linéaire sous-complet.          •  Loi normale, variance et écart type
       •  Fonction kmeans de R                              •  Autoencodeurs empilés.                                   •  Apprentissage                                      •  La programmation efficace en Python
       •  Hierarchical clustering                           •  Pré-entraînement non supervisé avec des autoencodeurs empilés.  •  Mesure de la performance No Fee Lunch       •  Le générateurs et itérateurs
       •  Concepts théoriques                               •  Autoencodeurs débruiteurs. Autoencodeurs épars. Autoencodeurs varia-  7. La régression linéaire en Python      •  Le Yield return
       •  Fonction hclust de R                               tionnels. Autres autoencodeurs.                                                                                  •  Le Yield avec Db-API 2, Pandas et Sklearn
       •  Density-based clustering                                                                                      •  Programmer une régression linéaire en Python      17. Les réseaux neuronaux
       •  Concepts théoriques                                                                                           •  Utilisation des expressions lambda et des listes en intention Afficher la   •  Le perceptron
       •  Application dans R                                                                                             régression avec MathPlotLib                          •  Les réseaux neuronaux
      8. Outils de support à R                                                                                          •  L’erreur quadratique                               •  Les réseaux neuronaux supervisés
                                                                                                                        •  La variance
       •  Data preprocessing avec Dataiku                                                                               •  Le risque                                          •  Les réseaux neuronaux semi-supervisés
       •  Utilisation de R dans Dataiku                                                                                                                                       •  Les réseaux neuronaux par Hadoop Yarn
                                                                                                                                                                              •  Les heuristiques
                                                                                                                                                                              •  Le deep learning
      162                                                                                  FORMATIONS 2020              FORMATIONS 2020                                                                                     163
   159   160   161   162   163   164   165   166   167   168   169