Page 165 - CATALOGUE AGINIUS 2020
P. 165

IT - Big Data - Cybersécurité                    IT - Big Data - Cybersécurité



 Machine Learning sous Python et R  Deep Learning  Data Scientist


 4 jours  2 jours                             5 jours
 Objectifs  Ref. 4-PY-MLPR  Objectifs  Ref. 4-IT-DL  Objectifs  Ref. 4-IT-DAS  8. Le Big Data
 •  Utiliser R et Python dans le cadre de modèles d’apprentissage et de   •  Comprendre l’évolution des réseaux de neurones et les raisons du succès   •  Savoir mettre en place un DataLake et un DataMart en SQL ou big data,   •  Qu’est-ce que Apache Hadoop ?
                                                             •  Qu’est-ce que l’informatique distribué ?
 fonctions algorithmiques   actuel du Deep Learning  puis une stratégie de Machine Learning en Python afin de créer le modèle   •  Installation et configuration de Hadoop
 Public  •  Utiliser les bibliothèques de Deep Learning les plus populaires  le plus satisfaisant possible en le mesurant et en affichant les résultats, le   •  HDFS
 •  Comprendre les principes de conception, les outils de diagnostic et les
                                                             •  Création d’un datanode
        tout en utilisant des algorithmes performants
 •  Cette formation s’adresse au profil métier orienté Data Scientist  effets des différents verrous et leviers  •  Création d’un namenode distribué
 •  Acquérir de l’expérience pratique sur plusieurs problèmes réels  Public  •  Manipulation de HDFS
 Prérequis  Public  •  Développeurs, chefs de projets proches du développement, ingénieur   •  Hadoop comme DataLake
 •  Bonnes bases de statistiques et de data mining  scientifique sachant coder  •  Map Reduce
 •  Ingénieurs/Chefs de projet IA, consultants IA et toute personne souhaitant   •  Hive
 Moyens pédagogiques  découvrir les techniques Deep Learning  Prérequis  •  Hadoop comme DataMart
                                                             •  Python HDFS
 •  Formation avec un formateur, dans une salle dédiée à la formation, équipée   Prérequis  •  Maîtriser l’algorithmique, avoir une appétence pour les mathématiques  9. Les bases de données NoSql
      •  La connaissance de Python et des statistiques est un plus
 d’un vidéoprojecteur, d’un tableau blanc ou à distance dans le cas de solutions   •  Bonnes connaissances en statistiques  •  Les bases de données structurées
 de Digital Learning  •  Bonnes connaissances du Machine Learning  Moyens pédagogiques  •  SQL avec SQLite et Postgresql
 •  1 poste de travail par stagiaire adapté aux besoins de la formation + 1 support   Moyens pédagogiques  •  Les bases de données non ACID
 de cours et/ou un manuel de référence au format numérique ou papier  •  Alternance entre apports théoriques et exercices pratiques Support de   •  JSON
 •  Modalités pédagogiques : Exposés – Cas pratiques – Synthèse  •  Formation avec un formateur, dans une salle dédiée à la formation, équipée   cours fourni lors de la formation  •  MongoDB
 d’un vidéoprojecteur, d’un tableau blanc ou à distance dans le cas de solutions   •  Cassandra, Redis, CouchDb
 de Digital Learning        Programme                        •  MongoDB sur HDFS
 •  1 poste de travail par stagiaire adapté aux besoins de la formation + 1 support   •  MongoDB comme DataMart PyMongo
 de cours et/ou un manuel de référence au format numérique ou papier  10. Numpy et SciPy
 •  Modalités pédagogiques : Exposés – Cas pratiques – Synthèse  1. Introduction aux Data Sciences  •  Les tableaux et les matrices
       •  Qu’est que la data science ?                       •  L’algèbre linéaire avec Numpy
 Programme  Programme  •  Qu’est-ce que Python ?             •  La régression linéaire SciPy Le produit et la transposée
       •  Qu’est que le Machine Learning ?                   •  L’inversion de matrice
       •  Apprentissage supervisé vs non supervisé Les statistiques  •  Les nombres complexes
 1. Généralités  1. Introduction  •  La randomisation        •  L’algèbre complexe
 •  Présentation et installation du logiciel R  •  Créer un premier graphe et l’exécuter dans une session.  •  La loi normale  •  Les transformées de Fourier Numpy et Mathplotlib
 •  GUIs et IDEs  •  Cycle de vie de la valeur d’un nœud.  2. Introduction à Python pour les Data Science  11. ScikitLearn
 •  Prise en main et premiers pas  •  Manipuler des matrices.  •  Les bases de Python  •  Régressions polynomiales
 •  Fonctions et packages  •  Régression linéaire.  •  Les listes  •  La régression linéaire
 •  Utilisation des aides  •  Descente de gradient.  •  Les tuples  •  La création du modèle
 2. Rappel des concepts de base du Data Mining  •  Fournir des données à l’algorithme d’entraînement.  •  Les dictionnaires  •  L’échantillonnage
 •  Introduction à R - Concepts de base  •  Enregistrer et restaurer des modèles.  •  Les modules et packages  •  La randomisation
 •  Syntaxe  •  Visualiser le graphe et les courbes d’apprentissage.  •  L’orienté objet  •  L’apprentissage avec fit
 •  Type de données  •  Portées de noms. Partage des variables.  •  Le module math  •  La prédiction du modèle
 •  Import/Export de données  2. Introduction aux réseaux de neurones artificiels  •  Les expressions lambda  •  Les metrics
 •  Manipulation des librairies  •  Du biologique à l’artificiel.  •  Map, reduce et filter  •  Choix du modèle
 3. Manipulation des données  •  Entraîner un PMC (perceptron multicouche) avec une API TensorFlow de   •  Le module CSV  •  PreProcessing et Pipeline
                                                             •  Régressions non polynomiales
       •  Les modules DB-API 2 Anaconda
 •  Rappels des grandeurs statistiques de bases  haut niveau.
 •  Calcul des grandeurs statistiques de bases avec R  •  Entraîner un PMC (perceptron multicouche) avec TensorFlow de base.  3. Introduction aux DataLake, DataMart et DataWharehouse  12. Nearest Neighbors
 •  Aperçu des types de visualisation courants en Data Mining  •  Régler précisément les hyperparamètres d’un réseau de neurones.  •  Qu’est-ce qu’un DataLake ?  •  Algorithme des k plus proches voisins (k-NN)
 •  Fonctions et librairies de base de visualisation avec R  3. Entraînement de réseaux de neurones profonds  •  Les différents types de DataLake  •  Modèle de classification
 4. Data Preprocessing  •  Problèmes de disparition et d’explosion des gradients.  •  Le Big Data Qu’est-ce qu’un DataWharehouse ?  •  K-NN avec SciKitLearn
                                                             •  Choix du meilleur k
       •  Qu’est qu’un DataMart ?
 •  Data Cleaning  •  Réutiliser des couches pré-entraînées.  •  Mise en place d’un DataMart  •  Sérialisation du modèle
 •  Data Reduction (Analyse en composantes principales)  •  Optimiseurs plus rapides.  •  Les fichiers  •  Variance vs Erreurs
 •  Data Preprocessing et ACP avec R  •  Éviter le sur-ajustement grâce à la régularisation.  •  Les bases de données SQL  •  Autres modèles : SVN, Random Forest
 5. Règles d’association  •  Recommandations pratiques.  •  Les bases de données No-SQL  13. Pandas
 •  Rappels théoriques de l’algorithme Apriori  4. Réseaux de neurones convolutifs  4. Python Package Installer  •  L’analyse des données avec Pandas
 •  Application et exploitation des règles d’association avec R  •  L’architecture du cortex visuel.  •  Utilisation de PIP  •  Les Series
 6. Classification et Regression  •  Couche de convolution.  •  Installation de package PIP PyPi  •  Les DataFrames
 •  Couche de pooling.
 •  Règles bayesiennes naïves  •  Architectures de CNN.  5. MathPlotLib  •  La théorie ensembliste avec Pandas
 •  Rappels théoriques  5. Deep Learning avec Keras  •  Utilisation de la bibliothèque scientifique de graphes MathPlotLib  •  L’importation des données CSV
 •  Initiation à la librairie «e1071» de R  •  Affichage de données dans un graphique 2D Affichages de sous-graphes  •  L’importation de données SQL
 •  Arbre de décision CART  •  Régression logistique avec Keras.  •  Affichage de polynômes et de sinusoïdales  •  L’importation de données MongoDB Pandas et SKLearn
 •  Rappels théoriques  •  Perceptron avec Keras.  6. Machine Learning  14. Le Clustering
 •  Initiation à la librarie «party» de R  •  Réseaux de neurones convolutifs avec Keras.  •  Regroupement des données par clusterisation Les clusters SKLearn
 •  Arbre de décision RandomForest  6. Réseaux de neurones récurrents  •  Mise en place d’une machine learning supervisé  avec k-means
 •  Rappels théoriques  •  Neurones récurrents.  •  Qu’est qu’un modèle et un dataset  •  Autres modèles de clusterisation : AffinityPropagation, MeanShift, …
 •  Initiation à la librairie «randomForest» de R  •  RNR de base avec TensorFlow.  •  Qu’est qu’une régression  •  L’apprentissage semi-supervisé
 •  Régression linéaire  •  Entraîner des RNR. RNR profonds.  •  Les différents types de régression  15. Jupyter
 •  Rappels théoriques  •  Cellule LSTM. Cellule GRU.  •  La régression linéaire
 •  Initiation à la fonction lm() de R  •  Traitement automatique du langage naturel.  •  Gestion du risque et des erreurs  •  Présentation de Jupyter et Ipython
 7. Clustering  7. Autoencodeurs  •  Quarter d’Ascombe       •  Installation
                                                             •  Utilisation de Jupyter avec Mathplotlib et Sklearn
       •  Trouver le bon modèle
 •  Centroid-based clustering  •  Représentations efficaces des données.  •  La classification  16. Python Yield
 •  Algorithme du K-means  •  ACP avec un autoencodeur linéaire sous-complet.  •  Loi normale, variance et écart type
 •  Fonction kmeans de R  •  Autoencodeurs empilés.  •  Apprentissage  •  La programmation efficace en Python
 •  Hierarchical clustering  •  Pré-entraînement non supervisé avec des autoencodeurs empilés.  •  Mesure de la performance No Fee Lunch  •  Le générateurs et itérateurs
 •  Concepts théoriques  •  Autoencodeurs débruiteurs. Autoencodeurs épars. Autoencodeurs varia-  7. La régression linéaire en Python  •  Le Yield return
 •  Fonction hclust de R  tionnels. Autres autoencodeurs.    •  Le Yield avec Db-API 2, Pandas et Sklearn
 •  Density-based clustering  •  Programmer une régression linéaire en Python  17. Les réseaux neuronaux
 •  Concepts théoriques  •  Utilisation des expressions lambda et des listes en intention Afficher la   •  Le perceptron
 •  Application dans R  régression avec MathPlotLib          •  Les réseaux neuronaux
 8. Outils de support à R  •  L’erreur quadratique           •  Les réseaux neuronaux supervisés
       •  La variance
 •  Data preprocessing avec Dataiku  •  Le risque            •  Les réseaux neuronaux semi-supervisés
 •  Utilisation de R dans Dataiku                            •  Les réseaux neuronaux par Hadoop Yarn
                                                             •  Les heuristiques
                                                             •  Le deep learning
 162  FORMATIONS 2020  FORMATIONS 2020                                                                    163
   160   161   162   163   164   165   166   167   168   169   170