MSE Master of Science in Engineering

The Swiss engineering master's degree


Chaque module vaut 3 ECTS. Vous sélectionnez 10 modules/30 ECTS parmi les catégories suivantes:

  • 12-15 crédits ECTS en Modules technico-scientifiques (TSM)
    Les modules TSM vous transmettent une compétence technique spécifique à votre orientation et complètent les modules de spécialisation décentralisés.
  • 9-12 crédits ECTS en Bases théoriques élargies (FTP)
    Les modules FTP traitent de bases théoriques telles que les mathématiques élevées, la physique, la théorie de l’information, la chimie, etc., vous permettant d’étendre votre profondeur scientifique abstraite et de contribuer à créer le lien important entre l’abstraction et l’application dans le domaine de l’innovation.
  • 6-9 crédits ECTS en Modules contextuels (CM)
    Les modules CM vous transmettent des compétences supplémentaires dans des domaines tels que la gestion des technologies, la gestion d’entreprise, la communication, la gestion de projets, le droit des brevets et des contrats, etc.

Le descriptif de module (download pdf) contient le détail des langues pour chaque module selon les catégories suivantes:

  • leçons
  • documentation
  • examen 
Analyse des Données Textuelles (TSM_AnTeDe)

Ce module présente les principales méthodes d’analyse des données textuelles, utilisant le traitement automatique des langues (TAL), dans la perspective de la science des données (data science). Les méthodes sont présentées en relation à des applications concrètes, pour extraire des connaissances sur plusieurs plans, à partir de grandes quantités de textes non-structurés. Ces connaissances et applications sont complémentaires à celles internenant dans le domaine de la recherche d’information (RI), avec toutefois plusieurs points communs (p.ex. la représentation des documents) ; des notions avancées de RI seront également présentées.

Ce module est divisé en trois parties, chacune commençant par la présentation d’un ou plusieurs problèmes d’analyse des données textuelles. Puis, les principales méthodes requises pour résoudre ces problèmes sont définies, en mettant l’accent sur leur généralité et leur réutilisabilité. Enfin, pour chaque partie, les méthodes sont mise en œuvre et combinées en vue d’applications concrètes.

Les trois parties sont organisées par ordre croissant de la complexité des analyses textuelles utilisées :

  • Analyse de textes utilisant des « sacs de mots » (les textes sont considérés comme des ensembles de mots indépendants)
  • Analyse de textes utilisant les séquences (ordonnées) de mots
  • Analyse de textes utilisant la structure des propositions (i.e. les relations entre mots)

Compétences préalables

  • Mathématiques: algèbre linéaire de base (p.ex. multiplication de matrices), notions de probabilités (p.ex. formule de Bayes)
  • Statistiques: statistiques descriptives de base (p.ex. moyenne, variance, test d’hypothèse)
  • Programmation: maitrise d’un langage de programmation structurée (p.ex. Python, C++, Java, etc.)
  • Apprentissage automatique (machine learning) : principes des expérimentations, classifieurs élémentaires (p.ex. arbres de décision, classifieur bayésien naïf, machines à vecteur support)

Objectifs d'apprentissage

  • Les étudiants sont capables de classer un problème d’analyse de textes, d’identifier les analyses nécessaires et les traits à extraire, et de les relier à la gamme d’applications déjà étudiées.
  • Les étudiants sont capables de choisir les méthodes de traitement automatique des langues à utiliser pour résoudre un problème nouveau.
  • Les étudiants connaissent une gamme d’outils de TAL et peuvent adapter des systèmes génériques existants à leurs propres besoins.
  • Les étudiants comprennent le rôle des données et des métriques d’évaluation. Etant donnée un problème d’analyse de textes, les étudiants

Catégorie de module

Introduction [5%]: importance de l’analyse des données textuelles ; niveaux d’analyse des langues ; outils fondamentaux ; rappels de statistiques et de recherche d’information ; sources de données ; méthodes d’évaluation ; vue d’ensemble du cours.

Partie A. Analyse de textes comme ensemble de mots [40%]
Motivation (exemples): classification de textes, analyse des sentiments ; nécessité de représenter les mots en tenant compte de leurs sens et leur similarité ; sémantique distributionnelle.

Méthodes: apprentissage de représentations de mots en dimensions réduites, illustration des vecteurs résultants : modèles de topics de la LSA à la LDA ; plongements de mots (embeddings) ; désambiguïsation du sens des mots (basée sur les statistiques ou sur les dictionnaires).

Application des représentations en dimensions réduites à la classification de textes, à l’analyse des sentiments, la recherche d’information, et la recommandation de textes basée sur le contenu (modèles « sacs de mots »).

Partie B. Analyse de textes utilisant les séquences de mots [20%]
Motivation (exemples): prédire le mot suivant dans une phrase, étiquetage morphosyntaxique, reconnaissance d’entités nommées.

Méthodes et applications: extraction de collocations un utilisant l’information mutuelle ; étiquetage morphosyntaxique avec des modèles de Markov cachés (HMM) ; reconnaissance d’entités nommées avec des CRFs ; modèles de langage à base de n-grammes ou de réseaux neuronaux.

Part C. Analyse de textes utilisant les structures des propositions [20%]
Motivation (exemples): capacité à faire des inférences à partir de phrases.

Méthodes: analyse syntaxique, étiquetage des rôles sémantiques, liage des entités nommées, extraction de faits et de relations, modèles neuronaux de la structure des propositions (p.ex. des réseaux de convolution, ou des réseaux hiérarchiques avec attention).

Applications: identification de l’implication logique ou analyse des sentiments avec des réseaux de neurones ; systèmes de question-réponse ; extraction d’information textuelle (entités, relations, faits, événements) et lien avec les ontologies (p.ex. DBpedia).

Part D. Morceaux choisis [15%]
Perspectives sur les autres tâches d’analyse de textes, le cas des données multililingues, le dialogue humain-machine, la recherche et la recommandation d’information.

Méthodes d'enseignement et d'apprentissage

Enseignement magistral, exercices utilisant la programmation

Bibliographie

Foundations of Statistical Natural Language Processing, Christopher Manning & Hinrich Schütze, MIT Press, 1999.

Speech and Language Processing, 2nd edition, Daniel Jurafsky and James H. Martin, Prentice-Hall, 2008.

Introduction to Information Retrieval, Christopher Manning, Prabhakar Raghavan and Hinrich Schütze, 2008.

Natural Language Processing with Python, Steven Bird, Ewan Klein and Edward Loper, O’Reilly, 2009.

Neural Network Methods for Natural Language Processing, Yoav Goldberg, Morgan & Claypool, 2017.

Des articles supplémentaires seront indiqués pour chaque cours.

Télécharger le descriptif complet

Retour