User Tools

Site Tools


Sidebar

Home

Research

Teaching

Master
Old courses

Private

teaching:master

This is an old revision of the document!


A PCRE internal error occured. This might be caused by a faulty plugin

====== Data Mining/Machine learning ====== ===== Syllabus ===== ==== Informations de base ==== * Nom du cours : Data Mining/Machine learning. * Nombre de crédits : 4 ECTS * Mode d'évaluation : **Projet (40%) + Examen final (60 %)** * Nombre de séances : 24h Cours et 12h TP (sur {{teaching:rlogo.jpg?25}} ou Weka). * Prérequis : Cours M1 en Analyse Factorielle, Algèbre linéaire, éléments de statistiques descriptives et inférentielles. ==== Motivations ==== Ce cours a pour objectif d'introduire les notions de fouille de données et d'apprentissage statistique dans un contexte de grands volumes de données. Il s'agit de former les étudiants aux méthodes de description et de représentation de données multidimensionnelles ainsi qu'aux méthodes de base de leur analyse ; en particulier les méthodes de réduction de dimensionalité (ACP), d'apprentissage non-supervisé (kmeans, CAH, régles d'association) et d'apprentissage supervisé. Le cours sera guidé par des exemples pratiques de données d'entreprises. Les Travaux dirigés se feront sous le logiciel {{teaching:rlogo.jpg?25}} et/ou Weka. ==== Domaines d’applications, quelques exemples : ==== * Marketing (anticiper les comportements des clients, concevoir des offres ciblées). * bioinformatique (étude des lien entre gènes). * Analyse d’enquêtes. * Séries financières. * le Web. * etc. ==== Objectifs d’apprentissage ==== * Savoir se débrouiller face à des grands volumes de données. * Savoir quelle méthode appliquer dans quel cas. * Se souvenir de tout cela en entreprise et dans les cours du Master : * Devenir un //Data Analyst/Scientist// ==== Programme Prévisionnel ==== - ** Introduction générale** - ** Classification non-supervisée** * K-means * Classification hiérarchique * Association * Réduction de dimensionalité : ACP, SVD * Latent Semantic Analysis - **Classification Supervisée** * Arbres de décision * Régression * Séparateurs à Vaste Marge ==== Calendrier Prévisionnel parcours normal ==== ^ Séance ^Semaine^ Materiel ^TD/TP | 1 | 3 dec. | {{teaching:cours_M2_0.pdf|Introduction}} | | | 2 | 10 dec. | {{teaching:coursM2_1.pdf|Kmeans/CAH}} | {{teaching:id_td_cah_kmeans_assoc.pdf|TD Kmeans CAH Association}} | | | | {{teaching:coursM2_2.pdf|Association}} | | | 3 | 18 dec. | {{teaching:m2-id_em.pdf|EM}} |{{teaching:id_tp1_association.pdf|TP Association}} | | 4 | 7 jan. | |{{teaching:id_tp2_kmeans_em.pdf|TP Kmeans vs EM}}| | 5 | 15 jan. | {{:teaching:cours_dimred.pdf |ACP, SVD, LSA}}| {{teaching:exo-acp.pdf|TD ACP}}{{:teaching:tp_textmining.pdf|TP Text Mining}}| | | | {{:teaching:decisiontrees.pdf| Arbres de décision}} | {{teaching:tp_textmining.zip|Data Text Mining}} | | 6 | | {{:teaching:knn_naivebayes.pdf| Knn,Naive Bayes}} | | | | | {{:teaching:validation.pdf| Validation}} | | | 7 | | {{:teaching:coursm2_regression.pdf| Regression}} | {{:teaching:td_regression.pdf|TD Regression}} | | 8 | | {{:teaching:deeplearning_isi.pdf| Deep learning}} | | ==== Consignes pour le projet ==== Le projet est pour vous une opportunité d'explorer un problème intéressant d'apprentissage automatique.Il s'agit de mettre en oeuvre un ou plusieurs algorithmes sur des données "//réelles//". Vous pouvez choisir l'une des **compétitions Kaggle** parmi les [[https://inclass.kaggle.com/Competitions|compétitions actives]]. Vous expliquerez en quoi consiste la compétition, la nature des données, et les méthodes que vous comptez employer pour les tester sur ces données. Les projets peuvent être réalisés par équipe de **2 étudiants** (ou exceptionnellement de3 étudiants). Les membres des équipes sont responsables du découpage du travail de telle sorte que tous les membres contribuent significativement au projet. === Livrables === Les projets donnent lieu aux "livrables" suivants : - **Rapport final** : 10 pages (strict. Les rapports de plus de 10 pages ne seront pas lus !) (60% du projet) - **Archive** contenant le code, un fichier ReadMe expliquant son utilisation/installation et une documentation des différentes partie de celui-ci (40% du projet) Le **rapport final** doit être soumis dans le format d'un [[http://icml.cc/2016/?page_id=151|papier ICML]]. Celui-ci sera évalué en tenant compte de: - La nouveauté du projet proposé et des applications envisagées. Les équipes sont encouragées à proposer de nouvelles idées et de nouvelles applications. Un projet qui apporte de nouvelles idées (méthodes, algorithmes, applications, théories) obtiendra une meilleure note qu'un projet assez banal. - La rigueur et le caractère extensif de l'analyse et/ou des expériences réalisées. Un projet qui répond vraiment aux interrogations et aux doutes éventuels des relecteurs sur l'intérêt de la méthode et sur les performances annoncées obtiendra une note plus élevée. - Une attention particulière doit être portée sur l'évaluation de l'approche, et sur l'effort d'analyse des résultats obtenus. - L'expression, la clarté des explications et la qualité d'exposition. Les rapports peuvent être écrits en français ou en anglais, du moment que c'est clair et bien écrit. === Dates importantes === == Formation classique == * **10 avril 2016** (23:59) : envoi du rapport final et de l'archive == Formation en apprentissage == * **15 mars 2016** : envoie d'une description du projet proposé (1 page) * **30 avril 2016** (23:59) : envoi du rapport final et de l'archive

teaching/master.1457969141.txt.gz · Last modified: 2016/03/14 16:25 by atif