Ce cours a pour objectif d'introduire les notions de fouille de données et d'apprentissage statistique dans un contexte de grands volumes de données. Il s'agit de former les étudiants aux méthodes de description et de représentation de données multidimensionnelles ainsi qu'aux méthodes de base de leur analyse ; en particulier les méthodes de réduction de dimensionalité (ACP), d'apprentissage non-supervisé (kmeans, CAH, régles d'association) et d'apprentissage supervisé. Le cours sera guidé par des exemples pratiques de données d'entreprises. Les Travaux dirigés se feront sous le logiciel et/ou Weka.
Séance | Semaine | Materiel | |
---|---|---|---|
1 | 3 dec. | Introduction | |
2 | 10 dec. | Kmeans/CAH | TD Kmeans CAH Association |
Association | |||
3 | 18 dec. | EM | TP Association |
4 | 7 jan. | TP Kmeans vs EM | |
5 | 15 jan. | ACP, SVD, LSA | TD ACPTP Text Mining |
Arbres de décision | DAta TP Text Mining | ||
6 | Knn,Naive Bayes | ||
Validation | |||
7 | Regression | TD Regression | |
8 | Deep learning | ||
NA | TP Analyse de sentiments Data |
Le projet est pour vous une opportunité d'explorer un problème intéressant d'apprentissage automatique.Il s'agit de mettre en oeuvre un ou plusieurs algorithmes sur des données “réelles”. Vous pouvez choisir l'une des compétitions Kaggle parmi les compétitions actives. Vous expliquerez en quoi consiste la compétition, la nature des données, et les méthodes que vous comptez employer pour les tester sur ces données.
Les projets peuvent être réalisés par équipe de 2 étudiants (ou exceptionnellement de3 étudiants). Les membres des équipes sont responsables du découpage du travail de telle sorte que tous les membres contribuent significativement au projet.
Les projets donnent lieu aux “livrables” suivants :
Le rapport final doit être soumis dans le format d'un papier ICML. Celui-ci sera évalué en tenant compte de: