## Séminaires du Pôle 3 : "Sciences des données"

publié le , mis à jour le

### 2018

• Vincent Cohen-Addad, CNRS LIP6, TBA, en salle C110. « Hierarchical clustering : Objective functions and algorithms »
• Benjamin Perret, ESIEE en délégation au LAMSADE, vendredi 12 octobre 2018, à 10h, en salle C108. « Graph based hierarchical clustering for image analysis »
• Rodrigo Mello, ICMC/université de Sao Paulo, vendredi 14 septembre 2018, à 14h, en salle D102. « The Statistical Learning Theory in Practical Problems »
• Sébastien Destercke, UTC/Heudiasyc, mercredi 16 mai 2018, à 11h, en salle C108. « Imprecise probabilities as a way to robustify classification models »
• Nadia Yacoubi-Ayadi, Institut Supérieur de Gestion de Tunis, jeudi 12 avril 2018, à 14h30, en salle A308. « Linked Open Data : Some Research Trends and Application »
• Jill-Jênn Vie, RIKEN AIP, mercredi 11 avril 2018, à 15h00, en salle C108. « (Deep ?) Factorization Machines for Optimizing Human Learning »
• Benoît Gaüzère, INSA de Rouen/LITIS, mardi 20 mars 2018, à 11h, en salle P303. « Graph edit distance as a quadratic assignment problem »
• Zaineb Chelly, Marie Curie Research Fellow à Aberystwyth University, mardi 13 mars 2018, à 14h, en salle C108. « Optimized Framework based on Rough Set Theory for Big Data Pre- processing in Certain and Imprecise Contexts »

### 2017

• Jill-Jênn Vie, RIKEN AIP, mardi 19 septembre 2017, à 14h30, en salle A707. « Using Posters to Recommend Anime and Mangas in a Cold-Start Scenario »
• Yudith Cardinale, Université Simón Bolívar, jeudi 29 juin 2017, à 11h, en salle A 711. « Complex Events Detection, Ontologies, and Smart Buildings : How they meet ? »
• Stéphane Canu, INSA de Rouen /LITIS, lundi 26 juin 2017, à 14h, en salle A304. « Variable selection and outlier detection as a MIP » (séminaire conjoint avec le Pole 2)
• Ikko Yamane, University of Tokyo, jeudi 8 juin 2017, à 14h, en salle P303. « Topics on multitask learning »
• Sébastien Adam, Université de Rouen /LITIS, mardi 30 mai 2017, à 14h, en salle B310. « Apprentissage multi-objectifs dans l’espace ROC » (séminaire conjoint avec le Pole 1)
• Sarah Cohen-Boulakia, Université Paris-Sud/LRI, mardi 28 mars 2017, à 11h, en salle A707. « Reproducibility and Reuse of Big Biological data analyses »
• Claudia Bauzer Medeiros, University of Campinas, jeudi 02 mars 2017, à 15h, en salle A707. « From Data Management Plans (DMP) to experiment reproducibility »
• Maximilien Danisch, Telecom ParisTech, lundi 27 février 2017, à 14h15, en salle D102. « Toward real-world graph algorithmics » (séminaire conjoint avec le Pole 2)
• Florian Yger, Université Paris-Dauphine, vendredi 10 février à 12h05 en salle A707. « Recommandation, matrix factorization and other topics »
• Alexandre Allauzen, Université Paris-Sud/LIMSI, vendredi 27 janvier à 13h00 en salle A711. « Neural Network for Natural Language Processing »

### 2016

• John Kwon, mardi 13 Décembre 2016, à 14h30, en salle A707. « Stratégies de descente miroir pour la minimisation du regret et l’approchabilité »
• Krzysztof Choromanski, Columbia University et Google, jeudi 1er Décembre 2016, à 13h30, en salle P301. « A tale of P-matrices and TripleSpinners - the unreasonable effectiveness of structured models in nonlinear embeddings ».
• Alain Durmus, Telecom ParisTech, lundi 28 Novembre 2016 à 14h30 en salle P303. « Echantillonnage de loi en grandes dimensions avec l’algorithme de Langevin non-ajusté ».
• Mohamed-Amine Baazizi, LIP6, Université Pierre et Marie Curie, mardi 15 Novembre à 14h en salle A 711. « Schema Inference for Massive JSON Datasets »
• Zacharie ALES, Université d’Avignon, lundi 7 Novembre à 14h00 en salle A707. « Extraction et partitionnement pour la recherche de régularités : application à l’analyse de dialogues » (séminaire conjoint avec le Pole 2)
• Florian Yger, Université Paris-Dauphine, jeudi 14 Octobre à 12h00 en salle A711. « Machine Learning »
• Moez Draeif, Huawei technologies, jeudi 16 juin à 14h30 en salle A403. « Robust On-line Matrix Completion on Graphs »
• Witold Litwin, professeur émérite au LAMSADE, lundi 13 juin à 14h en salle A407.
« Relations with Stored and Inherited Attributes »
• Nicolas Courty, université de Bretagne Sud et à l’IRISA, jeudi 26 mai à 14h, en salle P303. « Optimal transport for domain adaptation »
• Sofiane Lagraa, INRIA Rhône-Alpes, mercredi 11 mai à 11h, en salle A707. «
Fouille de données/graphes et applications »
• Verena Kantere, University of Geneva, vendredi 6 mai à 14h, en salle A707. « PAW : A Platform for Analytics Workflows »
• Stamatis Zampetakis, INRIA Saclay, mardi 29 mars à 11h, en salle AR 52-53. « CliqueSquare : Flat Plans for Massively Parallel RDF Queries »
• Hmida Hmida, Dauphine et Tunis-El Manar, mardi 22 mars à 11h, en salle P516. « Méthodes d’échantillonnage pour l’apprentissage supervisé par les Programmes Génétiques »
• Noura Faci, Université Claude Bernard Lyon, mardi 15 mars à 11h, en salle P516. « Network-based Social Coordination of Business Processes »
• Maximer Sangnier, Telecom ParisTech, jeudi 3 mars à 14h, en salle A 707. « Joint quantile regression »
• Claudia Bauzer Medeiros, University of Campinas, mercredi 24 février à 10h, en salle A 707. « Exploring spatio-temporal data in sustainability research »
• Claudia Bauzer Medeiros, University of Campinas, mardi 9 février à 15h30, en salle Amphi 5. « Semantic graphs and views – managing connections in network applications »

### 2015

• Radu Ciucanu, University of Oxford, mardi 15 décembre à 14h, en salle A 711. « Learning Join Queries from User Examples »
• Krzysztof Choromanski, Google Research New York, USA, jeudi 26 novembre à 15h, en salle A711. « New advances in big data analysis - graph theory approach,
efficient information retrieval systems and private machine learning »
• Cristian Borcea, New Jersey Institute of Technology, USA, jeudi 18 juin à 14h, en salle P303. « Mobile Computing and Crowdsensing with Avatars and Aliens »
• Witold Litwin, Université Paris Dauphine, vendredi 5 juin à 14h, en salle P301. « SQL Numerical Value Expressions over Encrypted Cloud Databases »
• Benjamin Negrevergne, KU Leuven University, Belgium, vendredi 24 avril à 14h, en salle A703. « Declarative data mining using constraint satisfaction problems »
• Julien Aligon, Université de Tours, lundi 20 avril à 15h, en salle A703. « Analyse de traces et systèmes centrés utilisateur »
• Ioana Ileana, UC San Diego, jeudi 16 avril à 11h, en salle A302. « Complete Yet Practical Search For Minimal Query Reformulations Under Constraints »
• Albrecht Zimmermann, INSA Lyon, lundi 13 avril à 14h, en salle P516. « Exploratory pattern mining and the need for result verification »
• Aurélien Bellet, Télécom ParisTech, lundi 13 avril à 10h, en salle P516. « The Frank-Wolfe Algorithm : Recent Results and Applications to High-Dimensional Similarity Learning and Distributed Optimization »
• Sabeur Aridhi, University of Trento, jeudi 02 avril à 14h, en salle B203. « Managing and mining big data : Case of graph data »
• Zacharie Ales, IUT d’Orsay, jeudi 02 avril à 10h, en salle B203. « Extraction de régularités dans des tableaux d’annotations »
• Danai Symeonidou, Telecom ParisTech, jeudi 26 mars à 15h, en salle B217. « Knowledge discovery in the Semantic Web »
• Nicoleta Preda, Université de Versailles, mardi 10 mars à 14h, en salle C110. « ANGIE in wonderland »
• Claudia Bauzer Medeiros, University of Campinas, lundi 23 février à 11h, en salle C 108. « Digital Scholarship : Data Science and the Humanities and Social Sciences »
• Sana Ben Hamida, Université Paris Ouest Nanterre, mardi 10 février à 14h, en salle C121. « Les Programmes Génétiques pour l’apprentissage Supervisé ; Extensions pour l’exploitation des données massives »

### 2014

• Alexandra Roatis, Université Paris-Sud, mardi 28 novembre à 14h, en salle B112. « RDF Analytics : Lenses over Semantic Graphs »
• Jesús Camacho Rodriguez, Université Paris-Sud, mardi 30 septembre à 14h, en salle A707. « Reuse-based Optimization for Pig Latin »
• Pavlos Delias, University of Kavala Institute of Technology, mardi 01 Juillet 2014 à 15h, salle A305. « Would you Buy Process Mining to Improve your Processes ? »
• Marco Brambilla, Politecnico di Milano, vendredi 27 Juin 2014 à 14h, salle A305. « Front End Development with Model-Driven Approaches through OMG’s IFML (Interaction Flow Modeling Language) and WebRatio »
• Sushil Jajodia, George Mason University, lundi 26 mai 2014 à 14h, salle A707. « A Mission-Centric Framework for Cyber Situational Awareness »
• Nicolas Travers, CNAM, vendredi 21 mars 2014 à 14h, salle A707.
« Publish/Subscribe filtering technics for continuous textual Web content »

### 2013

• Nadia Gamez, Université de Malaga, vendredi 13 décembre 2013 à 14h, salle B215.
« Managing Variability at Design time and at Runtime with Feature Models : a Middleware Case Study »
• Alessandro Bozzon, Delft University of Technology, mardi 10 décembre 2013 à 14h en salle A711.
« Towards Human-Enhanced Data Management Systems »
• Melanie Herschel, Université Paris Sud, vendredi 22 novembre 2013 à 14h, en salle B203.
« Why-Not Data Provenance »

## Agenda

• ### Mardi 13 mars 14:00-16:00 - Zaineb Chelly - Marie Curie Research Fellow à Aberystwyth University

Séminaires du Pôle 3 : "Sciences des données"

Résumé : Over the last decades, the amount of data has increased in an unprecedented rate, leading to a new terminology : "Big Data". Big data are specified by their Volume, Variety, Velocity and by their Veracity/Imprecision. Based on these 4V specificities, it has become difficult to quickly acquire the most useful information from the huge amount of data at hand. Thus, it is necessary to perform data (pre-)processing as a first step. In spite of the existence of many techniques for this task, most of the state-of-the-art methods require additional information for thresholding and are neither able to deal with the big data veracity aspect nor with their computational requirements. This project’s overarching aim is to fill these major research gaps with an optimized framework for big data pre- processing in certain and imprecise contexts. This talk aims at presenting current progress and insights of this Marie Skłodowska Curie project by proposing solutions based on Rough Set Theory for data pre-processing and Randomized Search Heuristics for optimization. The project involves expertise provided by internal and external collaborators from academic and non-academic institutions, namely Prof Lebbah (University of Paris 13), Prof Shen (University of Aberystwyth), Prof Tino (University of Birmingham), Prof Merelo (University of Granada) and an industrial partner from France.

Notes de dernières minutes : Optimized Framework based on Rough Set Theory for Big Data Pre-processing in Certain and Imprecise Contexts

• ### Mardi 20 mars 11:00-12:00 - Benoît Gaüzère - INSA de Rouen/LITIS

Séminaires du Pôle 3 : "Sciences des données"

Résumé : Graphs allow to encode structural information included within data used in chemical or pattern recognition problems. However, conversely to vectors defined in an euclidean space, the definition of a graph (dis)similarity measure is not straightforward, but required to compute prediction models. One of the most well known dissimilarity measure is the graph edit distance. Despite its good interpretability, the computation of a graph edit distance between two graphs is an NP-Hard
problem. Therefore, its application remains limited to small graphs. During this presentation, I will introduce a formal definition of this metric between graphs as a quadratic assignment problem and some methods used in pattern recognition to approximate an optimal solution. Considering approximations allows us to apply this framework to chemoinformatics problems.

• ### Mercredi 11 avril 15:00-16:00 - Jill-Jênn Vie - RIKEN AIP

Séminaires du Pôle 3 - (Deep ?) Factorization Machines for Optimizing Human Learning

Résumé : With the advent of massive online open courses, platforms have collected millions of logs from students over questions. Educational data mining (EDM) is a community interested in how to use this data to measure or optimize learning¹.
Predicting student performance can be modeled as a sequence prediction problem, or matrix completion, in the flavor of collaborative filtering models usually encountered in recommender systems. In this talk, we will show how factorization machines (FMs) can encompass several existing models in the EDM literature (notably item response theory) as special cases.
We show, using several real large-scale datasets, that FMs can estimate student knowledge accurately even when the observations are sparse, and handle side information such as knowledge components or number of attempts. Our approach allows to train models of higher dimension than existing models, and provides a testbed to try new combinations of features. The question then remains : are Deep FMs better ?
¹ See our upcoming workshop Optimizing Human Learning in Montréal on June 12 : https://humanlearn.io

Lieu : C108

• ### Mercredi 16 mai 11:00-12:00 - Sébastien Destercke - UTC/Heudiasic

Séminaires du Pôle 3 - Imprecise probabilities as a way to robustify classification models

Résumé : Imprecise probability theory offers an elegant framework to
include indecision as an axiomatic basis of uncertainty modelling. In
classification problems, it allows one to make (partial) rejections
without the specific need to quantify corresponding costs. In this
talk, I will recall the basic ideas of Walley’s theory, and then will
illustrative its application to the simple case of naive Bayes
classification. I will then briefly speak about more recent learning
problems considered by such approaches, as well as existing
challenges.

Lieu : C108

• ### Vendredi 14 septembre 14:00-15:00 - Pr. Rodrigo Mello - ICMC Université de Sao Paulo

Séminaires du Pôle 3 - The Statistical Learning Theory in Practical Problems

Résumé : In this talk, Prof Mello discusses about the Statistical Learning Theory, the Bias-Variance Dilemma and how one can obtain a fair space of admissible functions (bias) for supervised learning algorithms. In addition, he will briefly mention his research interests and hopes to discuss such subject with people interest in the area of Machine Learning, Artificial Intelligence, Statistics, etc.

Lieu : D102

• ### Vendredi 12 octobre 10:00-11:00 - Benjamin Perret - ESIEE

Graph based hierarchical clustering for image analysis

Résumé : Hierarchical clustering is a natural approach in image analysis : it provides a decomposition of a scene into objects and iteratively refines the objects into their parts. In this presentation, we first review how hierarchical clustering is used in practice on selected image analysis problems. In a second time, we focus on a particular hierarchical clustering approach, the watershed hierarchy, which corresponds to the solution of a combinatorial optimization problem on edge weighted graphs related to the minimum spanning tree problem. We will see that watershed hierarchies can be computed efficiently and achieve good performance in large computer vision benchmark. Finally, I will present some ongoing works and perspectives, like the application of hierarchal watershed to various graph data or the fusion of hierarchical clusterings.

Lieu : C108

Résumé : Hierarchical clustering is a recursive partitioning of a dataset into clusters at an increasingly finer granularity. Motivated by the fact that most work on hierarchical clustering was based on providing algorithms, rather than optimizing a specific objective, Dasgupta framed similarity-based hierarchical clustering as a combinatorial optimization problem, where a good’ hierarchical clustering is one that minimizes some cost function. He showed that this cost function has certain desirable properties.We take an axiomatic approach to defining good’ objective functions for both similarity and dissimilarity-based hierarchical clustering. We characterize a set of “admissible” objective functions (that includes Dasgupta’s one) that have the property that when the input admits a natural’ hierarchical clustering, it has an optimal value. Equipped with a suitable objective function, we analyze the performance of practical algorithms, as well as develop better algorithms. For similarity-based hierarchical clustering, Dasgupta showed that the divisive sparsest-cut approach achieves an O(log^3/2 n)-approximation. We give a refined analysis of the algorithm and show that it in fact achieves an O(\sqrtlog n)-approx. (Charikar and Chatziafratis independently proved that it is a O(\sqrtlog n)-approx.). This improves upon the LP-based O(logn)-approx. of Roy and Pokutta. For dissimilarity-based hierarchical clustering, we show that the classic average-linkage algorithm gives a factor 2 approx., and provide a simple and better algorithm that gives a factor 3/2 approx..Finally, we consider beyond-worst-case’ scenario through a generalisation of the stochastic block model for hierarchical clustering. We show that Dasgupta’s cost function has desirable properties for these inputs and we provide a simple 1 + o(1)-approximation in this setting.