Résumés des contributions

Conférence invitée - Towards the Automation of Data Analysis for Large Scale Relational Data
Marc Boullé
Orange Labs


Large companies like the Orange telecommunication company collect data at a petabyte scale, in a variety of domains such as network design, user experience, text and web mining and customer relationship management. Raw data often come in a relational structure, for example with customers in a main table and their call detail records (CDR) in a secondary one. The supervised analysis of such relational data requires a heavy preprocessing phase of feature construction and selection. In particular, mining relational data requires building complex features aggregating the properties of related objects.

To industrialize this process, we propose to specify the relational structure of data by means of attributes, tables and links across tables and to choose a set of feature construction rules that can be used to build new features. The space of features that can be constructed from this setting is virtually infinite, which raises both combinatorial explosion and over-fitting problems. We introduce a prior distribution in the space of all potentially constructed features, as well as an efficient algorithm to sample constructed features from this distribution. This comes with a model selection approach that assesses the predictive power of constructed features while preventing over-fitting. Extensive experiments show that our approach is robust, efficient, outperforms the state of the art and can deal with large scale industrial problems.

Our approach is implemented in Khiops, a tool widely used at Orange for mining large scale relational databases. The tool allows to carry out complex data mining studies in hours instead of weeks.

 

Modèle LSTM Encodeur-Prédicteur pour la Prévision Court-Terme de la Charge Passagers dans les Transports en Commun
Kevin Pasini(1,2), Mostepha Khouadjia(2), Allou Samé(1), Fabrice Ganansia(3), Patrice Aknin(2), Latifa Oukhellou(1)
(1)COSYS-GRETTIA, Université Gustave Eiffel, IFSTTAR
(2)IRT SystemX,  (3)SNCF- Innovation & Recherche

Les travaux détaillés dans cet exposé portent sur la prévision court-terme de la charge (nombre de passagers) des trains via des méthodes d'apprentissage profond. Cette prévision de l'affluence dans les trains peut servir à enrichir l'information voyageur à destination des usagers des transports collectifs qui peuvent ainsi mieux planifier leurs déplacements. Elle peut également servir aux opérateurs de transport pour une régulation "à la demande" de l'offre de transport. La principale difficulté dans la prévision est liée à la variabilité intrinsèque des séries temporelles des charges à prédire, induite par l'influence de plusieurs paramètres dont ceux liés à l’exploitation (horaire, retard, type de mission…) et au contexte (information calendaire, grand évènement, météo,...). Nous proposons un modèle LSTM encodeur-prédicteur pour résoudre cette tâche de prévision. Plusieurs expérimentations sont menées sur des données réelles du réseau Transilien de la SNCF sur une durée d'un an et demi. Les résultats de prévision sont détaillés en vue de comparer les performances d'un tel modèle à plusieurs horizons temporels avec celles d'autres modèles plus classiques utilisés en prévision.

 

Identification des Situations de Conduite des Deux Roues Motorisés par les Réseaux de Neurones Récurrents
Milad Leyli-Abadi, Abderrahmane Boubezoul, Latifa Oukhellou
Université Gustave Eiffel, IFSTTAR

Dans le contexte des études de conduite en situation réelle (Naturalistic Riding Study), l'identification automatique de l’infrastructure routière pourrait faciliter l'analyse du comportement des deux roues motorisés.  Dans le cadre de cette étude, des simulateurs de conduite et des motos sont instrumentés et les données fournies par les capteurs sont représentées sous forme de séries temporelles multivariées. Ce travail propose l'utilisation des réseaux de neurones récurrents (RNN) pour la modélisation de la dépendance temporelle des situations de conduite et leur classification. L'analyse des paramètres estimés du modèle et des activations du réseau permettent d'interpréter les situations de conduite complexes.

 

Modèles de Blocs Stochastiques Dynamiques pour l'Analyse des Réseaux de Transport
Paul Riverain(1,2), Simon Fossier(2) et Mohamed Nadif(1)
(1)Université de Paris, LIpade, (2)Thalès

TBA

 

Une nouvelle méthode de Classification Ascendante Hiérarchique avec contraintes : hclust.mix
Lise Bellanger(1), Arthur Coulon(2) et Philippe Husi(2)
(1) Université de Nantes, Laboratoire de mathématiques Jean Leray UMR CNRS 6629

(2) CNRS/ Université de Tours, UMR CITERES, Laboratoire Archéologie et Territoires

La classification sous contrainte fait partie des algorithmes d'apprentissage semi-supervisés. Elle diffère de son équivalent sans contrainte en intégrant des connaissances préalables sur les données. La méthode proposée (hclust.mix) est une méthode de classification ascendante hiérarchique (CAH) incluant des contraintes temporelles (resp. spatiales). Elle prend en compte deux sources d'information, potentiellement sujettes à erreur et associées aux mêmes observations. L'une reflète les dissimilarités dans l’espace des caractéristiques étudiées et l'autre la structure des contraintes temporelles (resp. spatiales) entre les observations. Une approche basée sur la distance est adoptée pour modifier la mesure de dissimilarité dans l'algorithme CAH classique en utilisant une combinaison convexe pour prendre en compte les deux matrices de dissimilarité initiales. Dans ce travail, le choix du paramètre de mélange est donc le point clé. Nous définissons un critère basé sur les distances cophénétiques, ainsi qu'une procédure de rééchantillonnage pour garantir la bonne robustesse de la méthode de classification proposée. Le dendrogramme associé à cette CAH peut être interprété comme le résultat d'un compromis entre chaque source d'information analysée séparément.
Nous présentons les résultats obtenus sur un jeu de données archéologiques contenant des informations temporelles et un jeu de données socio-économiques contenant des informations géographiques.

 

Time Series Co-clustering Approach for Autonomous Driving Validation
Etienne Goffinet(1,2), Anthony Coutant(1), Mustapha Lebbah(1), Hanane Azzag(1), Loïc Giraldi(2)
(1)Université Sorbonne Paris Nord, LIPN, (2)Groupe Renault SAS

Le développement de systèmes d'aide à la conduite est en plein essor dans le domaine automobile. Le nombre croissant de ces systèmes, combiné à la diversité des réglementations dans un contexte international ainsi qu'au niveau élevé de fiabilité requis, rend le recours à la simulation massive nécessaire pour leur validation.

Par la simulation, il est possible de tester un large spectre de contextes de conduite de manière précise, ce qui produit une importante quantité de données sous la forme de séries temporelles multivariées. Dans ce contexte, il est indispensable de trouver une structure de dépendance entre les différents signaux simulés pour simplifier l'information et permettre leur interprétation.

Nous proposons un modèle de co-clustering de séries temporelles. Cette méthode étend le modèle des blocs latents en une méthode de classification multi-vues appelée modèle des blocs latents conditionnels. Nous présentons en détail le modèle, l'algorithme d'inférence ainsi que les résultats obtenus sur données réelles.

 

Conférence invitée - Analyse de données aéronautiques pour la réduction de la consommation de carburant
Baptiste Gregorutti
Safety Line

TBA

Personnes connectées : 1