Seminar

Algorithmes récursifs pour l’estimation de la médiane fonctionnelle et la classification non supervisée “robuste”

Hervé Cardot (Université de Bourgogne - Institut de Mathématiques de Bourgogne)

December 13, 2013, 14:00–15:15

Toulouse

Room MF 323

MAD-Stat. Seminar

Abstract

Avec le développement des capteurs automatiques (smart meters, box internet, capteurs de température, ...) il est en de plus en plus fréquent d'avoir à analyser en un temps limité de très grands échantillons de données multidimensionnelles (qui peuvent appartenir à des espaces de très grande dimension). Les approches récursives, qui sont rapides et permettent par construction une mise à jour automatique lorsque les données arrivent en ligne, sont alors de bons candidats dans ce contexte de données massives. Nous proposons dans cet exposé de construire un estimateur récursif de la médiane géométrique. La médiane géométrique qui est une extension naturelle de la mediane pour des vecteurs aléatoires à valeurs dans des espaces vectoriels normés est le point de l'espace dont la distance moyenne aux points de la distribution est la plus petite. Cet indicateur de position centrale est, contrairement à la moyenne qui minimise la distance moyenne au carré, robuste et donc peu sensible aux points atypiques (qui peuvent être difficiles à détecter lorsqu'on dispose de grands échantillons de variables a valeurs dans des espaces de grande dimension. Nous utilisons ensuite un procédé de moyennisation qui nous permet d'obtenir un estimateur efficace, au sens où il possede la même loi limite que l'estimateur statique basé sur la minimisation directe du risque empirique. Ce nouvel estimateur se montre également beaucoup moins sensible aux paramètres de descente de l'algorithme que les algorithmes classiques de gradient stochastique. Ces techniques sont ensuite étendues à l'estimation de la médiane conditionnelle par l'introduction d'une fonction noyau dans le critère à minimiser. Nous présentons enfin une extension directe de cet algorithme pour la classification non supervisée en introduisant un critère de type k-medianes. Ces techniques sont illustrées et comparées sur l'estimation de profils d'audience TV et de consommation électrique. Références : Cardot, H., Cénac, P., and Zitt, P.-A. (2013). Efficient and fast estimation of the geometric median in Hilbert spaces with an averaged stochastic gradient algorithm. Bernoulli, 19, 18-43. Cardot, H., Cénac, P. and Monnez, J-M. (2012). A fast and recursive algorithm for clustering large datasets with k-medians. Comput. Statist. Data Analysis, 56, 1434-1449. Cardot, H., Cénac, P. and Zitt, P-A. (2012). Recursive estimation of the conditional geometric median in Hilbert spaces. Elec. J. of Statist., 6, 2535-2562.