Seminar

Calibration de pénalités en sélection de modèles: principes de l'heuristique de pente de Arlot-Birgé-Massart, validation théorique en régression hétéroscédastique

Adrien Saumard (Université Rennes 1 - LTCI, Telecom ParisTech)

January 25, 2011, 14:00–15:30

Toulouse

Statistics Seminar

Abstract

Depuis le début des années 90 jusqu'à aujourd'hui, l'étude systématique des procédures de sélection de modèles par pénalisation a mis en évidence, dans une très large mesure, l'optimalité de ces méthodes d'estimation au sens minimax, avec comme conséquence naturelle l'adaptation des estimateurs proposés (Massart, [4]). Au delà d'une légitimation théorique de ce type de procédures, ces travaux ont mis à jour une mécanique mathématique de calcul des pénalités, qui fournit en général en pratique le bon ordre de grandeur pour ces objets, ou en d'autres termes, qui permet d'atteindre la forme de la pénalité idéale pour le problème posé. Mais, comme le souligne (Massart, [5]), la mise en place pratique de ces formes de pénalité, définies à une constante près inconnue du praticien, souffre du risque potentiel de sur-pénalisation, et en fait surtout de sous-pénalisation. En effet, ce dernier cas de figure entraîne une dégradation totale du principe de sélection, au sens où la procédure néglige alors tout compromis «biais-variance» et sélectionne systématiquement les plus grands modèles de la collection considérée. Le thème de la calibration effective et précise des constantes dans les pénalités est ainsi de premier ordre pour le praticien désireux d'appliquer les procédures de pénalisation. En étudiant de manière fine le com- portement de ces procédures dans le modèle linéaire Gaussien généralisé, et en cherchant en particulier des bornes inférieures de pénalité, Birgé et Massart ([2]) ont découvert l'existence sous des hypothèses très sou- ples, d'une pénalité minimale et d'une pénalité optimale pour le problème de pénalisation, telle que la pénalité optimale vaut deux fois la pénalité minimale. Une pénalité optimale est ici une pénalité vérifiant une inégalité oracle (trajectorielle) non-asymptotique, avec constante multiplicative tendant vers un lorsque le nombre de données tend vers l'infini. La pénalité minimale est le seuil maximal de pénalisation tel que la procédure sélectionne systématiquement les plus grands modèles et dont la performance de l'estimateur sélectionné diverge par rapport à celle de l'oracle. Les auteurs remarquent aussi dans ([2]) que la pénalité minimale est le seuil minimal de pénalisation tel que l'estimateur sélectionné vérifie une inégalité oracle non-asymptotique (avec une constante multiplicative dépendant du seuil de pénalisation) et que la dimension du modèle sélectionné est «raisonnable» . La conjonction de ces faits est appelée Heurisitique de pente et permet en pratique une calibration empirique et (quasi)-optimale des pénalités. En effet, à partir d'une forme de pénalité préalablement choisie, on estime la pénalité minimale en localisant le saut en la dimension du modèle sélectionné autour de ce seuil, puis on multiplie la valeur obtenue par deux, on obtient ainsi dans les bons cas une pénalité optimale. La validation théorique de cette recette générique a été donnée dans ([2]) pour les petites et grandes collections de modèles, dans le modèle linéaire Gaussien généralisé, qui contient en particulier le cas de la régression homoscédastique et à design fixe avec bruit Gaussien de variance connue. Puis, Arlot et Massart ([1]) ont validé le phénomène de la pente au cas de la régression hétéroscédastique à design aléatoire sur des petites collections de modèles linéaires d'histogrammes, et ont étendu naturellement l'heuristique initiale de Birgé et Massart à la sélection de M-estimateurs généraux. L'hétéroscédasticité du bruit leur permet en particulier d'exhiber le phénomène de la pente pour une pénalité idéale non nécessairement linéaire, et en fait non nécessairement fonction de la dimension des modèles. Lerasle ([3]) a ensuite démontré la validité des heuristiques de Arlot, Birgé et Massart dans le modèle d'estimation de la densité par moindres carrés, sur des petites collections de modèles linéaires généraux. Nous présenterons une généralisation des résultats d'Arlot et Massart pour la régression hétéroscédastique, prenant en compte des modèles plus généraux, qui ont des bases de type "bases localisées", comme les histogrammes, les polynômes par morceaux ou encore certains modèles d'ondelettes ([7], [8], [6]).