Seminar

Processus empiriques dans le cadre des sondages

Emilie Chautru (Institut Télécom, LTCI UMR Télécom ParisTech)

January 8, 2013, 14:00–15:30

Toulouse

Room MS001

Statistics Seminar

Abstract

Le présent travail propose d’étudier l’impact des plans de sondage sur les processus empiriques. En nous plaçant dans le cadre des modèles de surpopulation, nous considérons une variable aléatoire d’intérêt dont les réalisations dans la population sont indépendantes et de même loi de probabilité. Nous nous intéressons alors aux fonctionnelles de l’estimateur de type Horvitz-Thompson de cette mesure de probabilité, et établissons un ensemble de conditions sur le plan de sondage utilisé permettant leur validité asymptotique. Notre approche s’inspire des travaux de T. Saegusa et J.A.Wellner (2011), qui exhibent un ensemble d’hypothèses sous lesquelles de tels processus sont convergents dans le cas précis des plans de sondage stratifiés, potentiellements suivis d’une phase de calibration des poids individuels. Cherchant à généraliser ces résultats à d’autres plans de sondages, nous nous intéressons tout particulièrement aux échantillonnages poissonien, réjectif et séquentiel, tels qu’ils ont été étudiés par J. Hájek (1964) et Y.G. Berger (1998). En généralisant leur approche, nous établissons des théorèmes de type Glivenko-Cantelli et Donsker pour les processus empiriques de type Horvitz-Thompson. Nous discutons ensuite l’impact d’une phase supplémentaire de calibration sur le comportement asymptotique des ces processus. Nous présentons enfin une application de nos travaux à l’étude des valeurs extrêmes. L’objectif principal de cette branche de la statistique est d’estimer des probabilités très faibles correspondant à des événements rares, allant potentiellement au delà de l’observé. Elle utilise les propriétés asymptotiques du maximum d’un échantillon, et étudie dans le cas univarié l’épaisseur des queues de distribution. Cette dernière est déterminée par un indice, appelé indice de valeurs extrêmes, que nous souhaitons estimer. S’il existe d’ores et déjà pléthore d’estimateurs de cette quantité (cf. J. Beirlant, Y. Goegebeur, J. Segers et J. Teugels, 2004), aucun d’entre eux ne tient compte de la méthode d’échantillonnage utilisée pour la récolte des données. Nous introduisons ainsi un nouvel estimateur de l’indice de valeurs extrêmes pour les distributions à queue épaisse, intégrant les poids individuels issus du plan de sondage utilisé, et dont la validité asymptotique est garantie par les résultats obtenus sur les processus empiriques.