PRDH 1852 :: Reaction by prof. Benoit Laplante

1852 Oversampling Strategy

Reaction by prof. Benoit Laplante

The 1852 Census of Upper and Lower Canada:
Proposed Oversampling Strategy, and Discussion

Reaction by prof. Benoît Laplante, Institut national de la recherche scientifique — Urbanisation, Culture, et Société (INRS)

De: Laplante, Benoît
Date: mer, 08-09-04 20h14
Objet: RE: Sur-échantillonage du recensement 1852

Lisa,

Autant que je sache, la methode du donneur (i.e. hot deck method) ne s'utilise qu'au niveau individuel et dans les cas de non reponse complete. Auterment dit, on l'utilise pour remplacer l'ensemble des reponses qu'un individu selectionne dans un echantillon n'a pas donne, et on choisit le donneur de maniere aleatoire au sein de la meme strate ou de la meme grappe, a partir des caracteristiques connues par ailleurs de cet individu, generalement le sexe, l'age, etc. La non reponse partielle se traite generalement a partir de predictions basees sur des modeles de regression qui utilisent les reponses donnes par un individu pour imputer les reponses qu'il n'a pas donnees.

Je ne vois pas tres bien comment on pourrrait utiliser cette approche pour remplacer des strates ou des grappes completes, ce qui est votre probleme.

Dans la mesure ou vous disposez d'informations agregees sur les zones dont vous ne possedez pas les donnes de recensement individuelles, la solution la plus sage passe peut-etre par l'usage de poids. Plutot que de chercher des zones donneuses, il vaudrait peut-etre mieux ponderer les donnes individuelles que vous avez de maniere a calibrer les resultats agreges qui s'obtiennent a partir de votre echantillon sur les donnes agregees de l'ensemble du Canada telles qu'elles existent. Ca ne reglerait pas le problemes des grandes villes dont il ne reste apparememtn a peu pres rien, mais ca devrait pouvoir regler le probleme des zones rurales.

StatCan possede probalbment les meilleurs specialistes au monde de ce genre de probleme. Je suis sur que vous pourriez en trouver un qui pourrait s'interesser a votre probleme.

¡Suerte!

De: Dillon Lisa Y [mailto:ly.dillon@umontreal.ca] Enviado el: jue 2004-09-09 10:05
Para: Laplante, Benoît
Asunto: RE : Sur-échantillonage du recensement 1852

Bonjour Benoit
Merci de votre réponse. Je pense que vous avez expliqué l'utilisation des poids dans une telle manière dans vos recherches, dans une exposé au CIED. J'imagine que je pese juste les sous-districtes dans les districtes ou certaines sous-districtes sont manquantes pour obtenir la distribution de caractéristiques pour ces districtes qu'on trouve dans les statistiques aggregés.

Merci
Lisa

De : "Laplante, Benoît"
Envoyé : 9 septembre, 2004 14:38
À : Dillon Lisa Y
Objet : RE: RE : Sur-échantillonage du recensement 1852

Bonjour Lisa,

Oui, tu peux ajouter mon commentaire aux autres que tu reçois.

Le calibrage est un peu plus compliqué que ce que tu décris. En fait, je m'aperçois à y repenser que ce que j'ai expliqué dans mon message d'hier tient à la fois de la post-stratification et du calibrage.

Dans les deux cas, il s'agit de modifier les poids attribués aux individus de manière à rendre l'échantillon isomorphe à la population dont il est tiré. Dans le premier cas, on divise, a posteriori, l'échantillon en catégories le plus homogènes possibles, et on ajuste les poids pour régler les problèmes de non réponse complète qui ne peuvent pas ètre r-glés par la m-thode du donneur. Le calibrage est utilisé à la dernière étape du calcul des poids, pour s'assurer que la structure générale de l'échantilon reproduit celle de la population.

En fait, le problème auquel vous êtes confrontés dans les zones rurales ressemble à celui que crée la préparation des áchantillons qui servent á utiliser la méthode du bootstrap pour calculer la variance robuste des estimés. Pour faire ces échantillons, il faut tirer des échantillons de grappes au sein de l'échantilon complet. Dans ces nouveaux échantillons, il manque donc des grappes entières. On arrive cependant à calculer des poids qui rendent chacun de ces échantilons représentatif de la population dont l'échantillon original a été tiré, en redistribuant les poids des grappes perdues aux grappes qui restent dans chacun des nouveaux échantillons. Il est possible que j'explique fort mal les détails, mais je crois vraiment qu'une approche de ce genre est celle qui a le plus de chance de régler votre problème.

Encore une fois, bonne chance.

Benoìt

De: Dillon Lisa Y [mailto:ly.dillon@umontreal.ca] Enviado el: Jue 2004-09-16 13:16
Para: Laplante, Benoît
Asunto: Sur-échantillonage du recensement 1852

Bonjour Benoit

Le détail que tu décrit en-dessous que je ne comprends pas exactement est le pratique de tirer des échantillons de mon échantillon, et comment ça sert au processus de déterminer les poids. Je pense pour vraiment comprendre ce travail, je vais devoir m'asseoir devant les données avec un consultant et les discuter ensemble.

L'autre chose: si je pèse certains observations pour compenser pour les lacunes rurales, est-ce que je vais devoir refaire les poids pour chaque analyse? Mon but globale est de préparer une base de données générale que je vais diffuser sur l'Internet pour l'utilisation de tous les chercheurs--alors il faut qu'il est "prêt a utiliser".

...

Merci!
Lisa

Bonjour Lisa,

Tirer des échantillons de grappes au sein d'un échantillon se fait pour préparer les poids de bootstrap des échantillons plans complexes. Je me suis servi de cet exemple pour illustrer qu'il pouvait suffire de recalculer des poinds pour régler le probleme de la perte de grappes. Dans votre cas, il ne serait pas nécessaire de recalculer les poids plus d'une fois. Autrement dit, votre fichier de données ne comprendrait qu'un seul jeu de poids et serait prët a utiliser.

...

Chau,

Benoit

Last updated: 2/10/2021

Reaction by prof. Benoit Laplante

The 1852 Census of Upper and Lower Canada: Proposed Oversampling Strategy, and Discussion

Reaction by prof. Benoît Laplante, Institut national de la recherche scientifique — Urbanisation, Culture, et Société (INRS)

The 1852 Census of Upper and Lower Canada:
Proposed Oversampling Strategy, and Discussion