Muestreo con y sin reemplazamiento en R

Muchas personas, cuando empiezan a estudiar inferencia estadística, se tropiezan con  una idea fundamental, la de la distribución muestral, que para algunos es difícil de entender. Creo que el problema reside en la idea de que se obtiene por la repetición del muestreo en una población. Lo primero que pensamos es que para estudiar una población tenemos una única muestra. Eso es cierto, y en la práctica ocurre así. Sin embargo, la teoría de la inferencia se basa en el estudio del comportamiento de las muestras, lo que llamamos la distribución muestral. Aunque para ello habría que repetir el muestreo un número infinito de veces.

Gracias a los programas informáticos, y en este caso, gracias a R, podemos estudiar esas distribuciones. No podemos extraer un número infinito de muestras, pero al menos, hacerlo en un número lo suficientemente grande. La función sample es la que vamos a usar para ello. En el siguiente ejemplo, he incluido una población (finita y muy pequeña) de valores, incluidos en la variable xv. Si usamos la función sin ninguna especificación adicional, el resultado es que “baraja” o reordena los valores, tal como aparece en las siguientes líneas.

>  xv<-c(5,8,6,7,1,5,3)
> sample(xv)
[1] 5 3 8 6 7 1 5
> sample(xv)
[1] 7 5 5 8 3 6 1
>

Pero podemos pedirle que obtenga muestras de distinto tamaño a partir de estos valores. Por ejemplo, de tamaño 3. Vemos cómo al repetir varias veces el muestreo, los valores que se han obtenido en cada caso no son los mismos. El valor 1 aparece en las dos primeras, igual que el valor 7 pero en otro orden, mientras que el valor 6 lo hace en la primera y en la tercera.

> sample(xv,3)
[1] 6 1 7
> sample(xv,3)
[1] 7 1 3
> sample(xv,3)
[1] 8 5 6

Para conseguir que el muestreo sea con reemplazamiento, incluimos la opción replace=T. En los dos ejemplos siguientes, en una de las muestras el valor 7 aparece tres veces, mientras que en la otra aparece una sola vez, y por supuesto con un orden distinto.

> sample(xv, replace=T)
[1] 3 7 7 6 7 8 8
> sample(xv, replace=T)
[1] 8 5 7 6 5 3 8

Los ejemplos que he usado en este artículo son poco realistas, pero pueden ayudar a conocer la función sample. En los próximos artículos, mostraré cómo a partir de ella se pueden ir construyendo distribuciones muestrales con distintas características.

Created by Pretty R at inside-R.org

Esta entrada fue publicada en educación y etiquetada , , , , , . Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>