Ejemplo de método simplex de distribución entre almacenes. Método simplex para la resolución de problemas. Solución de programación lineal personalizada

Como regla general, existen algunos desacuerdos entre los indicadores de la población de muestra y los indicadores (parámetros) deseados de la población general, que se denominan errores de muestreo. El error de muestreo general consta de dos tipos de errores: error de registro y error de representatividad.

Los errores de registro son comunes a todos. observación estadística y su aparición puede deberse a falta de atención del registrador, inexactitud de los cálculos, imperfección instrumentos de medida etc.

Los errores de representatividad son inherentes únicamente a la observación selectiva y están determinados por su propia naturaleza, ya que no importa cuán cuidadosa y correctamente se lleve a cabo la selección de unidades, los indicadores promedio y relativos de la población de la muestra siempre diferirán en cierta medida de los indicadores correspondientes. de la población general.

Hay errores de representatividad sistemáticos y aleatorios. Los errores sistemáticos de representatividad son inexactitudes que surgen como resultado del incumplimiento de las condiciones para seleccionar unidades en la población de muestra, al no brindar igualdad de oportunidades para que cada unidad de la población general sea incluida en la muestra. Los errores aleatorios de representatividad son errores que surgen debido a que la población de muestra no reproduce con precisión las características de la población general (media, proporción, varianza, etc.) debido al carácter no continuo de la encuesta.

Si se observa el principio de muestreo aleatorio, el tamaño del error de muestreo depende principalmente del tamaño de la muestra. Cuanto mayor sea el tamaño de la muestra, en igualdad de condiciones, menor será el error de muestreo. Con un tamaño de muestra grande, el efecto de la ley se vuelve más claro grandes números, según el cual: con una probabilidad arbitrariamente cercana a la unidad, se puede afirmar que para suficiente gran volumen muestreo y varianza limitada, las características de la muestra (participación promedio) diferirán tan poco como se desee de las características generales correspondientes.

El tamaño del error de muestreo también está directamente relacionado con el grado de variación de la característica en estudio, y el grado de variación, como se señaló anteriormente, en estadística se caracteriza por el tamaño de la dispersión (dispersión): cuanto menor es la dispersión, cuanto menor sea el error de muestreo, más fiables serán las conclusiones estadísticas. Por tanto, en la práctica, la varianza se identifica con el error de muestreo.

Dado que el parámetro de población es el valor deseado y se desconoce, es necesario centrarse no en un error específico, sino en el promedio de todas las muestras posibles.

Si se seleccionan varias poblaciones de muestra de la población general, entonces cada una de las muestras resultantes dará significado diferente error específico.

Valor cuadrático medio /Y contado de todos valores posibles Los errores específicos (;) serán:

donde * y son promedios muestrales; x - promedio general;)] - número de muestras por valor є1 = ~si - x.

La desviación estándar de las medias muestrales de la media general se denomina error muestral medio.

La dependencia de la magnitud del error de muestreo de su tamaño y del grado de variación de la característica se expresa en la fórmula para el error de muestreo promedio /u.

El error medio al cuadrado (varianza de las medias muestrales) es directamente proporcional a la varianza Ciento y es inversamente proporcional al tamaño de la muestra n:

donde es la varianza del rasgo en la población.

De ahí el error promedio en vista general determinado por la fórmula:

Entonces, una vez determinada la desviación estándar de la muestra, podemos establecer el valor del error de muestreo promedio, cuyo valor, como se desprende de la fórmula, es mayor cuanto mayor es la variación de la variable aleatoria y cuanto menor es la mayor el tamaño de la muestra.

Por lo tanto, a medida que aumenta el tamaño de la muestra, el tamaño del error promedio disminuye. Si, por ejemplo, es necesario reducir el error de muestreo promedio a la mitad, entonces el tamaño de la muestra debe aumentarse cuatro veces; si es necesario reducir el error de muestreo tres veces, entonces el tamaño de la muestra debe aumentarse nueve veces. etc.

En cálculos prácticos, se utilizan dos fórmulas para el error de muestreo promedio para la media y para la proporción.

En un estudio de muestra de indicadores promedio, la fórmula para el error promedio es la siguiente:

Al estudiar indicadores relativos (características particulares), la fórmula para el error promedio tiene la forma:

DóndeGRAMO - la proporción de una característica en la población.

La aplicación de las fórmulas anteriores para el error promedio supone que se conocen la varianza general y la participación general. Sin embargo, en realidad estos indicadores se desconocen y no se pueden calcular debido a la falta de datos sobre la población general. Por tanto, existe la necesidad de sustituir la dispersión general y la participación general por otros valores cercanos a ellos.

En estadística matemática se ha demostrado que tales cantidades pueden ser varianza muestral (st) y fracción muestral (co).

Teniendo en cuenta lo anterior, las fórmulas de error promedio se pueden escribir de la siguiente manera:

Estas fórmulas permiten determinar el error promedio al volver a muestrear. El uso del remuestreo aleatorio simple en la práctica es limitado. En primer lugar, resulta poco práctico y a veces imposible volver a examinar las mismas unidades. El uso de muestreo no repetitivo en lugar de muestreo repetido también viene dictado por el requisito de aumentar el grado de precisión y confiabilidad de la muestra. Por lo tanto, en la práctica, se utiliza con mayor frecuencia el método de selección aleatoria no repetitiva. Según este método de selección, una unidad de población seleccionada para la muestra no participa en una selección posterior. Las unidades se seleccionan de una población reducida por el número de unidades previamente seleccionadas. Por lo tanto, en relación con el cambio en el tamaño de la población general después de cada selección y la probabilidad de selección de las unidades que quedan, se introduce un factor de corrección en las fórmulas para el error de muestreo promedio.

donde N es el tamaño de la población general; norte- tamaño de la muestra. cuando sea suficiente gran importancia N puede despreciarse como uno en el denominador. Entonces

En consecuencia, las fórmulas para el error muestral promedio para el muestreo no repetitivo para el promedio y para la participación, respectivamente, tienen la forma:

Desde norte es siempre menor que M, entonces el factor adicional siempre es menor que uno. Por eso, valor absoluto Los errores de muestreo con un muestreo no repetitivo siempre serán menores que con un muestreo repetido.

Si el tamaño de la muestra es lo suficientemente grande, entonces el valor de 1^ es cercano a la unidad y, por lo tanto, puede despreciarse. Luego, el error promedio del muestreo aleatorio no repetitivo se determina mediante la fórmula del muestreo aleatorio repetido adecuado.

Para nuestro ejemplo, calculemos el error promedio de rendimiento y la proporción de parcelas con un rendimiento de 25 c/ha o más.

Error de muestreo promedio

a) rendimiento medio de cebada

Rendimiento promedio de cebada en la población x -G^= 25,1 ± 0,12 c/ha, es decir, oscila entre 24,98 y 25,22 c/ha.

La proporción de parcelas con un rendimiento de 25 c/ha o más en la población general p

T-^G = 0,80 ± 0,07, es decir oscila entre el 73 y el 87%.

El error de muestreo promedio muestra posibles desviaciones características de la población de muestra a partir de características de la población general. Al mismo tiempo, al realizar observaciones de muestras, los investigadores a menudo se enfrentan a la tarea de calcular no solo el error promedio, sino también determinar el error de muestreo máximo posible. Conociendo el error promedio, es posible determinar los límites más allá de los cuales no excederá el error de muestreo. Sin embargo, se puede afirmar que estas desviaciones no excederán un valor dado no con absoluta certeza, sino sólo con un cierto grado de probabilidad. El nivel de probabilidad que se acepta al determinar posibles límites, que contiene los valores de los parámetros de la población, se denomina nivel de confianza de probabilidad.

probabilidad de confianza- se trata de una probabilidad bastante alta, y tal que prácticamente se considera realizada en cada caso concreto, lo que garantiza la obtención de conclusiones estadísticas fiables. Denotémoslo por GRAMO y la probabilidad de superar este nivel es A. Entonces,A =1 - R ProbabilidadA llamado nivel de significancia(sustancialidad), que caracteriza el número relativo de conclusiones erróneas en el número total de conclusiones y se define como la diferencia entre la unidad y la probabilidad de confianza que se acepta.

El nivel de confianza lo establece el investigador en función del grado de responsabilidad y la naturaleza de las tareas a resolver. En los estudios estadísticos de economía, el nivel de confianza se adopta con mayor frecuencia. GRAMO = 0,95; P = 0,99 (respectivamente, el nivel de significancia A = 0,05; A = 0,01) con menos frecuencia GRAMO = 0,999. Por ejemplo, probabilidad de confianza.Г = 0,99 significa que el error de estimación en 99 casos de 100 no superará el valor establecido y sólo en un caso de 100 podrá alcanzar el valor calculado o superarlo.

El error de muestreo calculado con un determinado grado de probabilidad confiable se llama error marginal de muestreo Eh.

Consideremos cómo se establece el valor del posible error de muestreo máximo. Magnitud ejem está asociado con la desviación normalizada y, que se define como la relación del error de muestreo máximo ejem al error promedio Y:

Para facilitar los cálculos, las desviaciones de una variable aleatoria de su valor medio generalmente se expresan en unidades de desviación estándar. Expresión

llamado desviación normalizada. V En la literatura estadística Y llamado factor de confianza, o el múltiplo del error muestral medio.

Por tanto, la desviación normalizada de la media muestral se puede determinar mediante la fórmula:

y _є_р_

De la expresión 1 Puedes encontrar el posible error máximo de muestreo.

er = i/l.

Sustituyendo en su lugar g. en su significado, presentamos las fórmulas para los errores máximos de muestreo para el promedio y para la proporción en caso de selección aleatoria no repetitiva:

En consecuencia, el error de muestreo máximo depende del valor del error promedio y la desviación normalizada y es igual a ± un múltiplo de los errores de muestreo promedio.

Los errores de muestreo promedio y máximo se denominan cantidades y se expresan en las mismas unidades que la media aritmética y la desviación estándar.

La desviación normalizada está funcionalmente relacionada con la probabilidad. Para encontrar valoresY Se han compilado tablas especiales (ext. 2) en las que se puede encontrar el valor.Y en nivel dado probabilidad de confianza y valor de probabilidad con i conocida.

vamos a dar los valores Y y sus correspondientes probabilidades para muestras de tamañop> 30, que se utiliza con mayor frecuencia en cálculos prácticos:

Por lo tanto, cuando y = 1, la probabilidad de desviación de las características de la muestra de las generales por el valor de un único error de muestreo promedio es 0,6827. Esto significa que, en promedio, de cada 1000 muestras, 683 darán características generalizadas que diferirán de las características generalizadas en no más de un único error promedio. Cuando u = 2, la probabilidad es 0,9545. V Esto significa que de cada 1000 muestras 954 darán características generalizadas que diferirán de las características generalizadas generales en no más de dos veces el error de muestreo promedio, etc.

Sin embargo, debido a que, por regla general, solo se toma una muestra, decimos que, por ejemplo, con una probabilidad de 0,9545 se puede garantizar que el tamaño del error marginal no excederá el doble del error de muestreo promedio. .

Se ha demostrado matemáticamente que la relación entre el error de muestreo y el error medio, por regla general, no supera± 3d para un número suficientemente grande n, a pesar de que el error de muestreo puede tomar cualquier valor. En otras palabras, podemos decir que con una probabilidad de juicio suficientemente alta (P = 0,9973), el error de muestreo máximo, por regla general, no excede los tres errores de muestreo promedio. Por tanto, el valor Ep = 3d puede tomarse como límite de posible error de muestreo.

Para nuestro ejemplo, determinemos el error máximo de muestreo para el rendimiento promedio y la proporción de parcelas con un rendimiento de 25 c/ha o más. Tomaremos el nivel de confianza de probabilidad igual a P = 0,9545. V Según la tabla (adj..2) encuentre los valores y = 2. Los errores de muestreo promedio para el rendimiento y la proporción de parcelas con un rendimiento de 25 c/ha y más se encontraron anteriormente y, en consecuencia, fueron: Ts~= ±0,12 c/ha; MP = ± 0,07.

Error marginal del rendimiento medio de cebada:

Por lo tanto, la diferencia entre el rendimiento promedio de la muestra y el promedio general no será superior a 0,24 c/ha. Los límites del rendimiento medio en la población general: x = x ±es ~ = 25,1 + 0,24, es decir, de 24,86 a 25,34 c/ha.

Error máximo de la proporción de parcelas con un rendimiento igual o superior a 25 c/ha:

En consecuencia, el error máximo al determinar la proporción de parcelas con un rendimiento de 25 c/ha o más no excederá el 14%, es decir, la proporción de parcelas con el rendimiento especificado en la población general está dentro de los límites: GRAMO= a> ± ep = 0,80 ± 0,14, es decir, del 66 al 94%.

Como ya sabemos, la representatividad es propiedad de una población muestral para representar las características de la población general. Si no hay coincidencia, se habla de error de representatividad, una medida de desviación de la estructura estadística de la muestra de la estructura de la población general correspondiente. Supongamos que el ingreso familiar mensual promedio de los jubilados en la población general es de 2 mil rublos y en la población de muestra, de 6 mil rublos. Esto significa que el sociólogo entrevistó sólo a la parte rica de los pensionistas y en su estudio se introdujo un error de representatividad. En otras palabras, el error de representatividad es la discrepancia entre dos poblaciones: la población general, a la que se dirige el interés teórico del sociólogo y una idea de las propiedades que finalmente quiere obtener, y la muestra a la que se dirige el sociólogo. Se dirige el interés práctico, que actúa simultáneamente como objeto de examen y medio para obtener información sobre la población en general.

Junto con el término "error de representatividad" en la literatura nacional, se puede encontrar otro: "error de muestreo". A veces se utilizan indistintamente y, a veces, se utiliza “error de muestreo” en lugar de “error representativo” como concepto cuantitativamente más preciso.

El error de muestreo es la desviación de las características promedio de la población de muestra de las características promedio de la población general.

En la práctica, el error de muestreo se determina comparando características conocidas población con medias muestrales. En sociología, al encuestar a la población adulta, se utilizan con mayor frecuencia datos de censos de población, estadísticas actuales y los resultados de encuestas anteriores. Las características sociodemográficas se suelen utilizar como parámetros de control. La comparación de los promedios de las poblaciones general y muestral, en base a esto, la determinación del error de muestreo y su reducción se denomina control de representatividad. Dado que una vez finalizado el estudio se pueden comparar los datos propios y los de otras personas, este método de control se denomina a posteriori, es decir, realizado después de la experiencia.

En las encuestas Gallup, la representatividad se controla utilizando datos disponibles en los censos nacionales sobre la distribución de la población por género, edad, educación, ingresos, profesión, raza, lugar de residencia, tamaño. asentamiento. Centro Panruso de Estudios opinión pública(VTsIOM) utiliza para tales fines indicadores como género, edad, educación, tipo de asentamiento, Estado civil, área de empleo, situación laboral del encuestado, que están tomados del Comité Estatal de Estadísticas de la Federación de Rusia. En ambos casos se conoce la población. El error de muestreo no se puede determinar si se desconocen los valores de la variable en la muestra y la población.

Los especialistas de VTsIOM garantizan una cuidadosa reparación de la muestra durante el análisis de los datos para minimizar las desviaciones que surgieron durante la etapa de trabajo de campo. Se observan sesgos particularmente fuertes en términos de género y edad. Esto se explica por el hecho de que las mujeres y las personas con educación superior pasar más tiempo en casa y establecer contacto con el entrevistador más fácilmente, es decir son un grupo de fácil acceso en comparación con los hombres y las personas “sin educación”35.

El error de muestreo se debe a dos factores: el método de muestreo y el tamaño de la muestra.

Los errores de muestreo se dividen en dos tipos: aleatorios y sistemáticos. El error aleatorio es la probabilidad de que la media muestral caiga (o no) fuera de un intervalo determinado. Los errores aleatorios incluyen errores estadísticos inherentes al propio método de muestreo. Disminuyen a medida que aumenta el tamaño de la muestra.

El segundo tipo de error de muestreo es el error sistemático. Si un sociólogo decidiera conocer la opinión de todos los vecinos de la ciudad sobre el trabajo realizado por las autoridades locales politica social, y encuestó solo a aquellos que tienen teléfono, entonces hay un sesgo deliberado en la muestra a favor de los estratos adinerados, es decir, error sistemático.

Por tanto, los errores sistemáticos son el resultado de las propias actividades del investigador. Son los más peligrosos porque provocan sesgos bastante importantes en los resultados de la investigación. Los errores sistemáticos se consideran peores que los aleatorios también porque no se pueden controlar ni medir.

Surgen cuando, por ejemplo: 1) la muestra no se corresponde con los objetivos del estudio (el sociólogo decidió estudiar solo a los jubilados que trabajan, pero entrevistó a todos); 2) hay un desconocimiento evidente de la naturaleza de la población en general (el sociólogo pensaba que el 70% de todos los jubilados no trabajaba, pero resultó que sólo el 10% no trabajaba); 3) sólo se seleccionan los elementos "ganadores" de la población general (por ejemplo, sólo los jubilados ricos).

¡Atención! A diferencia de los errores aleatorios, los errores sistemáticos no disminuyen al aumentar el tamaño de la muestra.

Tras resumir todos los casos en los que se producen errores sistemáticos, los metodólogos elaboraron un registro de los mismos. Creen que los siguientes factores pueden ser la fuente de distorsiones incontroladas en la distribución de las observaciones de la muestra:
♦ se violaron las reglas metodológicas y metodológicas para la realización de investigaciones sociológicas;
♦ se eligieron métodos inadecuados para formar una población de muestra, métodos para recopilar y calcular datos;
♦ las unidades de observación necesarias fueron sustituidas por otras más accesibles;
♦ se observó una cobertura incompleta de la población de la muestra (recepción insuficiente de los cuestionarios, cumplimentación incompleta de los mismos, inaccesibilidad a las unidades de observación).

Un sociólogo rara vez comete errores intencionales. Más a menudo, los errores surgen debido al hecho de que el sociólogo no conoce bien la estructura de la población general: la distribución de las personas por edad, profesión, ingresos, etc.

Los errores sistemáticos son más fáciles de prevenir (en comparación con los aleatorios), pero muy difíciles de eliminar. Es mejor evitar errores sistemáticos anticipando con precisión sus fuentes de antemano, desde el comienzo del estudio.

A continuación se muestran algunas formas de evitar errores de muestreo:
♦ cada unidad de la población debe tener la misma probabilidad de ser incluida en la muestra;
♦ es aconsejable seleccionar entre poblaciones homogéneas;
♦ necesita conocer las características de la población general;
♦ al compilar una población de muestra, se deben tener en cuenta los errores aleatorios y sistemáticos.

Si la población de muestra (o simplemente una muestra) se compila correctamente, el sociólogo obtiene resultados confiables que caracterizan a toda la población. Si se compila incorrectamente, entonces el error que surgió en la etapa de muestreo en cada siguiente etapa La realización de un estudio sociológico se multiplica y finalmente alcanza tal valor que supera el valor de la investigación realizada. Dicen que este tipo de investigaciones hacen más daño que bien.

Estos errores sólo pueden ocurrir con una población de muestra. Para evitar o reducir la probabilidad de error, la forma más sencilla es aumentar el tamaño de la muestra (idealmente hasta el tamaño de la muestra general: cuando ambas poblaciones coinciden, el error de muestreo desaparecerá por completo). Económicamente, este método es imposible. Queda otra manera: mejorar métodos matemáticos muestreo. Se utilizan en la práctica. Este es el primer canal de penetración en la sociología de las matemáticas. Segundo canal - procesamiento matemático datos.

El problema de los errores adquiere especial importancia en la investigación de mercados, donde se utilizan muestras pequeñas. Por lo general, son varios cientos y, con menos frecuencia, mil encuestados. Aquí, el punto de partida para el cálculo de la muestra es la cuestión de determinar el tamaño de la población de la muestra. El tamaño de la población de la muestra depende de dos factores: 1) el costo de recopilar información y 2) el deseo de un cierto grado de confiabilidad estadística de los resultados que el investigador espera obtener. Por supuesto, incluso las personas que no tienen experiencia en estadística y sociología entienden intuitivamente lo que tamaños más grandes muestras, es decir Cuanto más se acerquen al tamaño de la población en su conjunto, más fiables y válidos serán los datos obtenidos. Sin embargo, ya hemos hablado anteriormente de la imposibilidad práctica de realizar estudios continuos en los casos en que se realizan sobre objetos cuyo número supera las decenas, cientos de miles e incluso millones. Está claro que el costo de recopilar información (incluido el pago por la replicación de herramientas, la mano de obra de los topógrafos, administradores de campo y operadores de campo) entrada de computadora) depende de la cantidad que el cliente está dispuesto a asignar y depende débilmente de los investigadores. En cuanto al segundo factor, nos detendremos en él con un poco más de detalle.

Así que lo que valor mayor muestras, menor será el error posible. Aunque cabe señalar que si quieres duplicar la precisión, tendrás que aumentar la muestra no en dos, sino en cuatro. Por ejemplo, hacer el doble evaluación precisa datos obtenidos al encuestar a 400 personas, será necesario encuestar no a 800, sino a 1600 personas. Sin embargo, es poco probable investigación de mercados necesita 100% de precisión. Si un cervecero necesita saber qué proporción de consumidores de cerveza prefiere su marca a la de su competidor (60% o 40%), entonces sus planes no se verán afectados en modo alguno por la diferencia entre 57%, 60 o 63%.

El error de muestreo puede depender no sólo de su tamaño, sino también del grado de diferencias entre unidades individuales dentro de la población que estamos estudiando. Por ejemplo, si queremos saber cuánta cerveza se consume, encontraremos que dentro de nuestra población las tasas de consumo diferentes personas difieren significativamente (población heterogénea). En otro caso, estudiaremos el consumo de pan y encontraremos que diferentes personas difiere mucho menos significativamente (población homogénea). Cuanto mayor sea la variación (o heterogeneidad) dentro de una población, mayor será la magnitud del posible error de muestreo. Este patrón sólo confirma lo que nos dice el simple sentido común. Así, como bien afirma V. Yadov, “el tamaño (volumen) de la muestra depende del nivel de homogeneidad o heterogeneidad de los objetos estudiados. Cuanto más homogéneos sean, menores serán los números que puedan proporcionar conclusiones estadísticamente fiables”.

La determinación del tamaño de la muestra también depende del nivel del intervalo de confianza del error estadístico permisible. Se trata de los llamados errores aleatorios, que están asociados con la naturaleza de cualquier error estadístico. V.I. Paniotto proporciona los siguientes cálculos para una muestra representativa, suponiendo un error del 5%:
Esto significa que si, después de haber encuestado, digamos, a 400 personas en una ciudad regional, donde la población adulta solvente es de 100 mil personas, encontró que el 33% de los compradores encuestados prefieren los productos de una planta procesadora de carne local, entonces con el 95% Probablemente se puede decir que el 33+5% (es decir, del 28 al 38%) de los habitantes de esta ciudad son compradores habituales de estos productos.

También puede utilizar los cálculos de Gallup para estimar la proporción del tamaño de la muestra y el error de muestreo.

Errores sistemáticos y aleatorios.

Unidad modular 2 Errores de muestreo

Dado que la muestra suele cubrir una parte muy pequeña de la población, se debe suponer que habrá diferencias entre la estimación y las características de la población que refleja la estimación. Estas diferencias se denominan errores de mapeo o errores de representatividad. Los errores de representatividad se dividen en dos tipos: sistemáticos y aleatorios.

Errores sistemáticos- Se trata de una sobreestimación o subestimación constante del valor de la evaluación en comparación con las características de la población general. El motivo de la aparición de un error sistemático es el incumplimiento del principio de igual probabilidad de que cada unidad de la población general sea incluida en la muestra, es decir, la muestra está formada predominantemente por los "peores" (o "mejores") representantes de la población en general. El cumplimiento del principio de igualdad de oportunidades para cada unidad a incluir en la muestra nos permite eliminar por completo este tipo de error.

Errores aleatorios - Se trata de diferencias que varían de una muestra a otra en signo y magnitud entre la estimación y la característica evaluada de la población. El motivo de la aparición del azar. juego de bichos caso cuando se forma una muestra que constituye sólo una parte de la población general. Este tipo de error es orgánicamente inherente al método de muestreo. Es imposible excluirlos por completo; la tarea es predecir su posible magnitud y reducirlos al mínimo. El orden de las acciones relacionadas con esto se deriva de la consideración de tres tipos de errores aleatorios: específico, medio y extremo.

2.2.1 Específico El error es el error de una muestra tomada. Si la media de esta muestra () es una estimación de la media general (0) y, suponiendo que conocemos esta media general, entonces la diferencia = -0 y será el error específico de esta muestra. Si repetimos la muestra de esta población general muchas veces, cada vez obtendremos un nuevo valor para un error específico: ..., y así sucesivamente. Respecto a estos errores específicos, podemos decir lo siguiente: algunos de ellos coincidirán entre sí en magnitud y signo, es decir, hay una distribución de errores, algunos de ellos serán iguales a 0, hay una coincidencia de la estimación. y el parámetro de la población general;

2.2.2 Error promedio es el cuadrado medio de todos los errores de estimación específicos posibles por casualidad: , donde es la magnitud de los errores específicos cambiantes; frecuencia (probabilidad) de ocurrencia de un error particular. El error de muestreo promedio muestra cuánto error, en promedio, se puede cometer si se hace un juicio sobre un parámetro de población con base en la estimación. La fórmula anterior revela el contenido del error promedio, pero no se puede utilizar para cálculos prácticos, aunque solo sea porque presupone el conocimiento del parámetro de la población, lo que en sí mismo elimina la necesidad de realizar un muestreo.



Cálculos prácticos El error de estimación promedio se basa en la premisa de que (el error promedio) es esencialmente la desviación estándar de todos los valores de estimación posibles. Esta premisa nos permite obtener algoritmos de cálculo del error medio a partir de datos de una única muestra. En particular, el error promedio de la media muestral se puede establecer con base en el siguiente razonamiento. Se tiene una muestra (,…) formada por unidades. Para la muestra, la media muestral se define como una estimación del promedio general. Cada valor (,...) bajo el signo de la suma debe considerarse como una variable aleatoria independiente, ya que con repetición infinita de la muestra el primero, el segundo, etc. las unidades pueden tomar cualquiera de los valores presentes en la población. Por eso Dado que, como se sabe, la varianza de la suma de variables aleatorias independientes es igual a la suma de las varianzas, entonces . De ello se deduce que el error promedio para el promedio de la muestra será igual y está inversamente relacionado con el tamaño de la muestra (a través de la raíz cuadrada de la misma) y en directamente proporción con la desviación estándar de la característica en la población general. Esto es lógico, ya que el promedio muestral es una estimación consistente del promedio general y, a medida que aumenta el tamaño de la muestra, su valor se acerca al parámetro estimado de la población general. La dependencia directa del error promedio de la variabilidad de la característica se debe a que cuanto mayor es la variabilidad de la característica en la población general, más difícil es construir un modelo adecuado de la población general a partir de la muestra. En la práctica, la desviación estándar de una característica en la población se reemplaza por su estimación en la muestra, y luego la fórmula para calcular el error promedio de la media muestral toma la forma: teniendo en cuenta el sesgo de la varianza muestral, la muestra La desviación estándar se calcula mediante la fórmula =. Dado que el símbolo n denota el tamaño de la muestra. , entonces el denominador al calcular la desviación estándar no debe utilizar el tamaño de la muestra (n), sino el llamado número de grados de libertad (n-1). Se entiende por número de grados de libertad el número de unidades de una población que pueden variar (cambiar) libremente si se determina alguna característica a partir de la población. En nuestro caso, al estar determinada la media de la muestra, las unidades pueden variar libremente.

El cuadro 2.2 proporciona fórmulas para calcular los errores promedio de varias estimaciones muestrales. Como puede verse en esta tabla, el error promedio de todas las estimaciones está inversamente relacionado con el tamaño de la muestra y directamente con la variabilidad. Lo mismo puede decirse también del error medio de la fracción de muestra (frecuencia). Debajo de la raíz está la varianza de la característica alternativa, establecida a partir de la muestra ()

Las fórmulas dadas en la Tabla 2.2 se refieren a la llamada selección aleatoria y repetida de unidades en la muestra. Con otros métodos de selección, que se analizarán a continuación, las fórmulas se modificarán ligeramente.

Tabla 2.2

Fórmulas para calcular errores promedio de estimaciones muestrales.

2.2.3 Error de muestreo marginal El conocimiento de la estimación y de su error medio es en algunos casos completamente insuficiente. Por ejemplo, cuando se utilizan hormonas en la alimentación animal, conocer sólo el tamaño medio de sus residuos nocivos no descompuestos y el error medio significa exponer a los consumidores del producto a un grave peligro. Esto sugiere fuertemente la necesidad de determinar el máximo ( error máximo). Cuando se utiliza el método de muestreo, el error máximo no se establece en forma de un valor específico, sino en forma de límites iguales.

(intervalos) en cualquier dirección desde el valor de evaluación.

La determinación de los límites del error máximo se basa en las características de la distribución de errores específicos. Para las llamadas muestras grandes, cuyo número es superior a 30 unidades (), errores específicos distribuido de acuerdo con la ley de distribución normal; con muestras pequeñas () los errores específicos se distribuyen de acuerdo con la ley de distribución de Gosset

(Alumno). En relación con errores de muestreo específicos función promedio la distribución normal tiene la forma: , donde es la densidad de probabilidad de ocurrencia de ciertos valores, siempre que , donde están las medias muestrales; - promedio general, - error promedio del promedio muestral. Dado que el error promedio () es un valor constante, los errores específicos se distribuyen de acuerdo con la ley normal, expresados ​​​​en porcentajes del error promedio, o las llamadas desviaciones normalizadas.

Al tomar la integral de la función de distribución normal, podemos establecer la probabilidad de que el error esté contenido dentro de un cierto intervalo de cambio t y la probabilidad de que el error vaya más allá de este intervalo ( evento inverso). Por ejemplo, la probabilidad de que el error no exceda la mitad del error promedio (en cualquier dirección desde el promedio general) es 0,3829, que el error esté contenido dentro de un error promedio - 0,6827, 2 errores promedio -0,9545 y así sucesivamente.

La relación entre el nivel de probabilidad y el intervalo de cambio t (y, en última instancia, el intervalo de cambio de error) nos permite abordar la determinación del intervalo (o límites) del error máximo, vinculando su valor con la probabilidad de ocurrencia. La probabilidad de ocurrencia es la probabilidad de que el error ocurra en algún intervalo. La probabilidad de ocurrencia será "confianza" si el evento opuesto (el error estará fuera del intervalo) tiene una probabilidad de ocurrencia que puede despreciarse. Por lo tanto, el nivel de confianza de la probabilidad se establece, por regla general, en al menos 0,90 (la probabilidad del evento opuesto es 0,10). Cuanto más consecuencias negativas tiene errores que aparecen afuera establecer intervalo, mayor debería ser el nivel de confianza de la probabilidad (0,95; 0,99; 0,999, etc.).

Habiendo elegido el nivel de confianza de probabilidad de la tabla de la integral de probabilidad de la distribución normal, debe encontrar el valor correspondiente de t y luego, usando la expresión = determinar el intervalo del error máximo. El significado del valor obtenido es el siguiente: con el nivel de confianza de probabilidad aceptado, el error máximo del promedio muestral no excederá el valor.

Para establecer los límites del error máximo basado en muestras grandes para otras estimaciones (varianza, desviación estándar, proporción, etc.), se utiliza el enfoque discutido anteriormente, teniendo en cuenta el hecho de que se utiliza un algoritmo diferente para determinar el promedio. error para cada estimación.

En cuanto a muestras pequeñas (), como ya se mencionó, la distribución de los errores de estimación en este caso corresponde a la distribución t - Student. La peculiaridad de esta distribución es que como parámetro, junto con el error, está el tamaño de la muestra, o más bien no el tamaño de la muestra, sino el número de grados de libertad. A medida que aumenta el tamaño de la muestra, se forma la distribución t-Student. se acerca a lo normal y en estas distribuciones prácticamente coinciden. Comparando los valores del valor t-Student y la distribución t-normal al mismo nivel de confianza, podemos decir que el valor t-Student es siempre mayor que la distribución t-normal, y las diferencias aumentan con una disminución en el tamaño de la muestra y con un aumento en el nivel de confianza de la probabilidad. En consecuencia, cuando se utilizan muestras pequeñas, en comparación con muestras grandes, existen límites de error máximo más amplios, y estos límites se expanden con una disminución en el tamaño de la muestra y un aumento en el nivel de confianza de la probabilidad.

¿Por qué esta presentación? En primer lugar, “error cuadrático medio/estándar de la muestra” es un nombre largo y complejo que a menudo se trunca en los problemas al error “medio” o “estándar”. El hecho de que sean la misma cosa fue para mí en algún momento un verdadero descubrimiento. Este notorio error se presenta en diferentes formas y siempre se escribe de manera diferente, lo que resulta muy confuso. Resulta que esta cosa aparece en muchos lugares, pero cambia constantemente de apariencia. Debido a esto, abarrotamos un montón de fórmulas cuando podemos arreglárnoslas con sólo una o dos.

¿Cómo se designa? ¡Tan pronto como no se burlaran de la desafortunada mujer! Estas son las variaciones ortográficas. error estándar para secundaria en conferencias y libros de texto. Se burlaron de la misma manera del error de fracción, o se olvidaron por completo de su existencia e inmediatamente lo escribieron con una fórmula, lo que confunde mucho a los desafortunados estudiantes. Aquí la denotaré por “ε”, porque, gracias a los dioses, es una letra rara y no puede confundirse ni con un momento ni con una desviación estándar selectiva.

En realidad, la fórmula (la raíz de la varianza por el número de elementos de la muestra o la desviación estándar dividida por la raíz del volumen de la muestra) es la fórmula principal, la base, la base de los fundamentos. ¡Basta con aprenderlo y luego trabajar con la cabeza! ¿Cómo? ¡Sigue leyendo!

Variedades y de dónde vienen 1. Por la acción. La acción tiene una dispersión que se considera inusual. Si la proporción de la característica que se está estudiando se toma como p, y la proporción de “todo lo demás” se toma como q, entonces la varianza es igual a p*q o p*(1 p). De aquí viene la fórmula:

Variedades y de dónde vienen (2) 2. ¿Dónde puedo conseguir el sistema de desviación estándar general? σ es, de hecho, la desviación estándar general que te darán en el problema de la figura. Hay una salida: la varianza muestral S 2, que, como todos saben, está sesgada. Por eso, evaluamos el general así: (para que ni siquiera pienses en moverte), y lo sustituimos. O puedes hacerlo de inmediato: pero existe tal truco. Si n>30, la diferencia entre S y σ es extremadamente pequeña ©, por lo que puedes hacer trampa y escribirlo de manera más simple:

Variedades y de dónde vienen (3) “¿De dónde vienen algunos otros brackets y enki? ? ? » Hay 2 métodos de muestreo, ¿recuerdas? - repetido y no repetitivo. Entonces, todas las fórmulas anteriores son adecuadas para muestreo repetido o cuando la muestra n en relación con la población N es tan pequeña que la relación n/N puede despreciarse. En el caso en que sea absolutamente esencial que la muestra se repita sin repetición, o cuando el problema en texto claro dice cuántas unidades de la población deben usarse.

Errores de muestreo promedio y marginal

La principal ventaja de la observación de muestras, entre otras, es la capacidad de calcular error aleatorio muestras.

Los errores de muestreo pueden ser sistemáticos o aleatorios.

Sistemático- en el caso de que se viole el principio básico del muestreo: la aleatoriedad. Aleatorio- generalmente surgen debido al hecho de que la estructura de la población de muestra siempre difiere de la estructura de la población general, no importa cuán correctamente se realice la selección, es decir, a pesar del principio de selección aleatoria de unidades de población, todavía existen discrepancias. entre las características de la muestra y la población general. El estudio y medición de errores aleatorios de representatividad es la tarea principal del método de muestreo.

Normalmente, lo más habitual es calcular el error de la media y el error de la proporción. Se utilizan las siguientes convenciones para los cálculos:

Promedio calculado dentro de la población;

Promedio calculado dentro de la población de la muestra;

r- la proporción de este grupo en la población general;

w- la proporción de este grupo en la población de muestra.

Usando simbolos, los errores de muestreo para la media y la fracción se pueden escribir de la siguiente manera:

La media muestral y la proporción muestral son variables aleatorias, que puede tomar cualquier valor dependiendo de qué unidades de población se incluyan en la muestra. Por lo tanto, los errores de muestreo también son variables aleatorias y pueden tomar diferentes significados. Por lo tanto, determine el promedio de posibles errores μ .

A diferencia del error sistemático, el error aleatorio se puede determinar de antemano, antes del muestreo, según teoremas de límite considerados en estadística matemática.

El error promedio se determina con una probabilidad de 0,683. En el caso de una probabilidad diferente, se habla de error marginal.

El error muestral promedio para la media y para la proporción se define de la siguiente manera:


En estas fórmulas, la varianza de una característica es una característica de la población general, que se desconoce durante la observación de la muestra. En la práctica, son reemplazados por características similares de la población de muestra basadas en la ley de los grandes números, según la cual la población de muestra reproduce con precisión las características de la población general en grandes cantidades.

Fórmulas para determinar el error promedio para manera diferente selección:

Método de selección Repetido Repetible
error de promedio error de compartir error de promedio error de compartir
Correctamente aleatorio y mecánico
Típico
De serie

μ - error promedio;

∆ - error máximo;

pag - tamaño de la muestra;

NORTE- tamaño de la población;

Varianza total;

w- Participación de esta categoría en el tamaño total de la muestra:

Promedio de variaciones dentro del grupo;

Δ 2 - dispersión intergrupal;

r- número de series de la muestra;

R- número total de episodios.


error marginal para todos los métodos de muestreo se relaciona con el error de muestreo promedio de la siguiente manera:

Dónde t- coeficiente de confianza, funcionalmente relacionado con la probabilidad con la que se garantiza el valor máximo de error. Dependiendo de la probabilidad, el coeficiente de confianza t toma los siguientes valores:

t PAG
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Por ejemplo, la probabilidad de error es 0,683. Esto significa que el promedio general difiere del promedio muestral en valor absoluto en no más de μ con una probabilidad de 0.683, entonces si es la media muestral, es la media general, entonces Con probabilidad 0,683.

Si queremos proporcionar alta probabilidad conclusiones, aumentando así los límites del error aleatorio.

Por tanto, la magnitud del error máximo depende de las siguientes cantidades:

Fluctuaciones de una característica (relación directa), que se caracteriza por la cantidad de dispersión;

Tamaño de la muestra ( comentario);

Probabilidad de confianza (conexión directa);

Método de selección.

Un ejemplo de cálculo del error de la media y el error de la proporción.

Para determinar el número promedio de niños en una familia, se seleccionaron 100 familias de 1000 familias utilizando un método de muestreo aleatorio no repetitivo. Los resultados se muestran en la tabla:

Definir:.

- con una probabilidad de 0,997, el error máximo de muestreo y los límites dentro de los cuales se encuentra el número promedio de hijos en una familia;

- con una probabilidad de 0,954, los límites dentro de los cuales se encuentra la proporción de familias con dos hijos.

1. Determinemos el error máximo del promedio con una probabilidad de 0,977. Para simplificar los cálculos utilizamos el método de los momentos:

pag = 0,997 t= 3

error promedio del promedio, 0.116 - error marginal

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Por tanto, con una probabilidad de 0,997, el número medio de hijos en una familia de la población general, es decir, entre 1000 familias, está en el rango 2,004 - 2,236.




Arriba