Se llama parte de los objetos de la población general. Poblaciones generales y de muestra.

La estadística matemática moderna desarrolla métodos para determinar el número de pruebas necesarias antes de comenzar un estudio (análisis secuencial) y resuelve muchos otros problemas. Se define como la ciencia de la toma de decisiones en condiciones de incertidumbre.

Entonces, Tarea común La estadística matemática consiste en crear métodos de recopilación y procesamiento de datos estadísticos para obtener conclusiones científicas y prácticas.

Sea necesario estudiar un conjunto de objetos homogéneos con respecto a algún rasgo cualitativo o cuantitativo que caracterice a estos objetos. Por ejemplo, si hay un lote de piezas, entonces el estándar de la pieza puede servir como signo cualitativo y el tamaño controlado de la pieza puede servir como signo cuantitativo.

A veces se realiza un examen completo, es decir. examinar cada uno de los objetos de la población respecto de la característica que les interesa. En la práctica, sin embargo, el examen continuo se utiliza relativamente raramente. Por ejemplo, si una población contiene una gran cantidad de objetos, entonces es físicamente imposible realizar una encuesta exhaustiva. Si el estudio de un objeto está asociado con su destrucción o requiere grandes costos de material, entonces prácticamente no tiene sentido realizar un estudio completo. En tales casos, se selecciona aleatoriamente un número limitado de objetos de toda la población y se los somete a estudio.

Población de muestra o simplemente una muestra es una colección de objetos seleccionados al azar.

Población general Se llama colección de objetos de los cuales se hace una selección aleatoria.

Volumen La población (muestra o general) es el número de objetos en esta población. Por ejemplo, si de 1000 partes se seleccionan 100 partes para su examen, entonces el volumen población norte = 1000 y tamaño de la muestra PAG = 100.

Al compilar una muestra, hay dos maneras de proceder: después de seleccionar y observar un objeto, puede o no devolverse a la población. De acuerdo con lo anterior, las muestras se dividen en repetidas y no repetidas.

Repetir Se llama muestra en la que el objeto seleccionado (antes de seleccionar el siguiente) se devuelve a la población.

Repetible Se llama muestra en la que el objeto seleccionado no se devuelve a la población.

En la práctica se suele utilizar un muestreo aleatorio repetido.

Para poder juzgar con suficiente confianza sobre las características de la población de interés basándose en datos de muestra, es necesario que los objetos de la muestra la representen correctamente. En otras palabras, la muestra debe representar correctamente las proporciones de la población. Este requisito se formula brevemente de la siguiente manera: la muestra debe ser representante (representante). Esto significa que a la hora de seleccionar los objetos deben excluirse los motivos personales y otros factores psicológicamente significativos e inconscientes. Es necesario observar estrictamente la aleatoriedad en la selección de objetos, para asegurar que cada objeto tenga la misma probabilidad de ser incluido en la muestra que los demás.

En la práctica se utilizan varias maneras selección. Fundamentalmente, estos métodos se pueden dividir en dos tipos:

1. Selección que no requiera dividir la población general en partes. Éstas incluyen:

a) selección aleatoria simple no repetitiva;

b) selección repetida aleatoria simple.

2. Selección, en la que se divide la población en partes. Éstas incluyen:

a) selección típica;

b) selección mecánica;

c) selección de serie.

aleatorio simple Se llama selección en la que los objetos se seleccionan uno a la vez de toda la población. La selección simple se puede realizar de varias maneras. Por ejemplo, para extraer PAG objetos de la población general de volumen norte haz esto: escribe los números del 1 al norte en cartas que están bien mezcladas y se saca una carta al azar; Se examina un objeto que tiene el mismo número que la tarjeta extraída, luego se devuelve la tarjeta al paquete y se repite el proceso, es decir. se barajan las cartas, se saca una de ellas al azar, etc. eso es lo que hacen PAG veces, terminamos con un simple aleatorio repetir volumen de muestreo PAG.

Si las cartas retiradas no se devuelven al paquete, entonces la selección es aleatoria simple. repetible.

Si la población general se divide en partes típicas, por ejemplo, los cartuchos se dividen por calibre, entonces la selección no se realiza entre todos los cartuchos, sino por separado por calibre. Esta selección se llama típico.

La selección del tipo “se toma uno de cada cinco elementos de la población” se denomina mecánico.

De serie Se llama selección en la que se seleccionan objetos de la población general no uno a la vez, sino en “series” que se someten a un estudio continuo. Por ejemplo, si los productos son fabricados por un gran grupo de máquinas automáticas, entonces los productos de sólo unas pocas máquinas se someten a un examen exhaustivo. La selección en serie se utiliza cuando el rasgo que se examina varía ligeramente en diferentes series.

Destacamos que en la práctica se suele utilizar conjunto selección que combine los métodos anteriores. Por ejemplo, a veces la población se divide en series del mismo tamaño, luego se seleccionan varias series mediante muestreo aleatorio simple y, finalmente, se extraen objetos individuales de cada serie mediante muestreo aleatorio simple.

Conferencia 6. Elementos de la estadística matemática.

Preguntas para controlar el conocimiento y resumir la conferencia impartida.

1. Definir variable aleatoria.

2.Escribir fórmulas para la expectativa matemática y la varianza de variables aleatorias discretas y continuas.

3. Definir el teorema del límite integral local de Laplace

4. Escribir fórmulas que definan la distribución binomial, la distribución hipergeométrica, la distribución de Poisson, la distribución uniforme y la distribución normal.

Objetivo: Estudiar los conceptos básicos de la estadística matemática.

1. Población y muestra

2. Distribución estadística de la muestra. Polígono. gráfico de barras .

3. Estimaciones de parámetros de la población general a partir de su muestra

4. Promedios generales y muestrales. Métodos para su cálculo.

5. Variaciones generales y muestrales.

6. Preguntas para controlar el conocimiento y resumir la conferencia impartida.

Comenzamos a estudiar los elementos de la estadística matemática, que desarrolla métodos con base científica para recopilar datos estadísticos y procesarlos.

1. Población general y muestra. Sea necesario estudiar un conjunto de objetos homogéneos (este conjunto se llama agregado estadístico) sobre algún rasgo cualitativo o cuantitativo que caracterice a estos objetos. Por ejemplo, si hay un lote de piezas, entonces el estándar de la pieza puede servir como signo cualitativo y el tamaño controlado de la pieza puede servir como signo cuantitativo.

Lo mejor es realizar un examen completo, es decir. examinar cada objeto. Sin embargo, en la mayoría de los casos, por diversas razones, esto no es posible. Una gran cantidad de objetos y su inaccesibilidad pueden dificultar un estudio exhaustivo. Si por ejemplo necesitas saber profundidad promedio cráteres por la explosión de un proyectil de un lote experimental, luego, realizando un examen completo, destruiremos todo el lote.

Si no es posible realizar un estudio completo, se selecciona una parte de los objetos de toda la población para su estudio.

La población estadística de la que se selecciona parte de los objetos se llama la población general. Un conjunto de objetos seleccionados aleatoriamente de una población se llama muestreo.

El número de objetos en la población y la muestra se llama respectivamente. volumen población general y volumen muestras.

Ejemplo 10.1. Se examinan los frutos de un árbol (200 piezas) para detectar la presencia de un sabor específico de esta variedad. Para ello se seleccionan 10 piezas. Aquí 200 es el tamaño de la población y 10 es el tamaño de la muestra.

Si se selecciona una muestra de un objeto, que se examina y se devuelve a la población, entonces la muestra se llama repetido. Si los objetos de muestra ya no se devuelven a la población, entonces la muestra se llama repetible.



En la práctica, se utiliza con mayor frecuencia el muestreo no repetitivo. Si el tamaño de la muestra es una pequeña fracción del tamaño de la población, entonces la diferencia entre muestras repetidas y no replicadas es insignificante.

Las propiedades de los objetos de la muestra deben reflejar correctamente las propiedades de los objetos de la población o, como dicen, la muestra debe ser representante(representante). Una muestra se considera representativa si todos los objetos de la población tienen la misma probabilidad de ser incluidos en la muestra, es decir, la selección se realiza al azar. Por ejemplo, para estimar la cosecha futura, se puede tomar una muestra de la población general de frutos que aún no han madurado y examinar sus características (peso, calidad, etc.). Si toda la muestra se toma de un árbol, no será representativa. Una muestra representativa debe consistir en frutos seleccionados al azar de árboles seleccionados al azar.

2. Distribución estadística de la muestra. Polígono. Gráfico de barras. Tomemos una muestra de la población general y X 1 observado norte 1 vez, X 2 - norte 2 una vez, ..., xk-n k veces y norte 1 +norte 2 +…+ nk= PAG - tamaño de la muestra. Valores observados X 1 , X 2 , …, x k llamado opciones, y la secuencia variante, escrita en orden ascendente, es serie de variaciones. Números de observaciones norte 1 , norte 2 , …, nk llamado frecuencias, y su relación con el tamaño de la muestra , , …, - frecuencias relativas. Tenga en cuenta que la suma de las frecuencias relativas es igual a la unidad: .

Distribución estadística de la muestra Llame a una lista de opciones y sus correspondientes frecuencias o frecuencias relativas. La distribución estadística también se puede especificar como una secuencia de intervalos y sus frecuencias correspondientes (distribución continua). La suma de frecuencias de las variantes que caen dentro de este intervalo se toma como la frecuencia correspondiente al intervalo. Para mostrar gráficamente la distribución estadística, utilice polígonos Y histogramas.

Para construir un polígono sobre un eje. Oh opción de diferir valores X yo, en el eje OU - valores de frecuencia PAG i (frecuencias relativas).

Ejemplo 10.2. En la Fig. 10.1 muestra el polígono de la siguiente distribución

El vertedero se suele utilizar en los casos en que gran número opción. En el caso de un gran número de variantes y de una distribución continua del atributo, a menudo se construyen histogramas. Para ello, el intervalo en el que están contenidos todos los valores observados del atributo se divide en varios intervalos parciales de longitud h y encontrar para cada intervalo parcial n yo, - la suma de frecuencias de la variante incluida en i-intervalo. Luego, en estos intervalos, como en las bases, se construyen rectángulos con alturas (o, donde PAG - tamaño de la muestra).

Cuadrado i rectángulo parcial es igual a , (o ).

En consecuencia, el área del histograma es igual a la suma de todas las frecuencias (o frecuencias relativas), es decir tamaño de muestra (o unidad).

Ejemplo 10.3. En la Fig. La figura 10.2 muestra un histograma de una distribución de volumen continua. norte= 100 dado en la siguiente tabla.

Población estadística- un conjunto de unidades que tienen carácter de masa, tipicidad, homogeneidad cualitativa y presencia de variación.

La población estadística consta de objetos materialmente existentes (empleados, empresas, países, regiones), es un objeto.

Unidad de la población— cada unidad específica de una población estadística.

Una misma población estadística puede ser homogénea en una característica y heterogénea en otra.

Uniformidad cualitativa- similitud de todas las unidades de la población sobre alguna base y disimilitud sobre todas las demás.

En una población estadística, las diferencias entre una unidad de población y otra suelen ser de naturaleza cuantitativa. Los cambios cuantitativos en los valores de una característica de diferentes unidades de una población se denominan variación.

Variación de un rasgo- un cambio cuantitativo en una característica (para una característica cuantitativa) durante la transición de una unidad de la población a otra.

Firmar- esta es una propiedad característica u otra característica de unidades, objetos y fenómenos que puedan observarse o medirse. Los signos se dividen en cuantitativos y cualitativos. La diversidad y variabilidad del valor de una característica en unidades individuales de una población se llama variación.

Las características atributivas (cualitativas) no se pueden expresar numéricamente (composición de la población por género). Las características cuantitativas tienen una expresión numérica (composición de la población por edad).

Índice- Esta es una característica cuantitativa y cualitativa generalizada de cualquier propiedad de unidades o agregados en su conjunto en condiciones específicas de tiempo y lugar.

Tanteador Es un conjunto de indicadores que reflejan de manera integral el fenómeno que se estudia.

Por ejemplo, se estudia el salario:
  • Signo - salarios
  • Población estadística: todos los empleados
  • La unidad de la población es cada empleado.
  • Homogeneidad cualitativa - salarios devengados
  • Variación de un signo: una serie de números.

Población y muestra de ella.

La base es un conjunto de datos obtenidos como resultado de medir una o más características. Un conjunto de objetos verdaderamente observado, representado estadísticamente por un número de observaciones de una variable aleatoria, es muestreo, y lo hipotéticamente existente (conjetural) - población general. La población puede ser finita (número de observaciones norte = constante) o infinito ( norte = ∞), y una muestra de una población es siempre el resultado de un número limitado de observaciones. El número de observaciones que forman una muestra se llama tamaño de la muestra. Si el tamaño de la muestra es lo suficientemente grande ( norte → ∞) se considera la muestra grande, de lo contrario se llama muestreo volumen limitado. La muestra se considera pequeño, si al medir una variable aleatoria unidimensional el tamaño de la muestra no excede 30 ( norte<= 30 ), y al medir varios simultáneamente ( k) características en el espacio de relaciones multidimensionales norte A k no excede 10 (n/k< 10) . Los formularios de muestra serie de variación, si sus miembros son estadísticas ordinales, es decir, valores muestrales de la variable aleatoria. X están ordenados en orden ascendente (clasificados), los valores de la característica se denominan opciones.

Ejemplo. Casi el mismo conjunto de objetos seleccionados al azar: los bancos comerciales de un distrito administrativo de Moscú, pueden considerarse como una muestra de la población general de todos los bancos comerciales de este distrito y como una muestra de la población general de todos los bancos comerciales de Moscú. , así como una muestra de los bancos comerciales del país, etc.

Métodos básicos de organización del muestreo.

La confiabilidad de las conclusiones estadísticas y la interpretación significativa de los resultados depende de representatividad muestras, es decir integridad y adecuación de la representación de las propiedades de la población general, en relación con la cual esta muestra puede considerarse representativa. El estudio de las propiedades estadísticas de una población se puede organizar de dos maneras: utilizando continuo Y no continuo. Observación continua prevé el examen de todos unidades estudió totalidad, A observación parcial (selectiva)- sólo partes de él.

Hay cinco formas principales de organizar la observación de muestras:

1. selección aleatoria simple, en el que los objetos se seleccionan aleatoriamente de una población de objetos (por ejemplo, usando una tabla o un generador de números aleatorios), y cada una de las muestras posibles tiene la misma probabilidad. Estas muestras se denominan en realidad al azar;

2. selección simple usando un procedimiento regular se realiza mediante un componente mecánico (por ejemplo, fecha, día de la semana, número de apartamento, letras del alfabeto, etc.) y las muestras así obtenidas se denominan mecánico;

3. estratificado La selección consiste en que la población general del volumen se divide en subpoblaciones o capas (estratos) del volumen de manera que . Los estratos son objetos homogéneos en términos de características estadísticas (por ejemplo, la población se divide en estratos por grupos de edad o clase social; empresas por industria). En este caso, las muestras se llaman estratificado(de lo contrario, estratificado, típico, regionalizado);

4. métodos de serie la selección se utiliza para formar de serie o muestras de nidos. Son convenientes si es necesario inspeccionar un "bloque" o una serie de objetos a la vez (por ejemplo, un lote de bienes, productos de una determinada serie o la población de una división territorial-administrativa del país). La selección de series se puede realizar de forma puramente aleatoria o mecánica. En este caso, se lleva a cabo una inspección completa de un determinado lote de mercancías, o de toda una unidad territorial (un edificio o bloque residencial);

5. conjunto la selección (escalonada) puede combinar varios métodos de selección a la vez (por ejemplo, estratificado y aleatorio o aleatorio y mecánico); tal muestra se llama conjunto.

Tipos de selección

Por mente Se distingue la selección individual, grupal y combinada. En selección individual Se seleccionan unidades individuales de la población general en la población de muestra, con selección de grupo- grupos (series) de unidades cualitativamente homogéneos, y selección combinada Implica una combinación del primer y segundo tipo.

Por método la selección se distingue repetido y no repetitivo muestra.

Repetible llamada selección en la que una unidad incluida en la muestra no regresa a la población original y no participa en una selección posterior; mientras que el número de unidades en la población general norte se reduce durante el proceso de selección. En repetido selección atrapó en la muestra, una unidad después del registro se devuelve a la población general y, por lo tanto, conserva las mismas oportunidades, junto con otras unidades, para ser utilizada en un procedimiento de selección posterior; mientras que el número de unidades en la población general norte permanece sin cambios (el método rara vez se utiliza en la investigación socioeconómica). Sin embargo, con grandes norte (norte → ∞) fórmulas para repetible la selección se acerca a aquellos para repetido selección y estos últimos se utilizan prácticamente con más frecuencia ( norte = constante).

Características básicas de los parámetros de la población general y muestral.

Las conclusiones estadísticas del estudio se basan en la distribución de la variable aleatoria y los valores observados. (x 1, x 2, ..., x n) se llaman realizaciones de la variable aleatoria X(n es el tamaño de la muestra). La distribución de una variable aleatoria en la población general es de naturaleza teórica e ideal, y su análogo muestral es empírico distribución. Algunas distribuciones teóricas se especifican analíticamente, es decir su opciones determine el valor de la función de distribución en cada punto del espacio de posibles valores de la variable aleatoria. Para una muestra, la función de distribución es difícil y a veces imposible de determinar, por lo tanto opciones se estiman a partir de datos empíricos y luego se sustituyen en una expresión analítica que describe la distribución teórica. En este caso, la suposición (o hipótesis) sobre el tipo de distribución puede ser estadísticamente correcto o erróneo. Pero en cualquier caso, la distribución empírica reconstruida a partir de la muestra sólo caracteriza de manera aproximada la verdadera. Los parámetros de distribución más importantes son valor esperado y varianza.

Por su naturaleza, las distribuciones son continuo Y discreto. La distribución continua más conocida es normal. Los análogos de muestra de los parámetros y para ello son: valor medio y varianza empírica. Entre los discretos en la investigación socioeconómica, los más utilizados alternativa (dicotómica) distribución. El parámetro de expectativa matemática de esta distribución expresa el valor relativo (o compartir) unidades de la población que tienen la característica en estudio (se indica con la letra); la proporción de la población que no tiene esta característica se denota con la letra q (q = 1-p). La varianza de la distribución alternativa también tiene un análogo empírico.

Dependiendo del tipo de distribución y del método de selección de unidades de población, las características de los parámetros de distribución se calculan de manera diferente. Los principales para las distribuciones teóricas y empíricas se dan en la tabla. 9.1.

Fracción de muestra k n La relación entre el número de unidades de la población de muestra y el número de unidades de la población general se denomina:

kn = n/N.

Fracción de muestra w es la proporción de unidades que poseen la característica que se está estudiando X al tamaño de la muestra norte:

w = norte norte /norte.

Ejemplo. En un lote de mercancías que contiene 1000 unidades, con una muestra del 5% muestra compartida k n en valor absoluto es 50 unidades. (n = N*0,05); Si se encuentran 2 productos defectuosos en esta muestra, entonces tasa de defectos de muestra w será 0,04 (w = 2/50 = 0,04 o 4%).

Dado que la población de muestra es diferente de la población general, existen errores de muestreo.

Cuadro 9.1 Principales parámetros de la población general y de la muestra

Errores de muestreo

En cualquier caso (continuo y selectivo), pueden producirse errores de dos tipos: de registro y de representatividad. Errores registro puede tener aleatorio Y sistemático personaje. Aleatorio Los errores se deben a muchas causas diferentes e incontrolables, no son intencionados y normalmente se equilibran entre sí (por ejemplo, cambios en el rendimiento del dispositivo debido a fluctuaciones de temperatura en la habitación).

Sistemático los errores están sesgados porque violan las reglas para seleccionar objetos para la muestra (por ejemplo, desviaciones en las mediciones al cambiar la configuración del dispositivo de medición).

Ejemplo. Para evaluar la situación social de la población de la ciudad, está previsto encuestar al 25% de las familias. Si la selección de uno de cada cuatro apartamentos se basa en su número, existe el peligro de seleccionar todos los apartamentos de un solo tipo (por ejemplo, apartamentos de una habitación), lo que provocará un error sistemático y distorsionará los resultados; Es más preferible elegir un número de apartamento por lote, ya que el error será aleatorio.

Errores de representatividad son inherentes únicamente a la observación de la muestra, no se pueden evitar y surgen como resultado del hecho de que la población de la muestra no reproduce completamente la población general. Los valores de los indicadores obtenidos de la muestra difieren de los indicadores de los mismos valores en la población general (u obtenidos mediante observación continua).

Sesgo de muestreo es la diferencia entre el valor del parámetro en la población y su valor muestral. Para el valor medio de una característica cuantitativa es igual a: , y para la acción (característica alternativa) - .

Los errores de muestreo son inherentes únicamente a las observaciones de muestras. Cuanto mayores son estos errores, más difiere la distribución empírica de la teórica. Los parámetros de la distribución empírica son variables aleatorias, por lo tanto, los errores de muestreo también son variables aleatorias, pueden tomar diferentes valores para diferentes muestras y por eso se acostumbra calcular error promedio.

Error de muestreo promedio es una cantidad que expresa la desviación estándar de la media muestral de la expectativa matemática. Este valor, sujeto al principio de selección aleatoria, depende principalmente del tamaño de la muestra y del grado de variación de la característica: cuanto mayor y menor es la variación de la característica (y por tanto del valor), menor es el error muestral medio. . La relación entre las varianzas de las poblaciones general y muestral se expresa mediante la fórmula:

aquellos. cuando es lo suficientemente grande, podemos suponer que . El error de muestreo promedio muestra posibles desviaciones del parámetro de la población de muestra del parámetro de la población general. En mesa La Tabla 9.2 muestra expresiones para calcular el error de muestreo promedio para diferentes métodos de organización de la observación.

Tabla 9.2 Error promedio (m) de la media muestral y proporción para diferentes tipos de muestras

¿Dónde está el promedio de las varianzas de la muestra dentro del grupo para un atributo continuo?

Promedio de las varianzas de la proporción dentro del grupo;

— número de series seleccionadas, — número total de series;

,

¿Dónde está el promedio de la décima serie?

— el promedio general de toda la población de la muestra para una característica continua;

,

¿Dónde está la proporción de la característica en la octava serie?

— la proporción total de la característica en toda la población de la muestra.

Sin embargo, la magnitud del error promedio sólo puede juzgarse con una cierta probabilidad P (P ≤ 1). Lyapunov A.M. demostró que la distribución de las medias muestrales y, por lo tanto, sus desviaciones de la media general, para un número suficientemente grande obedece aproximadamente a la ley de distribución normal, siempre que la población general tenga una media finita y una varianza limitada.

Matemáticamente, esta afirmación para el promedio se expresa como:

y para la acción, la expresión (1) tomará la forma:

Dónde - Hay error marginal de muestreo, que es un múltiplo del error de muestreo promedio , y el coeficiente de multiplicidad es la prueba de Student ("coeficiente de confianza"), propuesta por W.S. Gosset (seudónimo de "Estudiante"); Los valores para diferentes tamaños de muestra se almacenan en una tabla especial.

Los valores de la función Ф(t) para algunos valores de t son iguales a:

Por tanto, la expresión (3) se puede leer de la siguiente manera: con probabilidad P = 0,683 (68,3%) Se puede argumentar que la diferencia entre la muestra y el promedio general no excederá un valor del error promedio. metro(t=1), con probabilidad P = 0,954 (95,4%)- que no supere el valor de dos errores medios metro (t = 2), con probabilidad P = 0,997 (99,7%)- no excederá de tres valores metro (t = 3) . Por tanto, la probabilidad de que esta diferencia supere tres veces el error medio está determinada por nivel de error y no equivale a más 0,3% .

En mesa 9.3 muestra fórmulas para calcular el error de muestreo máximo.

Tabla 9.3 Error marginal (D) de la muestra para la media y proporción (p) para diferentes tipos de observación de muestra

Generalización de resultados muestrales a la población.

El objetivo final de la observación de muestras es caracterizar a la población general. Con tamaños de muestra pequeños, las estimaciones empíricas de los parámetros ( y ) pueden desviarse significativamente de sus valores verdaderos ( y ). Por lo tanto, es necesario establecer límites dentro de los cuales se encuentran los valores verdaderos ( y ) de los valores muestrales de los parámetros ( y ).

Intervalo de confianza de cualquier parámetro θ de la población general es el rango aleatorio de valores de este parámetro, que con una probabilidad cercana a 1 ( fiabilidad) contiene el valor verdadero de este parámetro.

error marginal muestras Δ le permite determinar los valores límite de las características de la población general y su intervalos de confianza, que son iguales:

Línea de fondo intervalo de confianza obtenido por resta error máximo de la media muestral (participación), y la superior sumándola.

Intervalo de confianza para el promedio se utiliza el error máximo de muestreo y para un nivel de confianza determinado se determina mediante la fórmula:

Esto significa que con una probabilidad dada R, que se llama nivel de confianza y está determinado únicamente por el valor t, se puede argumentar que el verdadero valor del promedio se encuentra en el rango de , y el valor real de la acción está en el rango de

Al calcular el intervalo de confianza para tres niveles de confianza estándar P = 95 %, P = 99 % y P = 99,9 % el valor es seleccionado por . Aplicaciones en función del número de grados de libertad. Si el tamaño de la muestra es lo suficientemente grande, entonces los valores correspondientes a estas probabilidades t son iguales: 1,96, 2,58 Y 3,29 . Así, el error marginal de muestreo nos permite determinar los valores límite de las características de la población y sus intervalos de confianza:

La distribución de los resultados de la observación de muestras a la población general en la investigación socioeconómica tiene características propias, ya que requiere una representación completa de todos sus tipos y grupos. La base para la posibilidad de tal distribución es el cálculo. error relativo:

Dónde Δ % - error de muestreo máximo relativo; , .

Hay dos métodos principales para extender una observación de muestra a una población: recálculo directo y método de coeficientes.

Esencia conversión directa consiste en multiplicar la media muestral!!\overline(x) por el tamaño de la población.

Ejemplo. Supongamos que el número medio de niños pequeños en la ciudad se estime mediante el método de muestreo y ascienda a una persona. Si hay 1.000 familias jóvenes en la ciudad, entonces el número de plazas necesarias en las guarderías municipales se obtiene multiplicando este promedio por el tamaño de la población general N = 1.000, es decir tendrá 1200 asientos.

método de probabilidades Es recomendable utilizarlo en el caso de que se realice una observación selectiva para aclarar los datos de la observación continua.

Se utiliza la siguiente fórmula:

donde todas las variables son el tamaño de la población:

Tamaño de muestra requerido

Tabla 9.4 Tamaño de muestra requerido (n) para diferentes tipos de organización de observación de muestras

Al planificar una observación de muestra con un valor predeterminado del error de muestreo permisible, es necesario estimar correctamente el requerido tamaño de la muestra. Este volumen se puede determinar sobre la base del error permisible durante la observación de la muestra en función de una probabilidad dada que garantiza el valor permisible del nivel de error (teniendo en cuenta el método de organización de la observación). Las fórmulas para determinar el tamaño de muestra requerido n se pueden obtener fácilmente directamente a partir de las fórmulas para el error de muestreo máximo. Entonces, de la expresión del error marginal:

El tamaño de la muestra se determina directamente. norte:

Esta fórmula muestra que a medida que disminuye el error máximo de muestreo Δ el tamaño de muestra requerido aumenta significativamente, lo cual es proporcional a la varianza y al cuadrado de la prueba t de Student.

Para un método específico de organización de la observación, el tamaño de muestra requerido se calcula de acuerdo con las fórmulas que figuran en la tabla. 9.4.

Ejemplos prácticos de cálculo

Ejemplo 1. Cálculo del valor medio y el intervalo de confianza para una característica cuantitativa continua.

Para evaluar la velocidad de liquidación con los acreedores, se realizó en el banco una muestra aleatoria de 10 documentos de pago. Sus valores resultaron ser iguales (en días): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Necesario con probabilidad P = 0,954 determinar el error marginal Δ media muestral y límites de confianza del tiempo de cálculo medio.

Solución. El valor medio se calcula utilizando la fórmula de la tabla. 9.1 para la población de muestra

La varianza se calcula utilizando la fórmula de la tabla. 9.1.

Error cuadrático medio del día.

El error promedio se calcula mediante la fórmula:

aquellos. el promedio es x ± m = 12,0 ± 2,3 días.

La confiabilidad de la media fue

Calculamos el error máximo usando la fórmula de la tabla. 9.3 para muestreo repetido, ya que se desconoce el tamaño de la población, y para P = 0,954 nivel de confianza.

Por tanto, el valor medio es `x ± D = `x ± 2m = 12,0 ± 4,6, es decir su valor real se encuentra en el rango de 7,4 a 16,6 días.

Usando la tabla t de Student. La aplicación nos permite concluir que para n = 10 - 1 = 9 grados de libertad, el valor obtenido es confiable con un nivel de significancia de £ 0,001, es decir el valor medio resultante es significativamente diferente de 0.

Ejemplo 2. Estimación de probabilidad (participación general) p.

Un método de muestreo mecánico para encuestar el estatus social de 1000 familias reveló que la proporción de familias de bajos ingresos era w = 0,3 (30%)(la muestra fue 2% , es decir. norte/norte = 0,02). Requerido con nivel de confianza p = 0,997 determinar el indicador R familias de bajos ingresos en toda la región.

Solución. Basado en los valores de función presentados. Ф(t) encontrar para un nivel de confianza dado P = 0,997 significado t = 3(ver fórmula 3). Error marginal de fracción w determinar mediante la fórmula de la tabla. 9.3 para muestreo no repetitivo (el muestreo mecánico siempre es no repetitivo):

Error de muestreo relativo máximo en % será:

La probabilidad (proporción general) de familias de bajos ingresos en la región será ð=w±Δw, y los límites de confianza p se calculan en función de la doble desigualdad:

w — Δ w ≤ p ≤ w — Δ w, es decir. el verdadero valor de p se encuentra dentro de:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Así, con una probabilidad de 0,997 se puede afirmar que la proporción de familias de bajos ingresos entre todas las familias de la región oscila entre el 28,6% y el 31,4%.

Ejemplo 3. Cálculo del valor medio y el intervalo de confianza para una característica discreta especificada por una serie de intervalos.

En mesa 9.5. Se especifica la distribución de aplicaciones para la producción de pedidos según el momento de su implementación por parte de la empresa.

Tabla 9.5 Distribución de observaciones por tiempo de aparición

Solución. El tiempo medio para completar los pedidos se calcula mediante la fórmula:

El periodo medio será:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 meses.

Obtenemos la misma respuesta si utilizamos los datos sobre p i de la penúltima columna de la tabla. 9.5, usando la fórmula:

Tenga en cuenta que la mitad del intervalo de la última gradación se encuentra completándola artificialmente con el ancho del intervalo de la gradación anterior igual a 60 - 36 = 24 meses.

La varianza se calcula mediante la fórmula.

Dónde xyo- la mitad de la serie de intervalos.

¡¡Por lo tanto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), y el error cuadrático medio es .

El error promedio se calcula utilizando la fórmula mensual, es decir ¡¡el valor promedio es!!\overline(x) ± m = 23,1 ± 13,4.

Calculamos el error máximo usando la fórmula de la tabla. 9,3 para selección repetida, ya que se desconoce el tamaño de la población, para un nivel de confianza de 0,954:

Entonces el promedio es:

aquellos. su valor real se encuentra en el rango de 0 a 50 meses.

Ejemplo 4. Para determinar la velocidad de los acuerdos con los acreedores de N = 500 empresas corporativas en un banco comercial, es necesario realizar un estudio de muestra utilizando un método de selección aleatorio no repetitivo. Determine el tamaño de muestra requerido n de modo que con probabilidad P = 0,954 el error de la media muestral no exceda de 3 días si las estimaciones de prueba mostraron que la desviación estándar s fue de 10 días.

Solución. Para determinar el número de estudios necesarios n, utilizaremos la fórmula de selección no repetitiva de la tabla. 9.4:

En él, el valor t se determina a partir de un nivel de confianza de P = 0,954. Es igual a 2. El valor cuadrático medio es s = 10, el tamaño de la población es N = 500 y el error máximo de la media es Δ x = 3. Sustituyendo estos valores en la fórmula, obtenemos:

aquellos. Basta compilar una muestra de 41 empresas para estimar el parámetro requerido: la velocidad de los acuerdos con los acreedores.

Estadisticas matematicas Es una rama de las matemáticas que estudia métodos aproximados para encontrar leyes de distribución y características numéricas basadas en resultados experimentales.

Población – este es el conjunto de todos los valores concebibles de observaciones (objetos), homogéneos con respecto a algún atributo, que podrían hacerse.

Muestra es una colección de observaciones (objetos) seleccionados al azar para estudio directo de la población general.

Distribución estadística es un conjunto de variantes x i y sus correspondientes frecuencias n i .

Histograma de frecuencia es una figura escalonada que consta de rectángulos adyacentes construidos en la misma línea recta, cuyas bases son idénticas e iguales al ancho de la clase, y la altura es igual a la frecuencia de caída en el intervalo n i o la frecuencia relativa n i / n. El ancho del intervalo i se puede determinar. según la fórmula de Sturges:

I=(x máx -x mín)/(1+3,32lgn),

Donde x max – máximo; x min es el valor mínimo de la opción, y su diferencia se llama rango de variación; norte – tamaño de la muestra.

Polígono de frecuencia – una línea discontinua, cuyos segmentos conectan puntos con coordenadas x i, n i.

5. Características de posición (moda, mediana, media muestral) y dispersión (varianza muestral y desviación estándar muestral).

Moda (M oh ) estas son variantes de tal significado que los significados anteriores y siguientes tienen frecuencias de aparición más bajas.

Para distribuciones unimodales, una moda es la variante que ocurre con más frecuencia en una población determinada.

Para determinar la moda de una serie de intervalos, utilice la fórmula:

METRO 0 =x abajo +yo*((n 2 -norte 1 )/(2n 2 -norte 1 +n 3 )),

donde x lower es el límite inferior de la clase modal, es decir clase con mayor frecuencia de ocurrencia n 2; n 2 – frecuencia de clase modal; n 1 – frecuencia de la clase que precede a la modal; n 3 – frecuencia de la clase junto al modal; i es el ancho del intervalo de clase.

Mediana (m mi )- este es el valor del atributo. Respecto al cual la serie de distribución se divide en 2 partes iguales en volumen.

Muestra promedio – este es el valor medio aritmético de una variante de la serie estadística

varianza muestral– media aritmética de las desviaciones al cuadrado de su valor medio:

Desviación Estándar es la raíz cuadrada de la varianza muestral:

S V =√(S V 2 )

6. Estimación de los parámetros de la población general a partir de su muestra (punto e intervalo). Intervalo de confianza y probabilidad de confianza.

Los valores numéricos que caracterizan a la población se denominan. parámetros.

La estimación estadística se puede realizar de dos formas:

1)punto estimado– una estimación que se da para un punto determinado;

2)estimación de intervalo– a partir de los datos de la muestra se estima el intervalo en el que se encuentra el valor real con una probabilidad dada.

Punto estimado Es una puntuación que está determinada por un único número. Y este número se determina mediante muestreo.

La estimación puntual se llama adinerado, si, a medida que aumenta el tamaño de la muestra, la característica de la muestra tiende a la característica correspondiente de la población general.

La estimación puntual se llama eficaz, si tiene la varianza de distribución muestral más pequeña en comparación con otras estimaciones similares.

La estimación puntual se llama imparcial, si su expectativa matemática es igual al parámetro de estimación para cualquier tamaño de muestra.

Estimación insesgada de la media general.(expectativa matemática) es el promedio muestral en:

V = i norte i ,

donde x i – opciones de muestreo; n i – frecuencia de aparición de la opción x i; norte – tamaño de la muestra.

Estimación de intervalo es un intervalo numérico que está determinado por dos números: los límites del intervalo, que contienen un parámetro desconocido de la población general.

Intervalo de confianza– se trata de un intervalo en el que, con una u otra probabilidad predeterminada, se sitúa un parámetro desconocido de la población.

probabilidad de confianzapag esta es una probabilidad tal que el evento de probabilidad (1-p) puede considerarse imposible. α=1-р es el nivel de significancia. Normalmente, como probabilidades de confianza se utilizan probabilidades cercanas a 1. Entonces, el evento de que el intervalo cubra la característica será prácticamente confiable. Estos son p≥0,95, p≥0,99, p≥0,999.

Para un tamaño de muestra pequeño (n<30) нормально распределенного количественного признака х доверительный интервал может иметь вид:

V - metrot≤≤ V + metrot (р≥0,95),

¿Dónde está el promedio general? c – promedio muestral; t es el indicador normalizado de la distribución de Student con (n-1) grados de libertad, que está determinado por la probabilidad de que el parámetro general caiga en un intervalo dado; m es el error de la media muestral.

Se trata de una ciencia que, basándose en los métodos de la teoría de la probabilidad, se ocupa de la sistematización y procesamiento de datos estadísticos para obtener conclusiones científicas y prácticas.

Datos estadísticos Se refiere a información sobre la cantidad de objetos que tienen ciertas características. .

Un grupo de objetos unidos según alguna característica cualitativa o cuantitativa se llama totalidad estadística . Los objetos incluidos en una colección se llaman elementos y su número total es su volumen.

Población general es el conjunto de todas las observaciones concebiblemente posibles que podrían hacerse bajo un conjunto real dado de condiciones o más estrictamente: la población general es la variable aleatoria x y el espacio de probabilidad asociado (W, Á, P).

La distribución de una variable aleatoria x se llama distribución de la población(se habla, por ejemplo, de una población normalmente distribuida o simplemente normal).

Por ejemplo, si se realizan varias mediciones independientes de una variable aleatoria X, entonces la población general es teóricamente infinita (es decir, la población general es un concepto abstracto, convencionalmente matemático); Si se verifica el número de productos defectuosos en un lote de N productos, entonces este lote se considera como una población general finita de volumen N.

En el caso de la investigación socioeconómica, la población general del volumen N puede ser la población de una ciudad, región o país, y las características medidas pueden ser los ingresos, los gastos o la cantidad de ahorros de una persona individual. Si algún atributo es de naturaleza cualitativa (por ejemplo, género, nacionalidad, estatus social, ocupación, etc.), pero pertenece a un conjunto finito de opciones, entonces también se puede codificar como un número (como se hace a menudo en los cuestionarios). ).

Si el número de objetos N es lo suficientemente grande, entonces es difícil y, a veces, físicamente imposible realizar un estudio completo (por ejemplo, verificar la calidad de todos los cartuchos). Luego, de toda la población, se selecciona aleatoriamente un número limitado de objetos y se los somete a estudio.

Población muestral o simplemente muestreo de volumen n es una secuencia x 1 , x 2 , ..., x n de variables aleatorias independientes distribuidas idénticamente, cuya distribución de cada una de las cuales coincide con la distribución de la variable aleatoria x.

Por ejemplo, los resultados de las primeras n mediciones de una variable aleatoria X Se acostumbra considerarla como una muestra de tamaño n de una población infinita. Los datos obtenidos se llaman observaciones de una variable aleatoria x, y también dicen que la variable aleatoria x “toma los valores” x 1, x 2,…, x n.


La tarea principal de la estadística matemática es sacar conclusiones con base científica sobre la distribución de una o más variables aleatorias desconocidas o su relación entre sí. Se denomina método al método que consiste en que, a partir de las propiedades y características de la muestra, se extraen conclusiones sobre las características numéricas y la ley de distribución de una variable aleatoria (población general). por método selectivo.

Para que las características de una variable aleatoria obtenida por el método de muestreo sean objetivas, es necesario que la muestra sea representante aquellos. representó bastante bien la cantidad estudiada. En virtud de la ley de los grandes números, se puede argumentar que la muestra será representativa si se realiza de forma aleatoria, es decir Todos los objetos de la población tienen la misma probabilidad de ser incluidos en la muestra. Existen diferentes tipos de selección de muestras para este fin.

1. Simple El muestreo aleatorio es una selección en la que se seleccionan objetos uno por uno de toda la población.

2. Estratificado (estratificado) la selección es que la población original de volumen N se divide en subconjuntos (estratos) N 1, N 2,...,N k, de modo que N 1 + N 2 +...+ N k = N. Cuando los estratos son determinado, de cada uno de ellos se extrae una muestra aleatoria simple de volumen n 1, n 2, ..., n k. Un caso especial de selección estratificada es la selección típica, en la que los objetos no se seleccionan de toda la población, sino de cada parte típica de ella.

selección combinada combina varios tipos de selección a la vez, formando diferentes fases de una encuesta por muestreo. Existen otros métodos de muestreo.

La muestra se llama repetido , si el objeto seleccionado se devuelve a la población antes de seleccionar el siguiente. La muestra se llama repetible , si el objeto seleccionado no se devuelve a la población. Para una población finita, la selección aleatoria sin retorno conduce en cada paso a la dependencia de las observaciones individuales, y la selección aleatoria igualmente posible con retorno conduce a la independencia de las observaciones. En la práctica, normalmente trabajamos con muestras no repetitivas. Sin embargo, cuando el tamaño de la población N es muchas veces mayor que el tamaño de la muestra n (por ejemplo, cientos o miles de veces), se puede despreciar la dependencia de las observaciones.

Por tanto, una muestra aleatoria x 1, x 2, ..., x n es el resultado de observaciones secuenciales e independientes de una variable aleatoria ξ, que representa a la población general, y todos los elementos de la muestra tienen la misma distribución que la variable aleatoria original. X.

Llamaremos a la función de distribución F x (x) y a otras características numéricas de la variable aleatoria x teórico, A diferencia de características de la muestra , que se determinan a partir de los resultados de las observaciones.

Sea la muestra x 1, x 2, ..., x k el resultado de observaciones independientes de una variable aleatoria x, y x 1 se observó n 1 veces, x 2 - n 2 veces, ..., x k - n k veces , de modo que n i = n - tamaño de la muestra. El número n i que muestra cuántas veces apareció el valor x i en n observaciones se llama frecuencia valor dado, y la relación n i /n = w i - Frecuencia relativa. Obviamente los números w Soy racional y.

Una población estadística dispuesta en orden ascendente de una característica se llama serie de variación . Sus miembros se denotan x (1), x (2), ... x (n) y se denominan opciones . La serie de variación se llama discreto, si sus miembros toman valores aislados específicos. Distribución estadística muestreo de una variable aleatoria discreta X llamada lista de opciones y sus correspondientes frecuencias relativas w i. La tabla resultante se llama estadísticamente cercano.

X (1) x(2) ... xk(k)
ω1 ω2 ... ωk

Los valores mayor y menor de la serie de variación se denotan por x min y x max y se denominan miembros extremos de la serie de variación.

Si se estudia una variable aleatoria continua, entonces la agrupación consiste en dividir el intervalo de valores observados en k intervalos parciales de igual longitud h, y contar el número de observaciones que caen en estos intervalos. Los números resultantes se toman como frecuencias n i (para alguna variable aleatoria nueva, ya discreta). Los valores medios de los intervalos generalmente se toman como nuevos valores para la opción x i (o los intervalos mismos se indican en la tabla). Según la fórmula de Sturges, el número recomendado de intervalos de partición es k » 1 + log 2 norte, y las longitudes de los intervalos parciales son iguales a h = (x max - x min)/k. Se supone que todo el intervalo tiene la forma.

Gráficamente, las series estadísticas se pueden presentar en forma de polígono, histograma o gráfico de frecuencias acumuladas.

Polígono de frecuencia llamada línea discontinua, cuyos segmentos conectan los puntos (x 1, n 1), (x 2, n 2), ..., (x k, n k). Polígono frecuencias relativas llamada línea discontinua, cuyos segmentos conectan los puntos (x 1, w 1), (x 2, w 2), …, (xk, w k). Los polígonos suelen servir para representar una muestra en el caso de variables aleatorias discretas (Fig. 7.1.1).

Arroz. 7.1

.1.

Histograma de frecuencia relativa Se llama figura escalonada que consta de rectángulos, cuya base son intervalos parciales de longitud h y la altura.

igual w yo/h.

Generalmente se utiliza un histograma para representar una muestra en el caso de variables aleatorias continuas. El área del histograma es igual a uno (Fig. 7.1.2). Si conecta los puntos medios de los lados superiores de los rectángulos en un histograma de frecuencias relativas, la línea discontinua resultante forma un polígono de frecuencias relativas. Por lo tanto, un histograma puede verse como un gráfico. densidad de distribución empírica (muestra) fn(x). Si la distribución teórica tiene una densidad finita, entonces la densidad empírica es una aproximación de la teórica.

Gráfico de frecuencias acumuladas es una figura construida de manera similar a un histograma con la diferencia de que para calcular las alturas de los rectángulos no se toman simples, sino frecuencias relativas acumuladas, aquellos. cantidades Estos valores no disminuyen y el gráfico de frecuencias acumuladas tiene la forma de una “escalera” escalonada (de 0 a 1).

La gráfica de frecuencias acumuladas se utiliza en la práctica para aproximar la función de distribución teórica.

Tarea. Se analiza una muestra de 100 pequeñas empresas de la región. El propósito de la encuesta es medir la proporción de fondos prestados y de capital (xi) en cada i-ésima empresa. Los resultados se presentan en la Tabla 7.1.1.

Mesa Ratios de deuda y capital social de las empresas.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Construya un histograma y una gráfica de frecuencias acumuladas.

Solución. Construyamos una serie agrupada de observaciones:

1. Determinemos en la muestra x min = 5,05 y x max = 5,85;

2. Dividamos todo el rango en k intervalos iguales: k » 1 + log 2 100 = 7,62; k = 8, de ahí la longitud del intervalo

Tabla 7.1.2. Serie agrupada de observaciones.

Número de intervalo Intervalos Puntos medios de intervalos x i w i fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

En la Fig. 7.1.3 y 7.1.4, construidos según los datos de la Tabla 7.1.2, presentan un histograma y una gráfica de frecuencias acumuladas. Las curvas corresponden a la función de densidad y distribución normal "ajustada" a los datos.

Por tanto, la distribución de la muestra es una aproximación de la distribución de la población.

Compartir