Funciones de muchas variables ejemplos de soluciones. Derivadas de funciones complejas de varias variables. Dominio de definición de una función de dos variables con raíz enésima

Usando el método gráfico.
Este método se utiliza para representar visualmente la forma de conexión entre los indicadores económicos estudiados. Para hacer esto en sistema rectangular coordenadas, se construye un gráfico, los valores individuales de la característica resultante Y se trazan a lo largo del eje de ordenadas y los valores individuales de la característica del factor X se trazan a lo largo del eje de abscisas.
El conjunto de puntos de las características resultante y factorial se llama campo de correlación.
Con base en el campo de correlación, podemos plantear la hipótesis (para la población) de que la relación entre todos los valores posibles de X e Y es lineal.

Ecuación de regresión lineal tiene la forma y = bx + a + ε
Aquí ε - error aleatorio(desviación, indignación).
Razones de la existencia de un error aleatorio:
1. No incluir variables explicativas significativas en el modelo de regresión;
2. Agregación de variables. Por ejemplo, la función de consumo total es un intento expresión general un conjunto de decisiones de gasto individuales. Esta es sólo una aproximación de relaciones individuales que tienen diferentes parámetros.
3. Descripción incorrecta de la estructura del modelo;
4. Especificación funcional incorrecta;
5. Errores de medición.
Dado que las desviaciones ε i para cada observación específica i son aleatorias y sus valores en la muestra son desconocidos, entonces:
1) a partir de las observaciones x i y y i sólo se pueden obtener estimaciones de los parámetros α y β
2) Estimaciones de los parámetros α y β modelo de regresión son respectivamente los valores de a y b, que son de naturaleza aleatoria, porque corresponder a una muestra aleatoria;
Entonces, la ecuación de regresión de estimación (construida a partir de datos de muestra) tendrá la forma y = bx + a + ε, donde e i son los valores observados (estimaciones) de los errores ε i, y a y b son, respectivamente, estimaciones de los parámetros α y β del modelo de regresión que deben encontrarse.
Para estimar los parámetros α y β, se utiliza el método de mínimos cuadrados (método de mínimos cuadrados).
Sistema de ecuaciones normales.

Para nuestros datos, el sistema de ecuaciones tiene la forma:

10a + 356b = 49
356a + 2135b = 9485

De la primera ecuación expresamos a y la sustituimos en la segunda ecuación.
Obtenemos b = 68,16, a = 11,17

Ecuación de regresión:
y = 68,16 x - 11,17

1. Parámetros de la ecuación de regresión.
Medios de muestra.



Variaciones de muestra.


Desviación estándar

1.1. Coeficiente de correlación
Calculamos el indicador de cercanía de la conexión. Este indicador es una muestra coeficiente lineal correlación, que se calcula mediante la fórmula:

El coeficiente de correlación lineal toma valores de –1 a +1.
Las conexiones entre características pueden ser débiles y fuertes (estrechas). Sus criterios se evalúan según la escala de Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
En nuestro ejemplo, la conexión entre el rasgo Y y el factor X es muy alta y directa.

1.2. Ecuación de regresión(estimación de la ecuación de regresión).

La ecuación de regresión lineal es y = 68,16 x -11,17
Los coeficientes de la ecuación de regresión lineal se pueden dar. sentido económico. Coeficiente de ecuación de regresión muestra cuantas unidades. el resultado cambiará cuando el factor cambie en 1 unidad.
El coeficiente b = 68,16 muestra el cambio promedio en el indicador efectivo (en unidades de medida y) con un aumento o disminución en el valor del factor x por unidad de su medida. EN en este ejemplo con un aumento de 1 unidad, y aumenta en un promedio de 68,16.
El coeficiente a = -11,17 muestra formalmente el nivel predicho de y, pero sólo si x = 0 está cerca de los valores de la muestra.
Pero si x = 0 está lejos de los valores muestrales de x, entonces una interpretación literal puede conducir a resultados incorrectos, e incluso si la línea de regresión describe los valores muestrales observados con bastante precisión, no hay garantía de que esto también lo haga. Este será el caso al extrapolar hacia la izquierda o hacia la derecha.
Al sustituir los valores de x apropiados en la ecuación de regresión, podemos determinar los valores alineados (predichos) del indicador de desempeño y(x) para cada observación.
La relación entre y y x determina el signo del coeficiente de regresión b (si > 0 - relación directa, en caso contrario - inversa). En nuestro ejemplo, la conexión es directa.

1.3. Coeficiente de elasticidad.
No es aconsejable utilizar coeficientes de regresión (en el ejemplo b) para evaluar directamente la influencia de los factores sobre una característica resultante si existe una diferencia en las unidades de medida del indicador resultante y y la característica del factor x.
Para estos fines se calculan los coeficientes de elasticidad y los coeficientes beta. El coeficiente de elasticidad se encuentra mediante la fórmula:


Muestra en qué porcentaje en promedio cambia el atributo efectivo y cuando el atributo del factor x cambia en un 1%. No tiene en cuenta el grado de fluctuación de los factores.
En nuestro ejemplo, el coeficiente de elasticidad es mayor que 1. Por lo tanto, si X cambia un 1%, Y cambiará más de un 1%. En otras palabras, X afecta significativamente a Y.
coeficiente beta muestra en qué parte del valor de su desviación estándar cambiará el valor promedio de la característica efectiva cuando la característica del factor cambia en el valor de su desviación estándar cuando se fija en nivel constante el valor de las restantes variables independientes:

Aquellos. un aumento de x en la desviación estándar de este indicador conducirá a un aumento en el promedio Y de 0,9796 desviaciones estándar de este indicador.

1.4. Error de aproximación.
Evaluemos la calidad de la ecuación de regresión utilizando el error de aproximación absoluta.


Dado que el error es superior al 15%, no es aconsejable utilizar esta ecuación como regresión.

1.6. Coeficiente de determinación.
El cuadrado del coeficiente de correlación (múltiple) se denomina coeficiente de determinación y muestra la proporción de variación en el atributo resultante explicada por la variación en el atributo del factor.
Muy a menudo, al interpretar el coeficiente de determinación, se expresa como porcentaje.
R2 = 0,982 = 0,9596
aquellos. en el 95,96% de los casos, los cambios en x conducen a cambios en y. En otras palabras, la precisión al seleccionar la ecuación de regresión es alta. El 4,04% restante del cambio en Y se explica por factores no tenidos en cuenta en el modelo.

incógnita y x2 y 2 x y y(x) (y yo -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Estimación de parámetros de ecuaciones de regresión.
2.1. Importancia del coeficiente de correlación.

Usando la tabla de Student con nivel de significancia α=0.05 y grados de libertad k=7, encontramos t crit:
t crítico = (7;0,05) = 1,895
donde m = 1 es el número de variables explicativas.
Si t observado > t crítico, entonces el valor resultante del coeficiente de correlación se considera significativo (se rechaza la hipótesis nula que afirma que el coeficiente de correlación es igual a cero).
Como t obs > t crit, rechazamos la hipótesis de que el coeficiente de correlación es igual a 0. En otras palabras, el coeficiente de correlación es estadísticamente significativo.
En la regresión lineal pareada t 2 r = t 2 b y luego probar hipótesis sobre la significancia de los coeficientes de regresión y correlación es equivalente a probar la hipótesis sobre la significancia ecuación lineal regresión.

2.3. Análisis de la precisión de la determinación de estimaciones de coeficientes de regresión.
Una estimación insesgada de la dispersión de perturbaciones es el valor:


S 2 y = 94,6484 - varianza inexplicable (una medida de la dispersión de la variable dependiente alrededor de la línea de regresión).
S y = 9,7287 - error estándar estimaciones (error estándar de regresión).
S a - desviación estándar variable aleatoria a.


S b - desviación estándar de la variable aleatoria b.

2.4. Intervalos de confianza para la variable dependiente.
Los pronósticos económicos basados ​​en el modelo construido suponen que las relaciones preexistentes entre variables se mantienen durante el período de anticipación.
Para predecir la variable dependiente del atributo resultante, es necesario conocer los valores predichos de todos los factores incluidos en el modelo.
Los valores predichos de los factores se sustituyen en el modelo y se obtienen estimaciones puntuales predictivas del indicador en estudio.
(a + bx p ± ε)

Dónde Calculemos los límites del intervalo en el que se concentrará el 95%. valores posibles Y en ilimitado gran número
(50.53;63.44)

observaciones y X p = 1 (-11,17 + 68,16*1 ± 6,4554)Intervalos de confianza individuales paraY en valor dado.
incógnita
(a + bx yo ± ε)

Dónde xyo y = -11,17 + 68,16x yo εi ymín
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

ymax

Con una probabilidad del 95% es posible garantizar que el valor Y para un número ilimitado de observaciones no quedará fuera de los límites de los intervalos encontrados.
2.5. Probar hipótesis sobre los coeficientes de una ecuación de regresión lineal.
1) estadístico t. Prueba t de Student.
t crítico = (7;0,05) = 1,895


Comprobemos la hipótesis H 0 sobre la igualdad de los coeficientes de regresión individuales a cero (si la alternativa no es igual a H 1) en el nivel de significancia α=0,05.


Dado que 12,8866 > 1,895, se confirma la significancia estadística del coeficiente de regresión b (rechazamos la hipótesis de que este coeficiente sea igual a cero).

Dado que 2,0914 > 1,895, se confirma la significancia estadística del coeficiente de regresión a (rechazamos la hipótesis de que este coeficiente sea igual a cero).
Intervalo de confianza para coeficientes de ecuaciones de regresión.
Determinemos los intervalos de confianza de los coeficientes de regresión, que con una confiabilidad del 95% quedarán como sigue:
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
(b - t crítico S b ; b + t crítico S b) Con una probabilidad del 95% se puede afirmar que el valor este parámetro
estará en el intervalo encontrado.
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
(a - t a)

Con una probabilidad del 95% se puede afirmar que el valor de este parámetro estará en el intervalo encontrado.
2) Estadística F. Criterio de Fisher. La prueba de significancia del modelo de regresión se lleva a cabo mediante la prueba F de Fisher, valor calculado
que se encuentra como la relación entre la varianza de la serie original de observaciones del indicador en estudio y la estimación insesgada de la varianza de la secuencia residual para un modelo determinado.

Si el valor calculado con (lang=EN-US>n-m-1) grados de libertad es mayor que el valor tabulado en un nivel de significancia determinado, entonces el modelo se considera significativo.
donde m es el número de factores en el modelo.
1. Se plantea la hipótesis nula de que la ecuación en su conjunto es estadísticamente insignificante: H 0: R 2 =0 en el nivel de significancia α.
2. A continuación, determine el valor real del criterio F:


donde m=1 para regresión por pares.
3. Valor de la tabla determinado a partir de las tablas de distribución de Fisher para nivel dado significancia, teniendo en cuenta que el número de grados de libertad para la suma total de cuadrados (mayor varianza) es 1 y el número de grados de libertad para la suma residual de cuadrados (menor varianza) en regresión lineal es n-2.
4. Si el valor real de la prueba F es menor que el valor de la tabla, entonces dicen que no hay razón para rechazar la hipótesis nula.
En caso contrario, se rechaza la hipótesis nula y se acepta con probabilidad (1-α) la hipótesis alternativa sobre la significancia estadística de la ecuación en su conjunto.
Tabla de valores del criterio con grados de libertad k1=1 y k2=7, Fkp = 5,59
Dado que el valor real de F > Fkp, el coeficiente de determinación es estadísticamente significativo (la estimación encontrada de la ecuación de regresión es estadísticamente confiable).

Comprobación de la autocorrelación de residuos.
Un requisito previo importante para construir un modelo de regresión cualitativo utilizando MCO es la independencia de los valores de las desviaciones aleatorias de los valores de las desviaciones en todas las demás observaciones. De este modo se garantiza que no exista correlación entre desviaciones eventuales y, en particular, entre desviaciones adyacentes.
Autocorrelación (correlación serial) se define como la correlación entre indicadores observados ordenados en el tiempo (series de tiempo) o en el espacio (series cruzadas). La autocorrelación de residuos (desviaciones) generalmente ocurre en análisis de regresión cuando se utilizan datos de series temporales y muy raramente cuando se utilizan datos transversales.
EN tareas económicas mucho más común autocorrelación positiva, en vez de autocorrelación negativa. En la mayoría de los casos, la autocorrelación positiva es causada por la influencia direccional constante de algunos factores que no se tienen en cuenta en el modelo.
Autocorrelación negativa En realidad significa que a una desviación positiva le sigue una negativa y viceversa. Esta situación puede darse si se considera la misma relación entre la demanda de refrescos y los ingresos según datos estacionales (invierno-verano).
Entre razones principales que causan la autocorrelación, se pueden distinguir los siguientes:
1. Errores de especificación. No tener en cuenta alguna variable explicativa importante en el modelo o elegir incorrectamente la forma de dependencia generalmente conduce a desviaciones sistémicas de los puntos de observación de la línea de regresión, lo que puede conducir a una autocorrelación.
2. Inercia. Muchos indicadores económicos (inflación, desempleo, PNB, etc.) tienen un cierto carácter cíclico asociado a la ondulación de la actividad empresarial. Por tanto, el cambio de indicadores no se produce instantáneamente, sino que tiene cierta inercia.
3. Efecto telaraña. En muchas áreas de producción y otras áreas, los indicadores económicos responden a los cambios en las condiciones económicas con retraso (desfase temporal).
4. Suavizado de datos. A menudo, los datos correspondientes a un período de tiempo prolongado se obtienen promediando los datos de sus intervalos constituyentes. Esto puede conducir a una cierta suavización de las fluctuaciones que existieron dentro del período considerado, lo que a su vez puede causar autocorrelación.
Las consecuencias de la autocorrelación son similares a las consecuencias de la heterocedasticidad: las conclusiones de los estadísticos t y F que determinan la importancia del coeficiente de regresión y el coeficiente de determinación probablemente sean incorrectas.

Detección de autocorrelación

1. Método gráfico
Hay varias opciones definicion grafica autocorrelación. Uno de ellos vincula las desviaciones e i con los momentos de su recepción i. En este caso, el eje de abscisas muestra el tiempo de obtención de datos estadísticos o número de serie observaciones, y a lo largo de ordenadas: desviaciones e i (o estimaciones de desviaciones).
Es natural suponer que si existe una cierta conexión entre las desviaciones, entonces se produce autocorrelación. La ausencia de dependencia probablemente indicará la ausencia de autocorrelación.
La autocorrelación se vuelve más clara si traza la dependencia de e i con e i-1.

Prueba de Durbin-Watson.
Este criterio es el más conocido para detectar la autocorrelación.
En análisis estadístico ecuaciones de regresión en etapa inicial A menudo se comprueba la viabilidad de un requisito previo: las condiciones para la independencia estadística de las desviaciones entre sí. En este caso, se comprueba la falta de correlación de los valores vecinos e i.

y y(x) mi yo = yy(x) mi 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Para analizar la correlación de desviaciones se utiliza la estadística de Durbin-Watson:

Valores críticos d 1 y d 2 se determinan sobre la base de tablas especiales para el nivel de significancia requerido α, el número de observaciones n = 9 y el número de variables explicativas m = 1.
No hay autocorrelación si se cumple la siguiente condición:
re 1< DW и d 2 < DW < 4 - d 2 .
Sin consultar tablas, puede utilizar una regla aproximada y suponer que no existe autocorrelación de residuos si 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

A veces sucede esto: el problema se puede resolver casi aritméticamente, pero lo primero que me viene a la mente son todo tipo de integrales de Lebesgue y funciones de Bessel. Aqui empiezas a enseñar red neuronal, luego agrega un par de capas ocultas más, experimenta con la cantidad de neuronas, funciones de activación, luego recuerda sobre SVM y Random Forest y comienza todo de nuevo. Y, sin embargo, a pesar de la abundancia de entretenimiento métodos estadísticos En el aprendizaje, la regresión lineal sigue siendo una de las herramientas populares. Y existen requisitos previos para esto, no último lugar entre los cuales se encuentra la intuición en la interpretación del modelo.

Algunas fórmulas

En el caso más simple modelo lineal se puede representar así:

Y yo = un 0 + un 1 x yo + ε yo

Donde a 0 es la expectativa matemática de la variable dependiente y i cuando la variable x i es igual a cero; a 1 es el cambio esperado en la variable dependiente y i cuando x i cambia en uno (este coeficiente se selecciona de modo que el valor ½Σ(y i -ŷ i) 2 sea mínimo; esta es la llamada “función residual”); ε i - error aleatorio.
En este caso, los coeficientes a 1 y a 0 se pueden expresar mediante el coeficiente de correlación de Pearson, las desviaciones estándar y los valores medios de las variables x e y:

В 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Errores de diagnóstico y modelo.

Para que el modelo sea correcto es necesario que se cumplan las condiciones de Gauss-Markov, es decir Los errores deben ser homocedásticos con expectativa matemática cero. La gráfica residual e i = y i - ŷ i ayuda a determinar qué tan adecuado es el modelo construido (e i puede considerarse una estimación de ε i).
Veamos la gráfica de residuos en el caso simple. dependencia lineal y 1 ~ x (en adelante todos los ejemplos se dan en el idioma R):

Texto oculto

conjunto.semilla(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Los residuos están distribuidos más o menos uniformemente a lo largo del eje horizontal, lo que indica "ninguna relación sistemática entre los valores del término aleatorio en dos observaciones cualesquiera". Ahora examinemos el mismo gráfico, pero construido para un modelo lineal, que en realidad no es lineal:

Texto oculto

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Según la gráfica y 2 ~ x, parece posible asumir una relación lineal, pero los residuos tienen un patrón, lo que significa una relación pura. regresión lineal No funcionará aquí. Esto es lo que realmente significa heterocedasticidad:

Texto oculto

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Un modelo lineal con residuos tan “inflados” no es correcto. A veces también es útil trazar los cuantiles de los residuos frente a los cuantiles que se esperarían si los residuos estuvieran distribuidos normalmente:

Texto oculto

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



El segundo gráfico muestra claramente que el supuesto de normalidad de los residuos puede rechazarse (lo que nuevamente indica que el modelo es incorrecto). Y también existen tales situaciones:

Texto oculto

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Este es el llamado "valor atípico", que puede distorsionar enormemente los resultados y llevar a conclusiones erróneas. R tiene un medio para detectarlo, utilizando la medida estandarizada dfbetas y los valores hat:
> round(dfbetas(fit4), 3) (Intercepción) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,037 6 -0,245 0,131 7 0,055 0,084. 027 0,055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Como puede ver, el primer término del vector x4 tiene una influencia notablemente mayor en los parámetros del modelo de regresión que los demás, por lo que es un valor atípico.

Selección de modelo para regresión múltiple.

Naturalmente, con la regresión múltiple surge la pregunta: ¿vale la pena tener en cuenta todas las variables? Por un lado, parece que merece la pena, porque... cualquier variable potencialmente contiene información útil. Además, al aumentar el número de variables, aumentamos R2 (por cierto, esta es precisamente la razón por la que esta medida no puede considerarse confiable a la hora de evaluar la calidad del modelo). Por otro lado, vale la pena tener en cuenta aspectos como AIC y BIC, que introducen penalizaciones por la complejidad del modelo. El valor absoluto del criterio de información en sí mismo no tiene sentido, por lo que es necesario comparar estos valores en varios modelos: en nuestro caso, con diferente número de variables. El modelo con el valor mínimo del criterio de información será el mejor (aunque hay algo que discutir).
Veamos el conjunto de datos sobre delitos estadounidenses de la biblioteca MASS:
biblioteca(MASS) datos(UScrime) pasoAIC(lm(y~., datos=UScrime))
El modelo con el valor AIC más pequeño tiene los siguientes parámetros:
Llamada: lm(fórmula = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, datos = UScrime) Coeficientes: (Intercepción) M Ed Po1 M.F U1 U2 Ineq Prob -6426.101 9.332 18.012 10.265 2.234 -6.087 18.735 6.133 -3796.032
Así, el modelo óptimo teniendo en cuenta AIC será:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Coeficientes: Estimar Std. Valor t de error Pr(>|t|) (Intercepción) -6426.101 1194.611 -5.379 4.04e-06 *** M 9.332 3.350 2.786 0.00828 ** Ed 18.012 5.275 3.414 0.00153 ** Po1 10.265 1.55 6.613 8.26e-08 ** * M.F 2,234 1,360 1,642 0,10874 U1 -6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. códigos: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Si miras de cerca, resulta que las variables M.F y U1 tienen un valor p bastante alto, lo que parece indicarnos que estas variables no son tan importantes. Pero el valor p es una medida bastante ambigua cuando se evalúa la importancia de una variable particular para un modelo estadístico. Este hecho queda claramente demostrado con un ejemplo:
datos<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimar estándar Valor t de error Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7 .503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e -15 V7 1.0092041 0.1287784 7.836752 7.021785e-15 V8 0.9307010 0.1219609 7.631143 3.391212e-14 V9 0.8624487 0.1198499 7.196073 8,3 62082e-13 V10 0,9763194 0,0879140 11,105393 6,027585e-28
Los valores p de cada variable son prácticamente cero y se puede suponer que todas las variables son importantes para este modelo lineal. Pero, de hecho, si miras de cerca los restos, resulta algo como esto:

Texto oculto

trama(predecir(ajustar), resid(ajustar), pch=".")



Sin embargo, un enfoque alternativo se basa en el análisis de la varianza, en el que los valores p desempeñan un papel clave. Comparemos el modelo sin la variable M.F con el modelo construido teniendo en cuenta únicamente AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Tabla de Análisis de Varianza Modelo 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Modelo 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Suma de Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
Dado un valor P de 0,1087 con un nivel de significancia de α=0,05, podemos concluir que no hay evidencia estadísticamente significativa a favor de la hipótesis alternativa, es decir, a favor del modelo con la variable adicional M.F.

Durante sus estudios, los estudiantes suelen encontrar una variedad de ecuaciones. Uno de ellos, la ecuación de regresión, se analiza en este artículo. Este tipo de ecuación se utiliza específicamente para describir las características de la relación entre parámetros matemáticos. Este tipo de igualdad se utiliza en estadística y econometría.

Definición de regresión

En matemáticas, regresión significa una determinada cantidad que describe la dependencia del valor promedio de un conjunto de datos de los valores de otra cantidad. La ecuación de regresión muestra, en función de una característica particular, el valor promedio de otra característica. La función de regresión tiene la forma de una ecuación simple y = x, en la que y actúa como variable dependiente y x como variable independiente (factor de característica). De hecho, la regresión se expresa como y = f (x).

¿Cuáles son los tipos de relaciones entre variables?

En general, existen dos tipos opuestos de relaciones: correlación y regresión.

El primero se caracteriza por la igualdad de variables condicionales. En este caso, no se sabe con certeza qué variable depende de la otra.

Si no hay igualdad entre las variables y las condiciones dicen qué variable es explicativa y cuál es dependiente, entonces podemos hablar de la presencia de una conexión del segundo tipo. Para construir una ecuación de regresión lineal, será necesario averiguar qué tipo de relación se observa.

Tipos de regresiones

Hoy en día, existen 7 tipos diferentes de regresión: hiperbólica, lineal, múltiple, no lineal, por pares, inversa y logarítmicamente lineal.

Hiperbólico, lineal y logarítmico.

ecuación lineal Las regresiones se utilizan en estadística para explicar claramente los parámetros de una ecuación. Parece y = c+t*x+E. Una ecuación hiperbólica tiene la forma de una hipérbola regular y = c + m / x + E. Una ecuación logarítmicamente lineal expresa la relación usando una función logarítmica: In y = In c + m * In x + In E.

Múltiple y no lineal

Los dos tipos de regresión más complejos son múltiples y no lineales. La ecuación de regresión múltiple se expresa mediante la función y = f(x 1, x 2 ... x c) + E. En esta situación, y actúa como variable dependiente y x actúa como variable explicativa. La variable E es estocástica; incluye la influencia de otros factores en la ecuación. La ecuación de regresión no lineal es un poco controvertida. Por un lado, en relación con los indicadores tenidos en cuenta, no es lineal, pero por otro lado, en la función de evaluación de indicadores, es lineal.

Tipos de regresión inversa y pareada.

Una inversa es un tipo de función que debe convertirse a una forma lineal. En los programas de aplicación más tradicionales tiene la forma de una función y = 1/c + m*x+E. Una ecuación de regresión por pares muestra la relación entre los datos en función de y = f (x) + E. Al igual que en otras ecuaciones, y depende de x y E es un parámetro estocástico.

Concepto de correlación

Este es un indicador que demuestra la existencia de una relación entre dos fenómenos o procesos. La fuerza de la relación se expresa como un coeficiente de correlación. Su valor fluctúa dentro del intervalo [-1;+1]. Un indicador negativo indica la presencia de retroalimentación, un indicador positivo indica retroalimentación directa. Si el coeficiente toma un valor igual a 0, entonces no existe relación. Cuanto más cerca esté el valor de 1, más fuerte será la relación entre los parámetros; cuanto más cerca de 0, más débil será.

Métodos

Los métodos paramétricos de correlación pueden evaluar la fuerza de la relación. Se utilizan sobre la base de la estimación de la distribución para estudiar parámetros que obedecen a la ley de la distribución normal.

Los parámetros de la ecuación de regresión lineal son necesarios para identificar el tipo de dependencia, la función de la ecuación de regresión y evaluar los indicadores de la fórmula de relación seleccionada. El campo de correlación se utiliza como método de identificación de conexión. Para ello es necesario representar gráficamente todos los datos existentes. Todos los datos conocidos deben trazarse en un sistema de coordenadas bidimensional rectangular. Así se forma un campo de correlación. Los valores del factor descriptivo están marcados a lo largo del eje de abscisas, mientras que los valores del factor dependiente están marcados a lo largo del eje de ordenadas. Si existe una relación funcional entre los parámetros, se alinean en forma de línea.

Si el coeficiente de correlación de dichos datos es inferior al 30%, podemos hablar de una ausencia casi total de conexión. Si está entre 30% y 70%, esto indica la presencia de conexiones medio-cerradas. Un indicador del 100% es evidencia de una conexión funcional.

Una ecuación de regresión no lineal, al igual que una lineal, debe complementarse con un índice de correlación (R).

Correlación para regresión múltiple

El coeficiente de determinación es un indicador del cuadrado de correlación múltiple. Habla de la estrecha relación del conjunto de indicadores presentado con la característica en estudio. También puede hablar de la naturaleza de la influencia de los parámetros en el resultado. La ecuación de regresión múltiple se estima utilizando este indicador.

Para calcular el indicador de correlación múltiple es necesario calcular su índice.

Método de mínimos cuadrados

Este método es una forma de estimar factores de regresión. Su esencia es minimizar la suma de las desviaciones al cuadrado obtenidas como resultado de la dependencia del factor de la función.

Se puede estimar una ecuación de regresión lineal por pares utilizando dicho método. Este tipo de ecuación se utiliza cuando se detecta una relación lineal pareada entre indicadores.

Parámetros de ecuación

Cada parámetro de la función de regresión lineal tiene un significado específico. La ecuación de regresión lineal pareada contiene dos parámetros: cy m. El parámetro m demuestra el cambio promedio en el indicador final de la función y, siempre que la variable x disminuya (aumente) en una unidad convencional. Si la variable x es cero, entonces la función es igual al parámetro c. Si la variable x no es cero, entonces el factor c no tiene significado económico. La única influencia sobre la función es el signo delante del factor c. Si hay un signo menos, entonces podemos decir que el cambio en el resultado es lento en comparación con el factor. Si hay un plus, esto indica un cambio acelerado en el resultado.

Cada parámetro que cambia el valor de la ecuación de regresión se puede expresar mediante una ecuación. Por ejemplo, el factor c tiene la forma c = y - mx.

Datos agrupados

Hay condiciones de tarea en las que toda la información se agrupa por atributo x, pero para un determinado grupo se indican los valores promedio correspondientes del indicador dependiente. En este caso, los valores medios caracterizan cómo cambia el indicador en función de x. Por tanto, la información agrupada ayuda a encontrar la ecuación de regresión. Se utiliza como análisis de relaciones. Sin embargo, este método tiene sus inconvenientes. Lamentablemente, los indicadores medios suelen estar sujetos a fluctuaciones externas. Estas fluctuaciones no reflejan el patrón de la relación; simplemente enmascaran su "ruido". Los promedios muestran patrones de relación mucho peores que una ecuación de regresión lineal. Sin embargo, se pueden utilizar como base para encontrar una ecuación. Multiplicando el número de una población individual por el promedio correspondiente, se puede obtener la suma y dentro del grupo. A continuación, debe sumar todas las cantidades recibidas y encontrar el indicador final y. Es un poco más difícil realizar cálculos con el indicador de suma xy. Si los intervalos son pequeños, podemos asumir condicionalmente que el indicador x para todas las unidades (dentro del grupo) es el mismo. Debes multiplicarlo por la suma de y para encontrar la suma de los productos de x e y. A continuación, se suman todas las cantidades y se obtiene la cantidad total xy.

Ecuación de regresión por pares múltiples: evaluación de la importancia de una relación

Como se analizó anteriormente, la regresión múltiple tiene una función de la forma y = f (x 1,x 2,…,x m)+E. Muy a menudo, esta ecuación se utiliza para resolver el problema de la oferta y la demanda de un producto, los ingresos por intereses sobre acciones recompradas y para estudiar las causas y el tipo de función de costos de producción. También se utiliza activamente en una amplia variedad de estudios y cálculos macroeconómicos, pero a nivel microeconómico esta ecuación se utiliza con un poco menos de frecuencia.

La tarea principal de la regresión múltiple es construir un modelo de datos que contenga una enorme cantidad de información con el fin de determinar además qué influencia tiene cada uno de los factores individualmente y en su totalidad sobre el indicador a modelar y sus coeficientes. La ecuación de regresión puede tomar una amplia variedad de valores. En este caso, para evaluar la relación se suelen utilizar dos tipos de funciones: lineales y no lineales.

La función lineal se representa en la forma de la siguiente relación: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. En este caso, a2, a m se consideran coeficientes de regresión “puros”. Son necesarios para caracterizar el cambio promedio en el parámetro y con un cambio (disminución o aumento) en cada parámetro x correspondiente en una unidad, sujeto a valores estables de otros indicadores.

Las ecuaciones no lineales tienen, por ejemplo, la forma de una función de potencia y=ax 1 b1 x 2 b2 ...x m bm. En este caso, los indicadores b 1, b 2 ..... b m se denominan coeficientes de elasticidad, Demuestran cómo cambiará el resultado (en cuánto%) con un aumento (disminución) del indicador correspondiente x en un 1% y con un indicador estable de otros factores.

¿Qué factores deben tenerse en cuenta al construir una regresión múltiple?

Para construir correctamente una regresión múltiple, es necesario averiguar a qué factores se debe prestar especial atención.

Es necesario tener cierta comprensión de la naturaleza de las relaciones entre los factores económicos y lo que se está modelando. Los factores que deberán incluirse deben cumplir los siguientes criterios:

  • Debe estar sujeto a medición cuantitativa. Para utilizar un factor que describa la calidad de un objeto, en cualquier caso se le debe dar una forma cuantitativa.
  • No debe haber intercorrelación de factores, ni relación funcional. Estas acciones suelen tener consecuencias irreversibles: un sistema de ecuaciones ordinarias se vuelve incondicional, lo que conlleva falta de fiabilidad y estimaciones poco claras.
  • En el caso de un indicador de correlación enorme, no hay forma de descubrir la influencia aislada de los factores en el resultado final del indicador, por lo que los coeficientes se vuelven ininterpretables.

Métodos de construcción

Existe una gran cantidad de métodos y métodos que explican cómo seleccionar factores para una ecuación. Sin embargo, todos estos métodos se basan en la selección de coeficientes mediante un indicador de correlación. Entre ellos se encuentran:

  • Método de eliminación.
  • Método de conmutación.
  • Análisis de regresión por pasos.

El primer método implica filtrar todos los coeficientes del conjunto total. El segundo método implica introducir muchos factores adicionales. Bueno, el tercero es la eliminación de factores que se utilizaron anteriormente para la ecuación. Cada uno de estos métodos tiene derecho a existir. Tienen sus pros y sus contras, pero todos ellos pueden resolver el problema de eliminar indicadores innecesarios a su manera. Como regla general, los resultados obtenidos por cada método individual son bastante similares.

Métodos de análisis multivariado.

Estos métodos para determinar factores se basan en la consideración de combinaciones individuales de características interrelacionadas. Estos incluyen análisis discriminante, reconocimiento de formas, análisis de componentes principales y análisis de conglomerados. Además, también hay análisis factorial, sin embargo, apareció como resultado del desarrollo del método de componentes. Todos ellos se aplican en determinadas circunstancias, sujetos a determinadas condiciones y factores.




Arriba