Transformaciones necesarias de la matriz de datos. escenario. Determinar la similitud de objetos.

Definiciones

Sea un conjunto de objetos (situaciones, precedentes). Lo que es un objeto está determinado por las características específicas del área temática. Por ejemplo, en los problemas de diagnóstico médico los objetos son los pacientes. En el problema de la calificación crediticia, los objetos son los prestatarios. En la tarea de detección de spam, los objetos son mensajes de correo electrónico.

Firmar

Firmar(característica) es el resultado de medir alguna característica de un objeto. Formalmente, un signo es un mapeo, ¿dónde está el conjunto? valores aceptables firmar. Dependiendo de la naturaleza de este conjunto, las señales se dividen en los siguientes tipos:

En los problemas aplicados también hay casos más complejos. Los valores de las características pueden ser secuencias numéricas, imágenes, textos, funciones, gráficos, resultados de consultas a bases de datos, etc.

Si todas las características son del mismo tipo, entonces los datos de origen se llaman homogéneo, de lo contrario - heterogéneo.

Descripción de la característica del objeto.

que haya fisonomía. El vector se llama descripción característica objeto. En el aprendizaje automático, no se hace distinción entre un objeto y la descripción de su característica; se supone que.

Matriz de objetos-características

El conjunto de descripciones de características de todos los objetos en la muestra de entrenamiento, escritas en forma de tabla de tamaño, se llama matriz de objetos-características, matriz de información o simplemente matriz de datos fuente:

Las filas de la matriz son descripciones de características de los objetos de entrenamiento. Las columnas de la matriz corresponden a las características.

Matriz “objetos × características” es la forma estándar y más común de representar datos fuente en problemas de clasificación y regresión. La gran mayoría de los métodos de aprendizaje están adaptados para procesar precisamente esos datos. Sin embargo, en la práctica existen problemas en los que los datos son más complejos. Por ejemplo, en la tarea de detectar spam, los objetos (letras) se representan como textos de longitud arbitraria; Además, a la carta se pueden adjuntar archivos de cualquier formato. En tales casos, algunas características se calculan a partir de los datos de origen disponibles, lo que permite reducir los datos a una forma matricial estándar. Esta técnica se llama extraer características de los datos(extracción de características) o generación de características(generación de características).

De este modo, señales- estas son las características de los objetos que se miden directamente o se calculan a partir de datos de origen "sin procesar". Cualquier mapeo del conjunto puede considerarse una característica.

Además, cualquier algoritmo de regresión o clasificación, como la visualización de un formulario, también puede considerarse una característica. Aunque esta observación es trivial, proporciona la clave para construir superposiciones o composiciones de algoritmos. Siempre es posible, habiendo creado uno o varios algoritmos, adjuntarlos a la descripción de la característica como características nuevas y utilizarlas al construir el siguiente algoritmo.

Datos de origen en espacios de objetos y características.

Independientemente de la naturaleza de los fenómenos o procesos observados, en la mayoría de las situaciones los datos iniciales se presentan en forma de una matriz (tabla) de objetos y atributos, donde las filas son objetos y las columnas son atributos. Por objeto se entiende cualquier tema de estudio, por ejemplo, un país, una empresa, una región, un grupo de estudiantes, etc. El atributo determina las características del objeto en consideración, por ejemplo, si el objeto de estudio es una empresa, entonces el número de personal, volumen mensual de gastos e ingresos, número de contrapartes y otras características. Esta matriz de datos iniciales tiene la forma que se muestra en la Fig. 1.

Arroz. 1. Característica del objeto de matriz de datos

Los objetos de observación son cantidades multidimensionales, para cuyo procesamiento se utilizan métodos de análisis estadístico multivariado (MSA). La base de estos métodos es la representación geométrica de objetos. Los objetos en estudio se ubican en un espacio teórico con una dimensión correspondiente al número de rasgos que los caracterizan. En el caso de que el número de características no exceda de tres, es posible visualizar los objetos en el espacio de características. De lo contrario, sólo es posible una idealización matemática de la representación de objetos en un espacio multidimensional, o es necesaria una transición a algunas características agregadas para reducir la dimensión de las observaciones.

En un espacio multidimensional, los signos u objetos tienen determinadas características cuantitativas. Todos los valores aceptados de atributos (objetos) son conjuntos. números reales. Al utilizar métodos MCA, se deben tener en cuenta las siguientes características:

  • en el espacio m-dimensional, las disposiciones y axiomas fundamentales de la geometría euclidiana siguen siendo válidos;
  • en ISA se suele utilizar gran número características que son de naturaleza heterogénea. En este sentido, en la primera etapa del estudio suele surgir el problema de llevar todas las características a una base: un tipo comparable. Problemas similares se resuelven normalizando los datos, lo que geométricamente significa cambiar la escala, y otras transformaciones del sistema de coordenadas.
  • El procesamiento de agregados de m dimensiones implica una gran cantidad de procesos complejos y que requieren mucho tiempo. operaciones aritméticas, por lo que se lleva a cabo en base a algoritmos paso a paso.

Al procesar datos multidimensionales, se debe tener en cuenta el dualismo de representación, ya que existen posibilidades de visualizar tanto objetos en el espacio de características como características en el espacio de objetos.

Además de presentar los datos de origen en forma de una matriz objeto-atributo, existen otras posibilidades de presentación. Por ejemplo, utilizando el coeficiente de correlación entre características, que se calcula mediante la fórmula

¿Dónde está el valor promedio del producto de los valores característicos x i, x k; , (- valor medio de la característica x i , (xk);si yo (sk)- desviación estándar de las características correspondientes; los datos iniciales se pueden presentar en forma de una matriz de características y atributos (Fig. 2).

Arroz. 2. Matriz atributo-atributo

Esta matriz, a diferencia de la anterior, tiene una dimensión de . Cada celda de la matriz contiene los valores del coeficiente de correlación entre las características correspondientes; la diagonal de la matriz es uno, ya que la correlación del rasgo consigo misma es máxima e igual a uno. La matriz es simétrica respecto de su diagonal. Esta matriz se utiliza al calcular los componentes principales.

La similitud o diferencia entre objetos clasificados se establece en función de la distancia métrica entre ellos. Si cada objeto se describe mediante n características, entonces se puede representar como un punto en un espacio de n dimensiones y su similitud con otros objetos se determinará como la distancia correspondiente. Esta circunstancia nos permite pasar a otro tipo de representación de los datos fuente, es decir, a la matriz objeto-objeto, que es una tabla de distancias entre los objetos analizados. En este caso, en cada celda de la matriz hay un valor de distancia, digamos, euclidiano, calculado mediante la fórmula

.

Aquí xij, xkj- valores j-ésimo signo, respectivamente, en i th y k-ésimos objetos.

Tal matriz, con dimensión , tiene la forma que se muestra en la Fig. 3.

Arroz. 3. Matriz objeto-objeto

Hay ceros en la diagonal de la matriz, ya que la distancia del punto a sí mismo es cero. Los elementos de la matriz son simétricos con respecto a la diagonal.

Así, los datos iniciales se pueden presentar en forma de matrices de tres tipos:

  • matrices objeto-característica;
  • matrices atributo-característica;
  • matrices objeto-objeto.

Método del componente principal

Cualquier estudio de datos multivariados es imposible sin utilizar el método del componente principal (PC). La esencia de este método es reducir la dimensionalidad de los datos determinando un pequeño número de combinaciones lineales de características iniciales que explican la mayoría de variabilidad de los datos en general. El método GC está asociado con la transición a nuevo sistema coordenadas, que es un sistema de combinaciones lineales ortonormales. Este método permite norte Con base en las características iniciales de los objetos, construya la misma cantidad de GC, que son características generalizadas (agregadas). A primera vista, esta transición no ofrece ninguna ventaja en la presentación de datos, pero es posible conservar la información sobre los datos en cuestión incluso si se reduce el número de GC calculados. Además, al guardar dos o tres GC, se logra la capacidad de visualizar objetos multidimensionales en un espacio de características reducido. El método GC tiene una serie de propiedades que lo hacen eficaz para visualizar la estructura de datos multidimensionales. Todos ellos se refieren a la menor distorsión de la estructura geométrica de los puntos (objetos) al proyectarlos en un espacio de menor dimensión.

modelo matemático GC se basa en el supuesto de que los valores de muchas características interrelacionadas generan un cierto resultado general. En este sentido, a la hora de presentar los datos iniciales, como se comenta en el párrafo anterior, lo importante es precisamente la matriz atributo-atributo, que contiene toda la información sobre la relación por pares entre los atributos. Arrogante forma lineal conexiones entre características, podemos escribir en forma matricial la ecuación para la dependencia del resultado F de signos incógnita en la forma

Dónde EN- vector de valores paramétricos de la ecuación de acoplamiento lineal.

La condición para que se cumpla dicha igualdad es la correspondencia de las varianzas, es decir D(incógnita)= D(XB). Porque incógnita es multidimensional variable aleatoria, entonces su estimación de la varianza es matriz de covarianza S. Constante EN se saca del signo de dispersión y se eleva al cuadrado, lo que da como resultado D(F)= B" SB.

Primer Código Civil F 1 (INCÓGNITA) conjunto de características primarias X=(x 1,x 2,…,xnorte) Se llama una combinación lineal de estas características que, entre otras combinaciones lineales, tiene la mayor dispersión. Geométricamente, esto significa que el primer GC está orientado en la dirección de mayor alargamiento del hiperelipsoide de dispersión del conjunto de datos bajo estudio. El segundo GC tiene la mayor dispersión de dispersión entre todos transformaciones lineales, no correlacionado con el primer GC, y representa una proyección en la dirección de mayor alargamiento de las observaciones en un hiperplano perpendicular al primer GC. En absoluto, j-metro Sistema GC de características iniciales. X=(x 1, x 2,…,xnorte) es una combinación lineal de estas características que no está correlacionada con (j-1) GC anteriores y entre todos los demás no correlacionados con anteriores (j-1) HA tiene la mayor dispersión. De ello se deduce que los GC están numerados en orden descendente de sus variaciones, es decir , y esto proporciona la base para decidir cuántos de los últimos códigos civiles pueden eliminarse de la consideración sin perjuicio.

La búsqueda de un GC se reduce a la tarea de seleccionar secuencialmente el primer GC con mayor dispersión, el segundo GC, etc. Tarea similar ocurre sujeto a la introducción de restricciones. Dejar

Cuando maximizamos , usando el método del multiplicador de Lagrange, como resultado obtenemos

Teniendo en cuenta la última igualdad de la ecuación característica, que nos permite encontrar los valores de j, tenemos

Dónde mi- matriz de identidad.

A partir del conjunto de valores de números característicos (propios) j, determinamos el 1 más grande y encontramos el vector propio correspondiente B 1, que se utiliza al calcular el primer GL. Para calcular el segundo GC, se determinan el siguiente valor propio más grande 2 y el vector propio B 2 etc.

Si la matriz de datos original incógnita pre-estandarizar, luego la matriz de covarianza S entrará en la matriz de correlaciones de pares R y vector B será un vector propio de los datos estandarizados Ud.. Resolver ecuaciones en forma matricial toma la forma

La ecuación resultante se llama característica de la matriz. R y representa ecuación algebraica norte-ésima potencia relativa a la variable yo. Finalmente, las relaciones para determinar todos norte HA del original norte-vector dimensional incógnita se puede presentar en forma

F= BINCÓGNITA.

Observemos las principales propiedades del HA:

  • la expectativa matemática del Código Civil es cero;
  • Los GC no están correlacionados entre sí;
  • la suma de las variaciones de las características originales es igual a la suma de las variaciones de todos los GC;
  • la importancia de cada GC disminuye con su número y está determinada por el valor propio correspondiente.

Teniendo en cuenta estas propiedades, podemos proponer un criterio para determinar el número de GC que es útil retener como características agregadas. Este criterio se puede escribir en la forma

Dónde norte* - el número de características agregadas que quedan en el conjunto.

Este criterio alcanza su máximo igual a uno, sólo cuando norte*= norte.

Esquema computacional del método del componente principal.

Resolver el problema utilizando el método GC se reduce a una transformación paso a paso de la matriz de datos de origen. Los principales pasos del método se muestran en el diagrama que se muestra en la Fig. 4.

Arroz. 4. Esquema computacional del método del componente principal.

Comentemos las etapas de los cálculos. La matriz objeto-atributo generalmente se selecciona como datos iniciales. incógnita. Dado que las características de los objetos pueden ser signos de diferente naturaleza, los datos deben estandarizarse, es decir, se debe realizar el centrado (restando el valor promedio) y la normalización (dividiendo por el valor cuadrático medio) de los datos.

En el siguiente paso, se calcula la matriz de correlación. R entre signos, es decir Se realiza la transición a la matriz atributo-atributo. Los elementos diagonales de esta matriz son iguales a uno, y la propia matriz es simétrica con respecto a esta diagonal, ya que r ij= r ji.

A continuación, se determina la matriz de vectores propios. EN, que al igual que el anterior, es cuadrado y consta de norte líneas y norte columnas. Los componentes de cada vector propio se representan como un vector columna, la suma de los cuadrados de los componentes debido a la ortogonalidad es igual a uno.

En siguiente etapa Se calcula la matriz de valores propios, que, a diferencia de las matrices anteriores, es diagonal, es decir, aquí solo en la diagonal de la matriz están los valores propios: todos los demás elementos de la matriz son iguales a cero. La dimensión de esta matriz, al igual que las dos anteriores, es . Cada valor de j determina la varianza de cada GC. El valor total es igual a la suma de las variaciones de las características originales. Sujeto a la estandarización de los datos de origen

En último paso Los GL se calculan:

Por ejemplo, al elegir solo los dos primeros valores propios más grandes, determinamos los componentes correspondientes de los vectores propios (dos columnas de la matriz EN), que multiplicamos por las filas de la matriz INCÓGNITA. Multiplicar la primera columna de una matriz EN a la primera fila de la matriz incógnita dará el valor del primer GL para el primer objeto, multiplicar la misma columna por la segunda fila determina el valor del primer GL para el segundo objeto, etc. Después de realizar las mismas operaciones con el segundo vector seleccionado, podemos construir todos los objetos en el plano de los dos primeros GC, donde su posición relativa nos permite sacar conclusiones preliminares sobre las similitudes (diferencias) de los objetos.

Realizar cálculos GK según el esquema anterior solo es posible en una computadora en la que esté instalado un paquete adecuado software del campo de la estadística multivariada. Aunque la literatura indica métodos computacionales(en particular, el método de Faddeev), que permite determinar el GC utilizando una calculadora; de hecho, dicha técnica solo es posible en una situación en la que el número de signos no supera los tres. En una situación real, el número de signos puede llegar a ser mucho valores grandes, por lo que se necesita ayuda de la PC.

Según la experiencia laboral del autor, lo más paquetes aceptables Para calcular GC se pueden utilizar los paquetes Statgraphics y Statistica y, debido a su mayor simplicidad, se debe dar preferencia al primero. Como ejemplo en la Fig. La Figura 5 muestra un gráfico donde, en el plano de los dos primeros GC, se presenta un conjunto de 10 objetos, cada uno de los cuales se caracteriza inicialmente por 5 características.

Arroz. 5. Objetos en el plano de los dos primeros GC.

Como puede verse en el gráfico, es posible obtener algunas conclusiones sobre la similitud (diferencia) de los objetos cuando se mueven a un espacio bidimensional reducido. Por ejemplo, la división de objetos en dos grupos (objetos con números 1-5 y 6-10) y una dispersión significativa dentro de estos grupos es bastante visible. Así, desde un espacio de características de cinco dimensiones con la ayuda de un GC, se realizó una transición a un espacio bidimensional de características agregadas y visualización de objetos multidimensionales.

Versión impresa

Lector

título del trabajo Anotación

Es aconsejable considerar las tres primeras etapas del procedimiento de agrupación juntas, ya que tanto en teoría como, más aún, en la práctica, están estrechamente interrelacionadas.

Obtención por parte del investigador de una muestra de datos empíricos que representan los resultados de medir una serie de características (por ejemplo, características de procesos mentales, estados, propiedades)

Realizado sobre un determinado conjunto de objetos (por ejemplo, encuestados), implica necesariamente

disponibilidad de determinadas técnicas de medición. Según estos métodos, los resultados de las mediciones se pueden presentar en una escala de medición de un tipo u otro (nominal, ordinal, de intervalo, de relación). Como en muchos otros casos, las escalas de intervalo y las escalas de razón son preferibles aquí desde el punto de vista de los fundamentos matemáticos, pero al mismo tiempo, en el análisis de conglomerados, a diferencia de, por ejemplo, el análisis factorial, discriminante o de varianza, los requisitos para el tipo Los criterios de escala no son tan estrictos: más bien influyen en la elección de un método de agrupamiento específico, y no en la admisibilidad fundamental del agrupamiento como tal.

A menudo en investigación psicológica Los resultados de medir varias características se obtienen en escalas de diferentes tipos: por ejemplo, algunas de las características se miden en una escala de intervalo y la otra parte en una escala nominal. EN casos similares la presencia de tipos mixtos de escalas, la cuestión de la elección método adecuado La agrupación debe manejarse con mucho cuidado. Fundamentos teóricos El uso de escalas mixtas en el análisis de conglomerados no ha sido suficientemente estudiado, por lo que existe un alto riesgo de obtener resultados incorrectos. Las formas más fiables de salir de esta situación son las siguientes:

Sería bastante correcto aquí utilizar un método destinado al más bajo de los tipos de escalas disponibles (en el ejemplo dado, para nominal), sin embargo, para utilizar tales métodos, a veces es necesario transformar adecuadamente los resultados obtenidos en escalas más altas. alto nivel;

En etapas posteriores del procedimiento de agrupación, es posible seleccionar una métrica (medida de distancia) diseñada específicamente para escalas de tipo mixto; sin embargo, el conjunto de dichas métricas es muy limitado y se utilizan relativamente raramente;

y finalmente, la forma más sencilla es intentar evitar el uso de básculas. diferentes tipos al recibir datos destinados a la agrupación.

Así, todos los métodos de agrupamiento podrían teóricamente dividirse en tipos según el tipo de escala de medición en la que se obtienen los datos empíricos, distinguiendo, por ejemplo, métodos diseñados para escalas de intervalo, ordinales y nominales. Sin embargo, tal división sería prematura, ya que el tipo de escala en sí no determina la naturaleza de todo el procedimiento de agrupación en su conjunto. Más precisamente, las escalas de medición utilizadas para obtener datos empíricos influyen en la elección del método de análisis de conglomerados apropiado no directa, sino indirectamente, a través de la elección de las métricas necesarias para la agrupación. espacio métrico, discutido a continuación.

Los datos empíricos obtenidos deben presentarse en la forma matrices “objeto-atributo”, es decir, una tabla rectangular de números, cuyas filas corresponden a objetos medidos (por ejemplo, encuestados) y columnas a características medidas (por ejemplo, características de procesos, estados o propiedades mentales). El investigador primero ingresa los datos obtenidos en la tabla "objeto-atributo", cuya forma general se muestra en la tabla. 11.2-1. La matriz "objeto-atributo" se diferenciará de la tabla "objeto-atributo" sólo en que la matriz no contiene explícitamente encabezados de filas y columnas. Por lo tanto, la Tabla 11.2-1 corresponderá a la matriz “objeto-atributo” (en el libro de referencia fundamental, la matriz “objeto-propiedad”), que tiene dimensiones , (es decir, en caso general, rectangular), designado por y dado en la fórmula 11.2-1.

Tabla 11.2-1

Vista general de la tabla “objeto-atributo”

Al construir una matriz "objeto-atributo", a menudo surge problema grave, asociado al hecho de que las características de los objetos considerados pueden medirse en unidades de medida de diferentes escalas: en este caso, para determinar adecuadamente la distancia entre objetos, es recomendable aplicar la normalización de indicadores, convirtiéndolos en cantidades adimensionales(o a una única escala común). Racionamiento representa una transición hacia una descripción uniforme para todas las características, hacia la introducción de una nueva unidad de medida convencional que permite comparaciones formales de objetos. Los métodos más comunes para estandarizar indicadores (transición de valores iniciales a a valores normalizados z ) se presentan en la tabla. 11.2-2.

Objeto del trabajo: Familiarizar a los estudiantes con los tipos de presentación de datos fuente y enseñar habilidades prácticas para visualizar datos multidimensionales en el entorno. Estadística.

1 Información básica

1.1 Tipos de representación de datos multidimensionales

Independientemente de la naturaleza de los fenómenos o procesos observados, en la mayoría de las situaciones los datos iniciales se presentan en forma de matriz (tabla). objeto de característica, donde las filas son objetos y las columnas son atributos. Por objeto se entiende cualquier tema de estudio, por ejemplo, un país, una empresa, una región, un grupo de estudiantes, etc. El atributo determina las características del objeto en consideración, por ejemplo, si el objeto de estudio es una empresa, entonces el número de personal, volumen mensual de gastos e ingresos, número de contrapartes y otras características. Cada elemento de dicha matriz incógnita denotado como xij, donde está el número de objeto; - número de signo. La dimensión de esta matriz es. Matriz incógnita describe metro objetos en términos norte signos y valores metro Y norte normalmente bastante grande. Se cree que para obtener resultados estadísticamente confiables, la cantidad de objetos debe exceder varias veces la cantidad de características.

Al procesar datos multidimensionales, se debe tener en cuenta el dualismo de representación, ya que existen posibilidades de visualizar tanto objetos en el espacio de características como características en el espacio de objetos. Además de presentar los datos de origen en forma de una matriz objeto-atributo, existen otras posibilidades de presentación. Por ejemplo, utilizando el coeficiente de correlación entre características, que se calcula mediante la fórmula

donde ─ el valor promedio del producto de los valores de las características x i, x k;, ─ valor medio de la característica x i, (x k); s i (sk)─ desviación estándar de las características correspondientes; los datos iniciales se pueden presentar en forma de matriz; signo-signo.

Esta matriz R a diferencia del anterior, tiene una dimensión de . Cada celda de la matriz contiene los valores del coeficiente de correlación entre las características correspondientes; la diagonal de la matriz es uno, ya que la correlación del rasgo consigo misma es máxima e igual a uno. La matriz es simétrica respecto de su diagonal.

La similitud o diferencia entre objetos clasificados se establece en función de la distancia métrica entre ellos. Si cada objeto se describe norte signos, entonces se puede representar como un punto en norte-espacio dimensional, y su similitud con otros objetos se determinará como la distancia correspondiente. Esta circunstancia nos permite pasar a otro tipo de representación de los datos iniciales, a saber, a la matriz. D objeto-objeto, que es una tabla de distancias entre los objetos analizados. En este caso, en cada celda de la matriz hay un valor de distancia, digamos, euclidiana, calculada mediante la fórmula:

.

Aquí x ij , x kj─ valores j-ésimo signo, respectivamente, en i th y k-ésimos objetos.

Hay ceros en la diagonal de la matriz, ya que la distancia del punto a sí mismo es cero. Los elementos de la matriz son simétricos con respecto a la diagonal.

Así, los datos iniciales se pueden presentar en forma de matrices de tres tipos:

· matrices objeto-atributo;

· matrices característica-atributo;

· matrices objeto-objeto.

1.2 Visualización de datos multidimensionales.

Cualquier estudio de datos multivariados es imposible sin utilizar el método del componente principal (PC). La esencia de este método es reducir la dimensionalidad de los datos identificando un pequeño número de combinaciones lineales de las características originales que explican la mayor parte de la variabilidad de los datos en su conjunto. El método GK está asociado con la transición a un nuevo sistema de coordenadas, que es un sistema de combinaciones lineales ortonormales. Este método permite norte Con base en las características iniciales de los objetos, construya la misma cantidad de GC, que son características generalizadas (agregadas). A primera vista, esta transición no ofrece ninguna ventaja en la presentación de datos, pero es posible conservar información sobre los datos en cuestión incluso si se reduce el número de GC calculados. Además, al guardar dos o tres GC, se logra la capacidad de visualizar objetos multidimensionales en un espacio de características reducido. El método GC tiene una serie de propiedades que lo hacen eficaz para visualizar la estructura de datos multidimensionales. Todos ellos se refieren a la menor distorsión de la estructura geométrica de los puntos (objetos) al proyectarlos en un espacio de menor dimensión.

El modelo matemático del GC se basa en el supuesto de que los valores de un conjunto de características interrelacionadas generan algún resultado común. En este sentido, al presentar datos de origen, es importante la matriz característica-atributo, que contiene toda la información sobre la relación por pares entre las características.

El primer GC de un conjunto de características primarias. X=(x 1,x 2,…,x n) Se denomina combinación lineal de estas características que, entre otras combinaciones lineales, tiene la mayor dispersión. Geométricamente, esto significa que el primer GC está orientado en la dirección de mayor alargamiento del hiperelipsoide de dispersión del conjunto de datos bajo estudio. El segundo GC tiene la mayor dispersión de dispersión entre todas las transformaciones lineales no correlacionadas con el primer GC, y es una proyección en la dirección de mayor alargamiento de las observaciones en un hiperplano perpendicular al primer GC. En absoluto, j-m Sistema GC de características iniciales. X=(x 1,x 2,…,x n) es una combinación lineal de estas características que no está correlacionada con (j-1) GC anteriores y entre todos los demás no correlacionados con anteriores (j-1) HA tiene la mayor dispersión. De ello se deduce que los GC están numerados en orden descendente de sus variaciones, es decir , y esto proporciona la base para decidir cuántos de los últimos códigos civiles pueden eliminarse de la consideración sin perjuicio.

La solución del problema mediante el método GC se reduce a una transformación paso a paso de la matriz de datos de origen. Los pasos principales del método se muestran en el diagrama que se muestra en la Fig. 1.

Arroz. 1. Esquema computacional del método del componente principal.

Comentemos las etapas de los cálculos. La matriz objeto-atributo generalmente se selecciona como datos iniciales. incógnita. Dado que las características de los objetos pueden ser signos de diferente naturaleza, los datos deben estandarizarse, es decir, se debe realizar el centrado (restando el valor promedio) y la normalización (dividiendo por el valor cuadrático medio) de los datos.

En el siguiente paso, se calcula la matriz de correlación. R entre características, es decir, se realiza una transición a la matriz característica-característica. Los elementos diagonales de esta matriz son iguales a uno, y la matriz en sí es simétrica con respecto a esta diagonal, ya que r ij = r ji .

A continuación, se determina la matriz de vectores propios. EN, que al igual que el anterior, es cuadrado y consta de norte líneas y norte columnas. Los componentes de cada vector propio se representan como un vector columna, la suma de los cuadrados de los componentes debido a la ortogonalidad es igual a uno.

En la siguiente etapa, se calcula la matriz de valores propios. Λ , que, a diferencia de las matrices anteriores, es diagonal, es decir, aquí solo en la diagonal de la matriz están los valores propios: todos los demás elementos de la matriz son iguales a cero. La dimensión de esta matriz, al igual que las dos anteriores, es . cada valor λj determina la dispersión de cada HA. El valor total es igual a la suma de las variaciones de las características originales. Sujeto a la estandarización de los datos de origen

En el último paso, se calculan los GL:

usando una matriz Λ se encuentran dos o tres valores propios más grandes (esta elección se debe al deseo de visualizar objetos multidimensionales en un plano bidimensional o en un espacio tridimensional);

· según la matriz EN se determinan vectores propios (EV) que corresponden a los valores propios seleccionados;

· los vectores propios encontrados de esta manera se multiplican secuencialmente por las filas de la matriz original, formando los valores de GC para cada objeto.

Por ejemplo, al elegir solo los dos primeros valores propios más grandes, determinamos los componentes correspondientes del SV (dos columnas de la matriz EN), que multiplicamos por las filas de la matriz INCÓGNITA.

Multiplicar la primera columna de una matriz EN a la primera fila de la matriz incógnita dará el valor del primer GL para el primer objeto, multiplicando la misma columna por la segunda fila determina el valor del primer GL para el segundo objeto, es decir

Y 1 = segundo 11 x 11 + segundo 21 x 12 + . . . + b n1 x 1n ,

Dónde b 11 ,b 21 ,…, b norte 1- componentes del primer SV; x 11 ,x 12 ,…, x 1 n- la primera fila de la matriz de datos de objeto-característica.

Después de realizar las mismas operaciones con el segundo vector seleccionado, calculado por la fórmula

Y 2 = segundo 12 x 21 + segundo 22 x 22 + . . . + segundo norte 2 x 2 norte ,

Tenemos la oportunidad de construir todos los objetos en el plano de los dos primeros GC, donde su posición relativa nos permite sacar conclusiones preliminares sobre la similitud (diferencia) de los objetos.

2 Trabajar en una computadora

Este trabajo se realiza con paquete de software estadística; versión 6.1.

2.1 Representación de datos multidimensionales

1. Desde una carpeta Ejemplos - Conjuntos de datos abra el archivo de datos titulado Actividades, que contiene varias características estilo de vida para 28 grupos de personas. Se utilizaron siete tipos como variables activas. actividad social: trabajar(Trabajo), transporte(transporte), niños(niños), familiar(vida hogareña), compras(compras), cuidado personal (tiempo personal), comida(alimento). El indicador es tiempo total, gastado en este tipo actividades de los representantes del grupo en horas. Como funciones auxiliares se seleccionaron las siguientes: dormir(sueño), TELEVISOR(TELEVISOR), ocio(ocio). Se ha agregado una variable adicional al archivo de datos. género(género), tomando valores masculino(hombres) y femenino(mujer). Agregado para asignar etiquetas a puntos en gráficos. agrupamiento firmar geo. región(región). Parte de la tabla de datos fuente se muestra en la Fig. 2.

Fig.2. Matriz objeto-característica

2. Vaya a la matriz de signos de características usando próximos pasos:v línea de comando opción de selección de ventana Análisis, en el que indicar la posición Estadísticas y tablas básicas.. En la ventana que se abre, marque Correlaciones pareadas y parciales. y haga clic en Aceptar. A continuación, seleccione las primeras siete variables de la primera lista. El resultado debería ser una matriz de correlaciones entre características de 7x7, cuya apariencia se muestra en la Fig. 3.

Fig.3. Característica de matriz - característica

Al procesar datos en este caso, las filas con datos faltantes se excluyen de la consideración, por lo que quedan 23 filas de las 28 originales.

3. Vaya a la matriz objeto-objeto mediante las siguientes operaciones: en la línea de comando de la ventana, seleccione la opción Análisis, en el que indicar la posición y además - Análisis de conglomerados: agrupación jerárquica y luego haga clic en Aceptar. En la ventana de análisis de conglomerados que se abre, en la pestaña Además, en opción Objetos elegir Observaciones (cadenas)(Fig. 4), haga clic en Aceptar, luego marque las mismas 7 variables en la ventana y haga clic en Aceptar.

Fig.4. Ventana de análisis de conglomerados

En la ventana que se abre elegir Matriz de distancias, que es una matriz “objeto-objeto” con dimensiones 23x23. Parte de esta tabla se muestra en la Fig. 5.

Fig.5. Matriz objeto-objeto

Utilizando dicha matriz, es posible construir un dendrograma de una combinación de objetos que son similares o diferentes según siete características. Para hacer esto en la ventana Resultados de agrupación jerárquica presione una tecla dendograma vertical, como resultado de lo cual llegamos al gráfico que se muestra en la Fig. 6.

El dendrograma resultante indica el orden y el nivel de asociación de objetos similares entre sí, así como los grupos (grupos) formados de objetos similares. EN en este ejemplo Se formaron 4 grupos.

Fig.6. Dendrograma de objetos

2.2 Método del componente principal

1. Desde una carpeta Ejemplos - Conjuntos de datos abrir el mismo archivo de datos Actividades.

2. En la línea de comando de la ventana, seleccione la opción Análisis, en el que indicar la posición Análisis exploratorio multivariado y además - Análisis y clasificación de componentes principales.. En el panel de inicio del módulo, en la pestaña Además presione el botón variables. En la ventana que se abre Seleccionar variables... en el campo Variables de análisis seleccione las primeras 7 variables; en el campo Auxiliar- variables dormir - ocio; en el campo Con observaciones básicas - género; en el campo Agrupamiento - geo. región. Después de estos procedimientos la ventana Seleccionar variables... toma la forma que se muestra en la Fig. 7.

Fig.7. Ventana de selección de variables

Después de hacer clic en Aceptar, el panel de inicio se ve como se muestra en la Fig. 8.

Fig.8. Panel de inicio después de seleccionar variables

Además, en la plataforma de lanzamiento en el campo. Código para observaciones básicas. indicar el valor de la variable femenino. Aquí en el marco El análisis se basa en...selecciona una opción correlaciones, ya que las medias y varianzas de cada variable pueden diferir significativamente entre sí. enmarcado Eliminar datos faltantes especificar opción Reemplazo con promedio, y en el marco Estimación de varianza- opción SS/N-1, ya que no hay muchos datos y elegir una opción diferente puede generar estimaciones de varianza sesgadas. Después de seleccionar estas opciones, haga clic en Aceptar.

3. En la ventana de resultados del análisis que aparece, la parte de información indica el número de variables y observaciones principales y auxiliares (Fig. 9).

Fig.9. Ventana de resultados del análisis

Después de presionar el botón Gráfico de pantalla en la pestaña Variables el programa construirá un gráfico de cambios en los valores propios (EN) de la matriz de correlación, que se muestra en la Fig. 10.

Figura 10. Gráfico de cambios en valores propios.

Los medios en sí se pueden ver después de presionar el botón. Valores propios en la tabla que aparece (Fig. 11).

Figura 11. Valores propios

El análisis del gráfico y la tabla le permite seleccionar la cantidad de HA asignadas. Por ejemplo, a partir del gráfico se puede determinar el MF, a partir del cual el gráfico pierde su curvatura y la disminución del MF se ralentiza tanto como sea posible. Del gráfico se desprende claramente que hay 2 o 3 de estos SP, por lo que el número de PC asignadas puede ser igual a 2 o 3. Habiendo elegido un número igual a 2, ingréselo en el campo Número de factores(Fig.8), después de lo cual Calidad de presentación cambiará su valor de 100% a 81% (Fig. 12).

Figura 12. Calidad de presentación basada en dos factores

La misma conclusión se desprende de la tabla de la Fig. 10, donde la última columna muestra los valores de la suma acumulada de los promedios: se puede ver que con dos promedios restantes en el análisis, esta suma es aproximadamente del 81%. En consecuencia, la pérdida de contenido de información al pasar de 7 SP a 2 SP es aproximadamente del 19%, pero es posible visualizar datos de origen multidimensionales.

4. Presione el botón Coordenadas de factores obtener una tabla de coordenadas de las variables originales en el espacio de nuevos factores identificados (SF) (Fig. 13).

Figura 13. Coordenadas de las variables originales en el espacio de componentes principales (factores)

Esta tabla permite interpretar GC en términos de correlación: mayor valor absoluto Las coordenadas (carga factorial) de la característica original con cualquier PC (factor) indican que la variable está más fuertemente relacionada con este factor. En otras palabras, que valor mayor Cuanto más altas sean las coordenadas de una característica, mejor mostrarán las variables la estructura representada por ese factor.

Figura 14. Variables (características) en el plano de los dos primeros factores (componentes principales)

Como puede verse en la Fig. 14, todas las variables se representan como puntos en un círculo unitario, ya que las correlaciones (coordenadas de puntos) de las observaciones con los ejes factoriales toman valores (módulo) del intervalo.

El eje horizontal corresponde al factor 1, el eje vertical al factor 2. Las coordenadas de los puntos se encuentran en la tabla de la Fig. 12. Además, esta figura permite evaluar la correlación entre características: cuanto menor sea el ángulo entre los vectores de radio de determinadas características, más fuerte será la correlación entre ellas. Por ejemplo, variables trabajar Y transporte están bastante cerca uno del otro, lo que indica su fuerte correlación. La misma conclusión se desprende de la matriz atributo-atributo.

5. En la pestaña Observaciones presione el botón Gráficos de 2M de observaciones de factores. Aparecerá un gráfico (Fig. 15), que muestra todas las observaciones (filas) utilizadas en el cálculo. Al mismo tiempo, las principales observaciones ( femenino) indicado por círculos azul, y auxiliar ( masculino) están marcados con cuadrados rojos. El gráfico muestra que las observaciones principales y auxiliares están agrupadas en diferentes zonas del avión, es decir se combinan en diferentes grupos.

Figura 15. Observaciones (filas) en el plano de los dos primeros factores (componentes principales)

3. Tarea

en el paquete estadística ingrese datos sobre los resultados de la sesión de 9 grupos de estudiantes que aprobaron 4 exámenes (tabla). La entrada de datos se realiza mediante Archivo -Crear, donde en la ventana que aparece, indique el número de variables igual a 4 y el número de líneas - 9. La tabla muestra los puntajes promedio de los exámenes para cada disciplina (OI - historia nacional; ET - teoría económica; MA - análisis matemático ; LA - álgebra lineal) para cada uno de los 9 grupos.

Tabla Puntajes promedio de cada grupo en 4 disciplinas

Número de grupo Historia doméstica teoría económica análisis matemático Álgebra lineal
4,59 4,77 4,82 4,59
4,68 4,73 4,27 4,38
4,52 4,29 3,95 3,95
4,64 4,5 4,45 4,41
4,32 4,09 4,14 4,23
4,36 4,27 4,05 4,23
4,05 4,05 3,62 4,0
3,9 3,95 3,63 3,86
3,76 3,33 3,48

Calcular:

1. Correlación entre disciplinas (construir una matriz característica-atributo).

2. Distancia entre grupos (construir una matriz grupo-grupo).

3. Valores propios y componentes principales (PC).

4. Calidad de presentación con dos grupos principales.

Construir gráficos:

1. Dendrograma de grupos de estudiantes.

2. Disciplinas en el plano del Código Civil.

3. Grupos en el plano GC.

4. Disciplinas en el plano del Código Civil.

Preguntas sobre la protección de su trabajo

1. ¿Cómo se calculan las matrices “objeto-objeto” y “signo-característica”?

2. ¿Qué define un dendograma?

3. ¿Qué matriz de representación de datos se utiliza en el análisis de conglomerados?

4. ¿Cómo se calculan los niveles de glucosa en sangre?

5. ¿Cuál es la dimensión del código civil?

6. ¿Cómo se selecciona el número de glucemia?

7. ¿Es posible estimar la pérdida de información durante la transición al Código Civil?

©2015-2019 sitio
Todos los derechos pertenecen a sus autores. Este sitio no reclama la autoría, pero proporciona uso gratuito.
Fecha de creación de la página: 2017-11-19

Etapas del análisis de conglomerados (1-2)

Consideremos las etapas del análisis de conglomerados desde el punto de vista del contenido y la metodología matemáticos.

escenario. Representación de datos fuente en forma de matriz.

En la etapa inicial, los datos iniciales se presentan en forma de matriz. Obviamente, la matriz puede tener forma rectangular o cuadrada.

Matriz rectangular de datos fuente en multidimensional. análisis estadístico Más a menudo se la conoce como matriz de objeto-propiedad y es la forma más común de representar datos de origen.

en la mesa 10.2 está claramente representado en vista general matriz rectangular datos de origen de norte elementos – objetos de investigación. En esta capacidad pueden actuar empresas de ingeniería mecánica, bancos comerciales, estudiantes universitarios, que se describen en k señales.

En la matriz el valor Hu corresponde al i-ésimo objeto, que se caracteriza j- indicador m, donde r = 1,2,..., n,j= 1,2,..., A.

Tabla 10.2

Matriz de datos de entrada rectangular

(elemento)

Variable

norte

Si hacemos comparaciones por pares de objetos en función de alguna propiedad, la matriz de datos de origen es una matriz cuadrada. Por ejemplo, la distancia entre ciudades rusas, los resultados de un partido de fútbol entre equipos, etc. en la mesa 10.3 presentado matriz cuadrada datos de origen, que tienen el mismo número de filas y columnas.

Tabla 10.3

Matriz cuadrada de datos de origen

Objetos (elementos)

norte

(elementos)

norte

En el análisis estadístico multivariante, dicha matriz se denomina "matriz de comparación por pares". Representemos el contenido de la tabla en forma de matriz.

(10.1)

donde i=l,2,..., pag; t= 1,2,..., pag; Hu – el resultado de comparar el iésimo objeto con t -ésimo objeto.

Los resultados de los cálculos en el análisis de conglomerados están influenciados por las unidades de medida que se utilizan y el tamaño (escala) que tienen las variables. El procedimiento para estandarizar los datos originales le permite eliminar la dependencia de las variables de las unidades de medida y escala. Por lo tanto, a las variables se les da el mismo peso durante la agrupación.

Durante la estandarización, se realiza una transición desde la matriz de datos de origen. xj a una matriz de estandarizada valores z, y. La fórmula de transición más utilizada es:

Dónde xj – valor medio del signo y; σ, es la desviación estándar del signo y.

El valor medio de la característica y-ésima se calcula mediante la siguiente fórmula:

Dónde norte – número de elementos (objetos).

La desviación estándar del signo y se calcula como:

Durante el procedimiento de estandarización, se conservan todas las proporciones numéricas, pero todas las variables no tienen unidades de medida. Esto permite realizar operaciones computacionales con ellos, como para variables que tienen las mismas unidades de medida.

Si las variables fuente tienen las mismas unidades de medida, no hay necesidad de estandarización.

escenario. Determinar la similitud de objetos.

La definición de similitud de objetos está asociada con el concepto de homogeneidad de objetos. Determinar el criterio de homogeneidad de objetos es la etapa más difícil del análisis de conglomerados y, por tanto, la menos formalizada en la tarea de clasificación automática. La homogeneidad de los objetos está determinada por el grado de proximidad (similitud) de los objetos o diferencias entre objetos.

La distancia entre objetos, denotada como du (de la palabra "distancia"), que proporciona un algoritmo de acciones más simple. Además, este algo

El ritmo está bien implementado en programas de computadora, como Statistica, SPSS, etc.

Dependiendo de los datos de origen se puede utilizar uno u otro tipo de distancia. Es importante señalar que el criterio para elegir el tipo de distancia es la interpretación correcta (más precisamente, adecuada) del perfil (características) de los conglomerados.




Arriba