ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Análisis de componentes principales wiki: info, historia y vídeos

videos internet

salud  Análisis de componentes principales 


wikiACP de una distribución normal multivariante centrada en (uno con tres) con desviación estándar tres en la dirección aproximada (0,866, 0,5) y desviación estándar 1 en la dirección perpendicular a la precedente. Los vectores muestran los autovectores de la matriz de relación escalados a través de la raíz cuadrada del pertinente autovalor, y apartados a fin de que su origen coincidan con la media estadística.

En estadística, el análisis de componentes primordiales (en castellano ACP, en inglés, PCA) es una técnica empleada para describir un set de datos en concepto de nuevas variables ("componentes") no relacionadas. Los componentes se ordenan por la cantidad de varianza original que describen, con lo que la técnica es útil para reducir la dimensionalidad de un conjunto de datos.


Técnicamente, el ACP busca la proyección conforme la que los datos queden mejor representados en concepto de mínimos cuadrados. Esta transforma un conjunto de observaciones de variables probablemente relacionadas en un conjunto de valores de variables sin relación lineal llamadas componentes primordiales.


El ACP se emplea sobre todo en análisis exploratorio de datos y para edificar modelos predictivos. El ACP comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, en general tras centrar los datos en la media de cada atributo.


Debe distinguirse del análisis factorial con el que tiene similaridades formales y en el que puede ser empleado como un procedimiento de aproximación para la extracción de factores.


El ACP edifica una transformación lineal que elige un nuevo sistema de coordenadas para el conjunto original de datos en el que la varianza de mayor tamaño del conjunto de datos es capturada en el primer eje (llamado el Primer Componente Primordial), la segunda varianza más grande es el segundo eje, y de esta manera consecutivamente. Para edificar esta transformación lineal debe construirse primero la matriz de covarianza o bien matriz de factores de relación. Debido a la simetría de esta matriz hay una base completa de vectores propios de exactamente la misma. La transformación que lleva de las viejas coordenadas a las coordenadas de la nueva base es exactamente la transformación lineal precisa para reducir la dimensionalidad de datos. Además de esto las coordenadas en la nueva base dan la composición en factores latentes de los datos iniciales.


El ACP es particularmente útil para reducir la dimensionalidad de un conjunto de datos. Los primeros componentes primordiales describen la mayoría de la varianza de los datos (más cuanto más relacionadas estuviesen las variables originales). Estos componentes de bajo orden en ocasiones poseen el aspecto "más esencial" de la información, y el resto componentes se pueden ignorar. Existen diferentes técnicas para querer el número de componentes primordiales que son relevantes; la técnica más apropiada va a depender de la estructura de relaciones en los datos originales.


Supongamos que hay una muestra con n individuos para cada uno de ellos de los que se han medido m variables (azarosas) Fj. El ACP deja hallar un número de factores latentes p < m que explican más o menos el valor de las m variables para cada individuo. El hecho de que existan estos p factores latentes puede interpretarse como una reducción de la dimensionalidad de los datos: donde ya antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores. Cada uno de ellos de los p encontrados tiene por nombre componente primordial, de ahí el nombre del procedimiento.


Existen 2 formas básicas de aplicar el ACP:



  1. Método basado en la matriz de relación, cuando los datos no son dimensionalmente homogéneos o bien el orden de magnitud de las variables azarosas medidas no es exactamente el mismo.
  2. Método basado en la matriz de covarianzas, que se emplea cuando los datos son dimensionalmente homogéneos y presentan valores medios afines.

Método basado en correlaciones


El procedimiento una parte de la matriz de relaciones, consideremos el valor de cada una de las m variables azarosas Fj. Para cada uno de ellos de los n individuos tomemos el valor de estas variables y escribamos el conjunto de datos en forma de matriz:

(Fjß)j=1,...,mß=1,...,n.

Obsérvese que cada conjunto

Mj=ß=1,...,n

puede considerarse una muestra azarosa para la variable Fj. Desde los m×n datos pertinentes a las m variables azarosas, puede construirse la matriz de relación muestral, que viene definida por:


Puesto que la matriz de relaciones es simétrica entonces resulta diagonalizable y sus valores propios?i verifican:


Debido a la propiedad precedente estos m valores propios reciben el nombre de pesos de cada uno de ellos de los m componentes primordiales. Los factores primordiales identificados matemáticamente se representan por la base de vectores propios de la matriz R. Es obvio que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o bien componentes primordiales.


Método basado en las covarianzas


El objetivo es convertir un conjunto dado de datos X de dimensión n x m a otro conjunto de datos Y de menor dimensión n x l con la menor perdida de información de utilidad posible usando para esto la matriz de covarianza.


Se una parte de un conjunto n de muestras cada una de las que tiene m variables que las describen y el propósito es que, cada una de esas muestras, se describa con solo I variables, donde l < m. Además de esto, el número de componentes primordiales l debe ser inferior a la menor de las dimensiones de X.


Los datos para el análisis deben estar centrados a media 0 (restándoles la media de cada columna) y/o autoescalados(centrados a media 0 y dividiendo cada columna por su desviación estándar).


Los vectores ta son conocidos como scores y poseen la información de de qué manera las muestras están relacionadas unas con otras además de esto, tienen la propiedad de ser ortogonales. Los vectores pa se llaman loadings y también notifican de la relación existente entre las variables y tienen la cualidad de ser ortonormales. Al coger menos componentes primordiales que variables y debido al fallo de ajuste del modelo con los datos, se genera un fallo que se amontona en la matriz E.


El PCA se fundamenta en la descomposición en vectores propios de la matriz de covarianza. La que se calcula con la próxima ecuación:


Donde ?a es el valor propio asociado al vector propio pa. Para finalizar,


Esta ecuación la podemos comprender como que ta son las proyecciones de X en pa, donde los valores propios ?a miden la cantidad de varianza capturada, o sea, la información que representan cada uno de ellos de los componentes primordiales. La cantidad de información que atrapa cada componente primordial va reduciendo conforme su número esto es, el componente primordial número uno representa más información que el 2 y de esta forma consecutivamente.


La aplicación del ACP está limitada por múltiples supuestos



  • Suposición de linealidad: Se acepta que los datos observados son combinación lineal de una cierta base.
  • Importancia estadística de la media y la covarianza: el ACP emplea los vectores propios de la matriz de covarianzas y solo halla las direcciones de ejes en el espacio de variables estimando que los datos se distribuyen de forma gaussiana.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı Análisis de componentes principales wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas