ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Agrupamiento jerárquico wiki: info, historia y vídeos

videos internet

salud  Agrupamiento jerárquico 


En minería de datos, el agrupamiento jerárquico es un procedimiento de análisis de conjuntos puntuales, el que busca edificar una jerarquía de conjuntos. Estrategias para agrupamiento jerárquico en general caen en 2 tipos:



  • Aglomerativas: Este es un acercamiento ascendente: cada observación empieza en su conjunto, y los pares de conjuntos son mezclados mientras que uno sube en la jerarquía.
  • Divisivas: Este es un acercamiento descendente: todas y cada una de las observaciones empiezan en un conjunto, y se efectúan divisiones mientras que uno baja en la jerarquía.

En general, las mezclas y divisiones son determinadas de forma golosa. Los resultados del agrupamiento jerárquico son generalmente presentados en un dendrograma.


En el caso general, la dificultad del agrupamiento aglomerativo es O(n3) , lo que los hace demasiado lentos para grandes conjuntos de datos. El agrupamiento divisivo con busca pormenorizada es O(2n)lo como es todavía peor. No obstante, para ciertos casos singulares, inmejorables y eficaces métodos aglomerativos (de dificultad O(n2)) ) son conocidos: SLINK para agrupamiento de link-simple y CLINKpara agrupamiento de link completo.


En orden de decidir qué conjuntos habrían de ser combinados (para aglomerativo), o bien en el momento en que un conjunto habría de ser dividido (para divisivo), una medida de disimilitud entre conjuntos de observaciones es requerida. En la mayor parte de los métodos de agrupamiento jerárquico, esto es conseguido a través de empleo de una métrica apropiada (una medida de distancia entre pares de observaciones), y un criterio de link el que detalla la disimilitud de conjuntos como una función de las distancias 2 a 2 entre observaciones en los conjuntos.


La elección de una métrica apropiada influenciará la manera de los conjuntos, puesto que ciertos pueden estar cerca unos de otros conforme a una distancia y más lejos conforme a otra. Por poner un ejemplo, en un espacio dos-dimensional, la distancia entre el punto (uno con cero) y el origen (0,0) es siempre y en toda circunstancia 1 conforme a las reglas frecuentes, mas la distancia entre el punto (uno con uno) y el origen (0,0) puede ser dos, 2 o bien 1 bajo la distancia Manhattan, la distancia euclidiana o bien la distancia máxima respectivamente.


Algunas métricas generalmente utilizadas para agrupamiento jerárquico son:

NamesFormulaDistancia euclidiana?a-b?2=?i(ai-bi)2_=Distancia euclidiana al cuadrado?a-b?22=?i(ai-bi)2a-b\Distancia Manhattan?a-b?1=?i|ai-bi|distancia máxima?a-b?8=maxi|ai-bi|Distancia Mahalanobis(a-b)?S-1(a-b) donde S es la matriz de covarianzaSimilitud cosenoa·b?a??b?

Para texto o bien otro dato no numérico, métricas como la Distancia de Hamming o bien la Distancia de Levenshtein son habitualmente utilizadas.


Criterio de enlace


El criterio de link determina la distancia entre conjuntos de observaciones como una función de las distancias entre observaciones 2 a 2. Ciertos criterios de link entre 2 conjuntos de observaciones A y B habitualmente utilizados son:

NombresFórmulaAgrupamiento de máximo o bien completo enlacemax.Agrupamiento de mínimo o bien simple enlacemin.Agrupamiento de link media o bien promedio, o bien UPGMA1|AB|?a?A?b?Bd(a,b).Agrupamiento de mínima energía2nm?i,j=1n,m?ai-bj?2-1n2?i,j=1n?ai-aj?2-1m2?i,j=1m?bi-bj?2b_-b_\

Donde d es la métrica elegida. Otros criterios de link incluye:



  • La suma de todas y cada una de las varianzas intra-conjunto.
  • El decrecimiento en la varianza para los conjuntos que son mezclados (criterio de Ward).
  • La probabilidad de que conjuntos aspirantes se generen desde exactamente la misma función de distribución.(V-link)

El agrupamiento jerárquico tiene el beneficio propia de que cualquier medida de distancia puede ser utilizada. En verdad, las observaciones de por si acaso no son requeridas: todo cuanto se emplea es una matriz de distancia.


Por ejemplo, suponga que estos datos serán agrupados, y que la distancia euclidiana va a ser la métrica de distancia.


Cortar el árbol a una altura determinada va a dar un conjunto particionante de una precisión elegida. En este caso de ejemplo, recortar tras la segunda fila va a dar como resultado los conjuntos . Recortar tras la tercera fila va a dar como resultado los conjuntos , el que es un agrupamiento 'tosco’, con un número menor de conjuntos mayores.


El dendrograma del agrupamiento jerárquico sería como este:


Este procedimiento edifica la jerarquía desde los elementos individuales a través de progresivamente ir mezclando conjuntos. En nuestro ejemplo, tenemos 6 elementos y . El paso inicial es determinar cuales elementos entremezclar en un conjunto. Generalmente, deseamos tomar los 2 elementos más próximos, conforme a una distancia elegida.


Opcionalmente, uno solo puede edificar una matriz de distancias a este nivel, donde el número en la i-ésima fila j-ésima columna es la distancia entre los i-ésimo y j-ésimo elementos. Entonces, conforme el agrupamiento avanza, filas y columnas son mezcladas como asimismo son mezclados los conjuntos y las distancias actualizadas. Esta es una forma común de incorporar este género de agrupamiento y tiene el beneficio de guardar las distancias entre conjuntos.Un algoritmo de agrupamiento aglomerativo simple es descrito en la página agrupamiento de link simple; puede ser de forma fácil amoldado a diferentes géneros de link (ver abajo).


Suponga que hemos mezclado los 2 elementos más próximos b y c, ahora tenemos los próximos conjuntos , , , y }, y deseamos entremezclarlos más adelante. Para hacerlo, precisamos tomar la distancia entre y , y por ende delimitar la distancia entre 2 conjuntos.


Usualmente la distancia entre 2 conjuntos A and B es una de los siguientes:



  • • La distancia máxima entre elementos de cada conjunto (asimismo llamada agrupamiento de link completo):
max.

  • • La distancia mínima entre elementos de cada conjunto (asimismo llamada agrupamiento de link simple):
min.

  • • La distancia media entre elementos de cada conjunto (asimismo llamada agrupamiento de link promedio, utilizado y también.g. en UPGMA):
1|A|·|B|?x?A?y?Bd(x,y).

  • La suma de todas y cada una de las varianzas intra-conjunto..
  • El incremento en la varianza de los conjuntos que son mezclados (procedimiento de Ward).
  • La probabilidad de que conjuntos aspirantes sean producidos desde exactamente la misma función de distribución (link-V).

Cada aglomeración ocurre a una mayor distancia entre conjuntos que la aglomeración precedente, y no puede decidir parar de reunir así sea cuando los conjuntos están lejísimos para ser mezclados (criterio de distancia) o bien cuando hay un suficientemente pequeño número de conjuntos (criterio de número).


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı Agrupamiento jerárquico wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas