ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı k vecinos más próximos wiki: info, historia y vídeos

videos internet

salud  k vecinos más próximos 


El procedimiento de los k vecinos más próximos (en inglés, k-nearest neighbors, abreviado k-nn) es un procedimiento de clasificación supervisada (Aprendizaje, estimación basada en un conjunto de adiestramiento y prototipos) que sirve para apreciar la función de densidad F(x/Cj) de las predictoras x por cada clase Cj.


Este es un procedimiento de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o bien de manera directa la probabilidad a posteriori de que un factor x pertenezca a la clase Cj desde la información proporcionada por el conjunto de prototipos. En el proceso de aprendizaje no se hace ninguna suposición sobre la distribución de las variables predictoras.


En el reconocimiento de patrones, el algoritmo k-nn es utilizado como procedimiento de clasificación de objetos (elementos) basado en un adiestramiento a través de ejemplos próximos en el espacio de los elementos. k-nn es un género de aprendizaje haragán (lazy learning), donde la función se acerca solo de forma local y todo el cómputo es aplazado a la clasificación.

Ejemplo del algoritmo Knn. El ejemplo que se quiere clasificar es el círculo verde. Para k = tres este es clasificado con la clase triángulo, puesto que hay solo un cuadrado y dos triángulos, en el círculo que los contiene. Si k = cinco este es clasificado con la clase cuadrado, en tanto que hay dos triángulos y tres cuadrados, en el círculo externo.

Los ejemplos de adiestramiento son vectores en un espacio propio multidimensional, cada ejemplo está descrito en concepto de p atributos considerando q clases para la clasificación. Los valores de los atributos del i-ésimo ejemplo (donde 1=i=n) se representan por el vector p-dimensional


xi=(x1i,x2i,...,xpi)?X


El espacio es particionado en zonas por localizaciones y etiquetas de los ejemplos de adiestramiento. Un punto en el espacio es asignado a la clase C si esta es la clase más usual entre los k ejemplos de adiestramiento más próximo. Normalmente se utiliza la distancia euclidiana.


d(xi,xj)=?r=1p(xri-xrj)2


La fase de adiestramiento del algoritmo consiste en guardar los vectores propios y las etiquetas de las clases de los ejemplos de adiestramiento. En la fase de clasificación, la evaluación del ejemplo (del que no se conoce su clase) es representada por un vector en el espacio propio. Se calcula la distancia entre los vectores guardados y el nuevo vector, y se eligen los k ejemplos más próximos. El nuevo ejemplo es clasificado con la clase que más se repite en los vectores escogidos.


Este procedimiento supone que los vecinos más próximos nos dan la mejor clasificación y esto se hace usando todos y cada uno de los atributos; el inconveniente de dicha suposición es que posiblemente se tengan muchos atributos intrascendentes que dominen sobre la clasificación: 2 atributos relevantes perderían peso entre otros muchos veinte intrascendentes.


Para corregir el posible corte se puede asignar un peso a las distancias de cada atributo, dándole de esta forma mayor relevancia a los atributos más relevantes. Otra opción consiste en intentar determinar o bien ajustar los pesos con ejemplos conocidos de adiestramiento. Por último, ya antes de asignar pesos es conveniente identificar y quitar los atributos que se consideran intrascendentes.


En síntesis, el procedimiento k-nn se resume en 2 algoritmos:


Algoritmo de entrenamiento


Para cada ejemplo , donde x?X, añadir el ejemplo a la estructura representando los ejemplos de aprendizaje.


Algoritmo de clasificación


Dado un ejemplar xq que ha de ser clasificado, sean x1,...,xk los k vecinos más próximos a xq en los ejemplos de aprendizaje, regresar


f^(x)?argmaxv?V?i=1kd(v,f(xi))


donde


d(a,b)=1 si a=b; y 0 en otro caso.


el valor f^(xq) devuelto por el algoritmo como un estimador de f(xq) es solo el valor más habitual de f entre los k vecinos más próximos a xq. Si escogimos k=1; entonces el vecino más próximo a xi determina su valor.


Vecinos más próximos con distancia ponderada


Se puede sopesar la contribución de cada vecino conforme a la distancia entre él y el ejemplar a ser clasificado xq, dando mayor peso a los vecinos más próximos. Por servirnos de un ejemplo podemos sopesar el voto de cada vecino conforme al cuadrado inverso de sus distancias


f^(xq)?argmaxv?V?i=1kwid(v,f(xi))


donde


wi=1d(xq,xi)2


De esta forma se ve que no hay peligro de permitir a todos y cada uno de los ejemplos adiestramiento contribuir a la clasificación de xq, puesto que al ser realmente distantes no tendrían peso asociado. La desventaja de estimar todos y cada uno de los ejemplos seria su lenta contestación (procedimiento global). Se quiere siempre y en toda circunstancia tener un procedimiento local en el que solo los vecinos más próximos son considerados.


Esta mejora es muy eficaz en muchos inconvenientes prácticos.Es robusto frente a los ruidos de datos y suficientemente efectivo en conjuntos de datos grandes. Se puede ver que al tomar promedios ponderados de los k vecinos más próximos el algoritmo puede eludir el impacto de ejemplos con estruendos apartados.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı k vecinos más próximos wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas