ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Validación cruzada wiki: info, historia y vídeos


La información contenida en esta web debe ser considerada como información general, de carácter formativo, educativo o divulgativo, y no puede ser utilizada o interpretada como consejo o diagnótico médico, psicológico o de ningún otro tipo. Es posible que algunos datos mostrados no esten actualizados. Por ello, en caso de duda lo recomentable es consultar a un experto cualificado.


 


 

videos internet

salud  Validación cruzada 


Suponemos que tenemos un modelo con uno o bien más factores de ajuste ignotos y unos datos de adiestramiento que deseamos examinar. El proceso de ajuste optima los factores del modelo a fin de que este se ajuste a los datos de adiestramiento tan bien como pueda. Si tomamos una muestra independiente como dato de prueba (validación), del mismo conjunto que los datos de adiestramiento, en general el modelo no se ajustará a los datos de prueba igualmente bien que a los datos de adiestramiento. Esto se llama sobreajuste y habitúa a pasar cuando el tamaño de los datos de adiestramiento es pequeño o bien cuando el número de factores del modelo es grande. La validación cruzada es una forma de pronosticar el ajuste de un modelo a un hipotético conjunto de datos de prueba cuando no disponemos del conjunto explícito de datos de prueba.


Validación cruzada de K iteraciones


En la validación cruzada de K iteraciones o bien K-fold cross-validation los datos de muestra se dividen en K subconjuntos. Uno de los subconjuntos se usa como datos de prueba y el resto (K-1) como datos de adiestramiento. El proceso de validación cruzada es repetido a lo largo de k iteraciones, con cada uno de ellos de los posibles subconjuntos de datos de prueba. Por último se efectúa la media aritmética de los resultados de cada iteración para conseguir un solo resultado. Este procedimiento es muy preciso pues valoramos desde K combinaciones de datos de adiestramiento y de prueba, mas incluso de este modo tiene una desventaja, y es que, en contraste al procedimiento de retención, es lento desde el punto de vista computacional. En la práctica, la elección del número de iteraciones depende de la medida del conjunto de datos. Lo más frecuente es emplear la validación cruzada de diez iteraciones (diez-fold cross-validation).


Validación cruzada aleatoria


Este procedimiento consiste al dividir de forma aleatoria el conjunto de datos de adiestramiento y el conjunto de datos de prueba. Para cada división la función de aproximación se ajusta desde los datos de adiestramiento y calcula los valores de salida para el conjunto de datos de prueba. El resultado final se corresponde a la media aritmética de los valores logrados para las distintas divisiones. El beneficio de este procedimiento es que la división de datos adiestramiento-prueba no depende del número de iteraciones. Mas, en cambio, con este procedimiento existen algunas muestras que quedan sin valorar y otras que se valoran en más de una ocasión, esto es, los subconjuntos de prueba y adiestramiento se pueden solapar.


Validación cruzada dejando uno fuera


La validación cruzada dejando uno fuera o bien Leave-one-out cross-validation (LOOCV) implica separar los datos de manera que para cada iteración tengamos una sola muestra para los datos de prueba y todo el resto conformando los datos de adiestramiento. La evaluación viene dada por el fallo, y en este género de validación cruzada el fallo es bajísimo, pero, a nivel computacional es muy costoso, pues se deben efectuar un gran número de iteraciones, tantas como N muestras tengamos y para cada una examinar los datos tanto de adiestramiento como de prueba.


La evaluación de las distintas validaciones cruzadas generalmente viene dada por el fallo conseguido en todos y cada iteración, ahora bien, por cada uno de ellos de los métodos puede cambiar el número de iteraciones, conforme la elección del diseñador dependiendo del número de datos total.




Error de la validación cruzada de K iteraciones


En cada una de las k iteraciones de este género de validación se efectúa un cálculo de fallo. El resultado final lo conseguimos desde efectuar la media aritmética de los K valores de fallos conseguidos, conforme la fórmula:

E=1K?i=1KEi.

Es decir, se efectúa el sumatorio de los K valores de fallo y se divide entre el valor de K.


Error de la validación cruzada aleatoria


En la validación cruzada azarosa en contraste al procedimiento precedente, cogemos muestras al azar a lo largo de k iteraciones, si bien del mismo modo, se efectúa un cálculo de fallo para cada iteración. El resultado final asimismo lo conseguimos desde efectuar la media aritmética de los K valores de fallos conseguidos, conforme exactamente la misma fórmula:

E=1K?i=1KEi.

Error de la validación cruzada dejando uno fuera


En la validación cruzada dejando uno fuera se efectúan tantas iteraciones como muestras (N) tenga el conjunto de datos. De manera que para cada una de las N iteraciones se efectúa un cálculo de fallo. El resultado final lo conseguimos efectuando la media aritmética de los N valores de fallos logrados, conforme la fórmula:

E=1N?i=1NEi.

Donde se efectúa el sumatorio de los N valores de fallo y se divide entre el valor de N.


El objetivo de la validación cruzada consiste en querer el nivel de ajuste de un modelo a un cierto conjunto de datos de prueba independientes de las empleadas para adiestrar el modelo. Estas medidas logradas pueden ser usadas para querer cualquier medida cuantitativa de ajuste apropiada para los datos y el modelo. Por poner un ejemplo, en un modelo basado en clasificación binaria, cada muestra se prevé como adecuada o bien incorrecta (si pertenece a la temática o bien no), de manera que en un caso así, se puede emplear la 'tasa de fallo de clasificación' para resumir el ajuste del modelo. Del mismo modo, se podrían usar otras medidas como el valor predictivo positivo. Cuando el valor a pronosticar se distribuye de forma continua se puede calcular el fallo usando medidas como: el fallo cuadrático medio, la desviación de la media cuadrada o bien la desviación absoluta media.


La validación cruzada se puede emplear para equiparar los resultados de diferentes procedimientos de clasificaciónpredictiva. Por poner un ejemplo, imaginemos que tenemos un detector que nos determina si una cara pertenece a una mujer o bien a un hombre y estimamos que han sido empleados 2 métodos diferentes, por servirnos de un ejemplo, máquinas de vectores de soporte (SVM) y K-vecinos más próximos (Knn), puesto que los dos nos dejan clasificar las imágenes.Con la validación cruzada podríamos equiparar los 2 procedimientos y determinar cuál de los 2 es el más preciso. Esta información nos la da la tasa de fallo que conseguimos al aplicar la validación cruzada por cada uno de ellos de los métodos planteados.


La validación cruzada de "k" iteraciones (k-fold cross validation) nos deja valorar asimismo modelos en los que se emplean múltiples clasificadores. Continuando con el ejemplo precedente, si tenemos un detector que nos determina si en una imagen aparece un hombre o bien una mujer, y este emplea 4 clasificadores binarios para advertirlo, asimismo podemos emplear la validación cruzada para valorar su precisión. Si tenemos un total de veinte datos (imágenes), y usamos el procedimiento cuatro-fold cross validation, se harán 4 iteraciones, y en todos y cada una se usarán unos datos de adiestramiento diferentes, que van a ser analizadas por 4 clasificadores, que más tarde valorarán los datos de prueba. De esta forma por cada muestra conseguiremos 4 resultados, y si hacemos la media entre los resultados de cada clasificador y entre las 4 iteraciones efectuadas, conseguiremos el valor resultante final.


La mayoría de las formas de validación cruzada son simples de incorporar, siempre que una implementación del procedimiento de predicción objeto de estudio esté libre. Particularmente, el procedimiento de predicción solo precisan estar libres como una "caja negra" no resulta necesario tener acceso a las partes internas de su aplicación. Si el procedimiento de predicción es costoso de adiestrar, la validación cruzada puede ser lentísima en tanto que el adiestramiento va a deber hacerse en múltiples ocasiones.


En ciertos casos como el de mínimos cuadrados o bien regresión kernel (del núcleo), la validación cruzada se puede apresurar de forma significativa por el pre-cálculo de determinados valores que son precisos en múltiples ocasiones en el adiestramiento, o bien a través de el empleo veloz "reglas de actualización" como la fórmula de Sherman-Morrison. No obstante hay que llevar cuidado para conservar totalmente el conjunto de validación del procedimiento de adiestramiento, en caso contrario se puede dar sitio a un corte.


Un ejemplo extremo de la aceleración de la validación cruzada se genera en la regresión lineal, donde los resultados de la validación cruzada son expresiones de forma cerrada conocidas como suma de cuadrados del fallo de predicción residual (PRENSS).


La validación cruzada solo genera resultados significativos si el conjunto de validación y prueba se han extraído de exactamente la misma población. En muchas aplicaciones de modelado predictivo, la estructura del sistema que es estudiado evoluciona con el tiempo. Esto puede introducir diferencias sistemáticas entre los conjuntos de adiestramiento y validación. Por poner un ejemplo, si un modelo para pronosticar el valor de las acciones está entrenado con los datos de un periodo de 5 años determinado, no es realista para tratar el próximo periodo de 5 años como predictor de exactamente la misma población.


Otro ejemplo, pongamos que se desarrolla un modelo para pronosticar el peligro de un individuo para ser diagnosticado con una enfermedad particularmente en el año próximo. Si el modelo se adiestra con datos de una investigación que solo afecten a un conjunto poblacional concreto (por poner un ejemplo, solo jóvenes o bien solo hombres varones), mas se aplica entonces a la población generalmente, los resultados de la validación cruzada del conjunto de adiestramiento podrían diferir en buena medida de la clasificación real.


Si se haz apropiadamente, y si el conjunto de validación y de conjunto de adiestramiento son de exactamente la misma población, la validación cruzada es prácticamente ecuánime. No obstante, existen muchas formas en que la validación cruzada puede ser mal empleada. Si se abusa y más tarde se haz una investigación real de validación, probablemente los fallos de predicción en la validación real sean mucho peores de lo aguardado sobre la base de los resultados de la validación cruzada.


Estas son ciertas formas en que la validación cruzada puede ser mal utilizada:



  • Mediante el empleo de la validación cruzada para valorar múltiples modelos, y solo señalando los resultados para el modelo con los mejores resultados.


  • Al efectuar un análisis inicial para identificar las peculiaridades más informativas usando el conjunto de datos completo, si la selección de característica o bien el ajuste del modelo lo requiere por el propio procedimiento de modelado, esto debe repetirse en todos y cada conjunto de adiestramiento. Si se usa la validación cruzada para decidir qué peculiaridades se marchan a emplear, se va a deber efectuar un proceso interno de validación cruzada para realizar la selección de peculiaridades en todos y cada conjunto de adiestramiento.


  • Al dejar que ciertos datos de adiestramiento esté asimismo incluido en el conjunto de prueba, esto puede acontecer debido a "hermanamiento" en el conjunto de datos, con lo que múltiples muestras precisamente idénticas o bien prácticamente idénticas pueden estar presentes en el conjunto de datos.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 





Está aquí: Inicio > [ INTERNET ] > ıllı Validación cruzada wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas