ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Aprendizaje basado en árboles de decisión wiki: info, historia y vídeos

videos internet

salud  Aprendizaje basado en árboles de decisión 


Aprendizaje basado en árboles de resolución usa un árbol de resolución como un modelo predictivo que mapea observaciones sobre un artículo a conclusiones sobre el valor objetivo del artículo. Es uno de los enfoques de modelado predictivo usadas en estadísticas, minería de datos y aprendizaje automático. Los modelos de árbol, donde la variable de destino puede tomar un conjunto finito de valores se llaman árboles de clasificación. En estas estructuras de árbol, las hojas representan etiquetas de clase y las ramas representan las conjunciones de peculiaridades que conducen a esas etiquetas de clase. Los árboles de resolución, donde la variable de destino puede tomar valores continuos (por norma general números reales) se llaman árboles de regresión.


En análisis de resolución, un árbol de resolución se puede emplear para representar visualmente y de forma explícita resoluciones y toma de resoluciones. En minería de datos, un árbol de resolución describe datos, mas no las decisiones; más bien el árbol de clasificación resultante puede ser un utilizado como entrada para la toma de resoluciones. Esta página se encarga de los árboles de resolución en la minería de datos.


Aprendizaje basado en árboles de resolución es un procedimiento generalmente usado en la minería de datos. El propósito es crear un modelo que pronostica el valor de una variable de destino en función de distintas variables de entrada. Un caso se muestra a la derecha. Cada nodo interior corresponde a una de las variables de entrada; hay bordes a los pequeños para cada uno de ellos de los posibles valores de la variable de entrada. Cada hoja representa un valor de la variable de destino dados los valores de las variables de entrada representados por el camino desde la raíz a la hoja.


Un árbol de resolución es una representación simple para clasificar ejemplos. Aprendizaje basado en árboles de resolución es una de las técnicas más eficientes para la clasificación supervisada Para esta sección, se supone que todas y cada una de las funciones tienen dominios prudentes finitos, y hay una sola característica de destino llamado la clasificación. Cada elemento del dominio de la clasificación tiene por nombre clase. Un árbol de resolución o bien un árbol de clasificación es un árbol en el que cada nodo interno (no hoja) está etiquetado con una función de entrada. Los arcos provenientes de un nodo etiquetado con una característica están etiquetados con cada uno de ellos de los posibles valores de la característica. Cada hoja del árbol se marca con una clase o bien una distribución de probabilidad sobre las clases.


Un árbol puede ser "aprendido" a través de el fraccionamiento del conjunto inicial en subconjuntos basados en una prueba de valor de atributo. Este proceso se repite en todos y cada subconjunto derivado de una forma recursiva llamada particionamiento recursivo. La recursividad acaba cuando el subconjunto en un nodo tiene todo exactamente el mismo valor de la variable objetivo, o bien cuando la partición ya no añade valor a las predicciones. Este proceso de inducción top-down de los árboles de resolución (ITDAD) es un caso de un algoritmo insaciable, y es, con mucho, la estrategia más habitual para aprender árboles de resolución desde datos.


En minería de datos, los árboles de resolución se pueden describir asimismo como la combinación de técnicas matemáticas y computacionales para asistir a la descripción, la clasificación y la generalización de un conjunto dado de datos.


Los datos proceden en registros de la forma:

(x,Y)=(x1,x2,x3,...,xk,Y)

La variable dependiente, Y, es la variable objetivo que tratamos de comprender, clasificar o bien generalizar. El vector x se compone de las variables de entrada, x1, x2, x3 etcétera, que se emplean para esa labor.


Los árboles de resolución usados en la minería de datos son de 2 tipos principales:



  • Árboles de clasificación es cuando el resultado pronosticado es la clase a la que pertenecen los datos.
  • Árboles de regresión es cuando el resultado pronosticado se puede estimar un número real (por poner un ejemplo, el costo de una casa, o bien el numero de días de estancia de un paciente en un centro de salud).

El término Árboles de Clasificación y Regresión (ACR) es un término genérico empleado para referirse a los dos de los procedimientos precedentes, introducido por vez primera por Breiman et al. Los árboles empleados para la regresión y los árboles empleados para la clasificación tienen ciertas semejanzas - mas asimismo ciertos diferencias, como el procedimiento empleado para determinar donde dividir.


Algunas técnicas, de manera frecuente llamados métodos conjuntoshíbridos, edifican más de un árbol de decisión:



  • Bagging, un procedimiento de conjunto, edifica múltiples árboles de resolución haciendo reiteradamente remuestreo de los datos de adiestramiento con substitución, y votando los árboles para encontrar una predicción de acuerdo.
  • Un clasificador Random Forest usa una serie de árboles de resolución, con la meta de prosperar la tasa de clasificación.
  • Los Árboles Impulsados se pueden emplear para inconvenientes de regresión y de clasificación.
  • Rotation Forest En el que cada árbol de resolución es entrenado aplicando primero análisis de componentes primordiales (ACP) en un subconjunto azaroso de las peculiaridades de entrada.

Aprendizaje basado en árboles de resolución es la construcción de un árbol de resolución desde tuplas de adiestramiento, cada una etiquetada con su pertinente clase. Un árbol de resolución es afín a una estructura de diagrama de flujo, donde cada nodo interno (no hoja) indica una prueba en un atributo, cada rama representa el resultado de una prueba, y cada hoja (o bien terminal) nodo tiene una etiqueta de clase. El nodo superior en un árbol es el nodo raíz.


Hay muchos algoritmos concretos de árbol de resoluciones. Entre los más señalados están:



  • ID3 (Iterative Dichotomiser tres)
  • C4.cinco (Sucesor de ID3)
  • ACR (Árboles de Clasificación y Regresión)
  • CHAID (Detector automático de Chi-cuadrado de interacción). Efectúa divisiones de múltiples niveles al calcular los árboles de clasificación.
  • MARS: Extiende los árboles de resolución para manejar mejor datos numéricos.
  • Árboles de Inferencia Condicional. Enfoque que utiliza pruebas no paramétricas como criterios de división, corregidos para múltiples pruebas para eludir el sobreajuste. Este enfoque se traduce en la selección de un predictor ecuánime y no requiere poda.

ID3 y ACR se idearon de forma independiente en exactamente la misma temporada (entre mil novecientos setenta y mil novecientos ochenta) mas los dos prosiguen un enfoque afín para el aprendizaje basado en árboles de resolución desde tuplas de adiestramiento.


Los algoritmos para la construcción de árboles de resolución acostumbran a trabajar de forma top-down, eligiendo en todos y cada paso la variable que mejor divide el conjunto de elementos. Diferentes algoritmos usan diferentes métricas para medir el "mejor". Estos miden en general la homogeneidad de la variable de destino en los subconjuntos. Ciertos ejemplos se dan ahora. Estas métricas se aplican a cada subconjunto aspirante, y los valores resultantes se combinan (por poner un ejemplo, un promedio) para otorgar una medida de la calidad de la división.


No debe confundirse con el factor de Gini.


Utilizado por el algoritmo de ACR (Árboles de Clasificación y Regresión), la impureza de Gini es una medida de qué de forma frecuente un factor escogido de manera aleatoria del conjunto sería etiquetado incorrectamente si fue etiquetado de forma azarosa conforme a la distribución de las etiquetas en el subconjunto. La impureza de Gini se puede calcular sumando la probabilidad de cada elemento siendo escogido multiplicado por la probabilidad de un fallo en la clasificación de ese elemento. Alcanza su mínimo (cero) cuando todos y cada uno de los casos del nodo corresponden a una sola categoría de destino.


Para calcular la impureza de Gini de un conjunto de elementos, supongamos i toma valores en , y sea fi la fracción de artículos etiquetados con valor i en el conjunto.


IG(f)=?i=1mfi(1-fi)=?i=1m(fi-fi2)=?i=1mfi-?i=1mfi2=1-?i=1mfi2


Introducido en ACR, la reducción de la varianza se emplea frecuentemente en los casos en que la variable de destino es un árbol de regresión progresivo, lo que quiere decir que el empleo de otras muchas métricas requeriría primero discretización ya antes de ser aplicada. La reducción de la varianza de un nodo N se define como la reducción total de la varianza de la variable de destino x debido a la partición en este nodo:


IV(N)=1|S|?i?S?j?S12(xi-xj)2-(1|St|?i?St?j?St12(xi-xj)2+1|Sf|?i?Sf?j?Sf12(xi-xj)2)


donde S, St, y Sf son el conjunto de índices de la muestra de prepartición, conjunto de índices de la muestra para el que la prueba de partición es cierto y un conjunto de índices de la muestra para el que la prueba de partición es falsa, respectivamente.


En un árbol de resolución, todos y cada uno de los caminos desde el nodo raíz al nodo hoja proceden a través de la conjunción, o bien AND. En un gráfico de resoluciones, es posible usar disyunciones (OR) para unir 2 caminos más usando la Longitud del mensaje Mínimo (MML). Los grafos de resolución se han ampliado para permitir nuevos atributos anteriormente no declarados que pueden ser aprendidos dinámicamente y empleado en diferentes lugares en el grafo. Los esquemas de predicción más generales resultan en una mayor precisión predictiva y puntuación de la probabilidad log-pérdida.Normalmente, los grafos de resolución infieren modelos con menos hojas que árboles de resolución x.


Muchos bultos de software de minería de datos dan implementaciones de uno o bien múltiples algoritmos de árboles de resolución. Múltiples ejemplos incluyen ACR de Sistemas Salford (que licenció el código dueño de los autores originales de ACR ), IBM SPSS Modeler, RapidMiner, SAS Enterprise Miner, MATLAB, R (un ambiente de software de código abierto para el cálculo estadístico que incluye múltiples implementaciones ACR como los bultos rpart, party y randomForest), Weka (una suite libre y de código abierto para minería de datos, contiene muchos algoritmos de árboles de resolución), Orange (una suite libre de minería de datos de software, que incluye el módulo de árbol orngTree), KNIME, Microsoft SQL Server y scikit-learn (una biblioteca de aprendizaje automático libre y de código abierto para el lenguaje de programación Python).


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı Aprendizaje basado en árboles de decisión wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas