ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı idf : que es, definición y significado, descargar videos y fotos.

videos internet

salud  ıllı idf : que es, definición y significado, descargar videos y fotos.  


Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (esto es, la frecuencia de ocurrencia del término en la compilación de documentos), es una medida numérica que expresa qué relevante es una palabra para un documento en una compilación. Esta medida se usa con frecuencia como un factor de ponderación en la restauración de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, mas es compensada por la frecuencia de la palabra en la compilación de documentos, lo que deja manejar el hecho de que ciertas palabras son normalmente más frecuentes que otras.


Variaciones del esquema de peso tf-idf son empleadas a menudo por los buscadores como herramienta esencial para medir la relevancia de un documento dada una consulta del usuario, estableciendo de este modo una ordenación o bien ranking de exactamente los mismos. Tf-idf puede emplearse con éxito para el filtrado de las llamadas stop-words (palabras que acostumbran a emplearse en prácticamente todos los documentos), en diferentes campos como la clasificación y resumen de texto.?


Una de las funciones de ranking más fáciles se calcula como la suma de los valores tf-idf de cada término de la consulta. Muchas funciones de ranking más complejas forman alteraciones de este simple modelo.


Supongamos que tenemos una compilación de documentos y deseamos determinar el documento más relevante a la consulta "la mochila azul". Una forma fácil de empezar es suprimiendo aquellos documentos que no contengan las 3 palabras "la", "mochila" y "azul", mas aún quedan muchos documentos. Para distinguirlos todavía más, debemos contar el número de veces que cada término ocurre en todos y cada documento y sumarlos; el número de veces que un término ocurre en un documento se llama su frecuencia de término (tf).


Sin embargo, como el término "la" es tan común, esto provocará que se resalten incorrectamente documentos que emplean de forma casual la palabra "la" con más frecuencia, sin otorgar suficiente peso a los términos más significativos "mochila" y "azul". El término "la" no es buena palabra clave para distinguir documentos relevantes y no relevantes, en contraste a las palabras menos comunes "mochila" y "azul". Por ende, se incorpora un factor de frecuencia inversa de documento que mitiga el peso de los términos que ocurren con mucha frecuencia en la compilación de documentos y también acrecienta el peso de los términos que ocurren raras veces.


Tf-idf es el producto de 2 medidas, frecuencia de término y frecuencia inversa de documento. Existen múltiples formas de determinar el valor de las dos. En el caso de la frecuencia de término tf(t, d), la opción más fácil es utilizar la frecuencia bárbara del término t en el documento d, es decir, el número de veces que el término t ocurre en el documento d. Si indicamos la frecuencia bárbara de t por f(t,d), entonces el esquema tf simple es tf(t, d) = f(t,d). Otras opciones son:?



  • "frecuencias" booleanas: tf(t,d) = 1 si t ocurre en d, y 0 si no;
  • frecuencia escalada logarítmicamente: tf(t,d) = 1 + log f(t,d) (y 0 si f(t,d)=0);
  • frecuencia normalizada, para eludir una predisposición cara los documentos largos. Por servirnos de un ejemplo, se divide la frecuencia salvaje por la frecuencia máxima de algún término en el documento:?
tf(t,d)=f(t,d)maxundefinedundefined

La frecuencia inversa de documento es una medida de si el término es común o bien no, en la compilación de documentos. Se consigue dividiendo el total de documentos por el número de documentos que poseen el término, y se toma el logaritmo de ese cociente:

idf(t,D)=log?|Dundefined|undefined

donde



  • |D| : cardinalidad de D, o bien número de documentos en la compilación.
  • |undefined| : número de documentos donde aparece el término t. Si el término no está en la compilación se generará una división-por-cero. Por tanto, es común ajustar esta fórmula a 1+|undefined|\undefined .

Matemáticamente, la base de la función logaritmo no es esencial y forma un factor incesante en el resultado final.


Luego, tf-idf se calcula como:

tfidf(t,d,D)=tf(t,d)×idf(t,D)undefined

Un peso alto en tf-idf se alcanza con una elevada frecuencia de término (en el documento dado) y una pequeña frecuencia de ocurrencia del término en la compilación completa de documentos. Como el cociente en la función logaritmo del idf es siempre y en todo momento mayor o bien igual que 1, el valor del idf (y del tf-idf) es mayor o bien igual que 0. En el momento en que un término aparece en muchos documentos, el cociente en el logaritmo se aproxima a 1, ofertando un valor de idf y de tf-idf próximo a 0.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı idf : que es, definición y significado, descargar videos y fotos.

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas