ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Indexación Semántica Latente wiki: info, historia y vídeos

videos internet

salud  Indexación Semántica Latente 


La indexación semántica latente (ISL) es un procedimiento de indexación y restauración que usa un procedimiento numérico llamado descomposición en valores singulares (SVD por sus iniciales en inglés) para identificar patrones en las relaciones entre los términos contenidos en una compilación de textos no estructurados. La ISL se fundamenta en el principio de que las palabras que se emplean en exactamente el mismo contexto tienden a tener significados afines. La característica esencial de la ISL es su habilidad para extraer el contenido ideal de un documento, estableciendo asociaciones entre aquellos términos que ocurran en contextos afines.La ISL fue patentada en mil novecientos ochenta y ocho por Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum y Lynn Streeter.


La idea primordial es emparejar por conceptos en vez de por términos, esto es, un documento podría ser recuperado si comparte conceptos con otro que es relevante para la consulta dada. Esto se logra mapeando los documentos (vector índice de términos) y los vectores consultas en un espacio dimensional reducido el que está asociado con conceptos, y es posible que la restauración de información en este espacio reducido sea superior a la lograda en el espacio de términos indizados. Para ello se escoge una forma de análisis llamada Descomposición en Valores Singulares (SVD).


La ISL es una alteración del Modelo Vectorial, en la que los documentos se representan desde vectores de pesos no binarios, de la misma manera que las consultas, la función de semejanza es el coseno del ángulo entre el vector del documento y el de la consulta y se trabaja como framework con el álgebra vectorial. Ahora se va a describir el comportamiento del modelo.


Matriz Términos-Documentos


Para el análisis ISL primero se edifica una matriz C donde las filas representan los términos y las columnas los documentos, esta matriz establece las relaciones término documento con lo que cada elemento xij representa el peso del término i en el documento j. Estos pesos pueden ser calculados como el producto del peso local del término lij en un documento concreto y el peso global del término en la compilación de documentos gi. Los pesos precedentes pueden ser calculados de distintas formas como se muestran en las tablas ahora.


Funciones de peso local más utilizadas.

NombreFórmulaBinarialij=1 si el término existe en el documento, 0 en otro casoFrecuencia de términolij=tfij, el número de ocurrencias del término i en el documento jLoglij=log?(tfij+1)Augnormlij=(tfijmaxi(tfij))+12

Funciones de peso global más utilizadas.

NombreFórmulaBinariagi=1Normalgi=1?jtfij2GfIdfgi=gfi/dfi, donde gfi es el número de veces que i ocurre en toda la compilación, y dfi es el número de documentos en los que ocurre el término i.Idfgi=log2?n1+dfiEntropygi=1+?jpijlog?pijlog?n, donde pij=tfijgfi

Resultados experimentales reportan que Log y Entropía , son funciones de peso que marchan bien juntas. En otras palabras que cada elemento xij de C se calcula como:


gi=1+?jpijlog?pijlog?n


xij=gilog?(tfij+1)


Descomposición en Valores Singulares


El objetivo esencial de ISL es hallar una matriz Ck que forme una aproximación a la matriz Términos-Documentos C. En esa aproximación se marcha a conseguir información que no estaba libre de forma directa en la matriz C, sino se hallaba latente en esta. La matriz Ck debe cumplir las próximas condiciones:



  • La regla de Frobenius de la diferencia con Ck ha de ser mínima.
  • El rango ha de ser cuando menos k , donde k es mucho menor que el rango de C . En un caso así afirmamos que Ck es una aproximación de rango bajo.

La descomposición en valores singulares (SVD) puede ser utilizada para solucionar el inconveniente de la matriz de aproximación de rango bajo. Para ello se efectúa el próximo procedimiento que consta de 3 pasos:

1- Encontrar la SVD de la matriz Términos-Documentos. En otras palabras, siendo C ? Rm*n y rango r, se consigue como resultado C=UEVT , donde:

  • U ? Rm*m es una matriz cuyas columnas son vectores propios ortogonales de CCT . Representa los términos en el espacio de términos.
  • V ? Rn*n es una matriz cuyas columnas son vectores propios ortogonales de CTC . Representa los documentos en el espacio de documentos.
  • Los valores propios de CCT son exactamente los mismos que los de CTC .
  • E ? Rm*n , tal que Eii es la raíz de los valores propios para 1 = i = r y cero en otro caso.
dos- Conseguir de E la matriz Ek, remplazando por ceros los r-k menores valores propios en la diagonal de E.3- Calculamos Ck=UEkVT. De esta manera se consigue una aproximación de C de rango k.

Algo esencial a tomar en consideración es que r ha de ser suficientemente grandepara eludir que se escape información relevante en el momento de hacer una consulta,pero al unísono ha de ser suficientemente pequeño para permitir filtrar todos losdetalles no relevantes.


Representación de las consultas


Una vez encontrada la matriz Ck se puede proceder a la restauración dedocumentos. Para ello se efectúa una transformación del vector de consulta q asu representación en el espacio ISL mediante:

qk = Ek-1UkTq

Se puede apreciar que la ecuación precedente no depende en ninguna medida de que q sea una consulta; este es sencillamente un vector en el espacio de los términos. Esto quiere decir que si tenemos una representación ISL de una compilación de documentos, podemos añadir uno nuevo utilizando la ecuación ya antes planteada. Lógicamente, esto puede ser peligroso pues no se actualiza la frecuencia de los términos existentes en el sistema y no se suman los nuevos términos que tiene el documento. La calidad del procedimiento ISL va en descenso a medidaque se agregan nuevos documentos, con lo que ocasionalmente habría que regresar a efectuar los cálculos.


Función de Similitud


La más usada de las funciones de semejanza entre los vectores dj y qi es el coseno del ángulo entre los dos vectores, esto es, dj*qi. Esta fórmula es no solo aplicable para calcular la semejanza entre un documento y una consulta, sino más bien asimismo para computar la semejanza entre 2 documentos y entre 2 términos. En el caso de los términos habría primero que transformar sus vectores representativos al espacio en que se trabaja, esto es habría que obtener:

tk = Ek-1VkTt

La ISL como opción alternativa ante otros modelos tiene beneficios y también inconvenientes que van a deber tenerse en cuenta si se quiere emplear este modelo.


ISL resulta una buena aproximación de solución a 2 de los primordiales inconvenientes de las consultas booleanas: la homonimia y la polisemia.Se puede emplear para efectuar una clasificación automática de los documentos y particionarlos.Dado que es rigurosamente matemático, es independiente del lenguaje, por ende, puede extraer el contenido de cualquier documento con independencia del idioma en que está escrito sin estructuras auxiliares como los diccionarios y deja la busca de términos de un idioma en documentos redactados en otro o bien múltiples idiomas, devolviendo resultados conceptualmente afines.Se amolda de manera automática a terminología variable y se ha comprobado que es muy tolerante a estruendos. Maneja ciertamente datos distintos, equívocos y contradictorios.Mientras menor sea la dimensión nueva mayor va a ser el recobrado y también impresionantemente un valor en los cientos puede acrecentar la precisión.Al igual que el modelo vectorial deja el macheo parcial y el ranking, además de esto tiene presente la dependencia entre términos.


Inicialmente, los mayores inconvenientes de la ISL fueron la escalabilidad y el desempeño, puesto que el costo temporal y espacial es parcialmente alto respecto a otras técnicas. A Dios gracias, la existencia hoy en día de procesadores de gran velocidad y de memoria asequible, han disminuido sensiblemente esta situación.También resulta conflictivo determinar el valor inmejorable de la dimensión nueva a usar, si bien experimentalmente se ha comprobado la eficiencia de los valores propuestos anteriormente.Funciona mejor en aplicaciones donde haya poco solapamiento entre las consultas y los documentos.No hay formas cómodas de expresar negaciones de términos ni condiciones booleanas.


En resumen, ISL soluciona 2 de las más problemáticas limitaciones del Modelo Booleano, la homonimia y la polisemia. Asimismo es utilizado para ejecutar clasificación automática de documentos. La agrupación activa, basada en el contenido contextualde los documentos asimismo es una labor que puede ser conseguida con ISL.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı Indexación Semántica Latente wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas