ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Reconocimiento de entidades nombradas wiki: info, historia y vídeos


La información contenida en esta web debe ser considerada como información general, de carácter formativo, educativo o divulgativo, y no puede ser utilizada o interpretada como consejo o diagnótico médico, psicológico o de ningún otro tipo. Es posible que algunos datos mostrados no esten actualizados. Por ello, en caso de duda lo recomentable es consultar a un experto cualificado.


 


 

videos internet

salud  Reconocimiento de entidades nombradas 


El Reconocimiento de entidades nombradas (NER por sus iniciales en inglés) (asimismo conocido como extracción de entidades) es una labor de extracción de información que busca encontrar y clasificar en categorías predefinidas, como personas, organizaciones, lugares, expresiones de tiempo y cantidades, las entidades nombradas encontradas en un texto.


La mayor una parte de la investigación en NER han sido efectuadas sobre bloques de texto no anotado, como el siguiente:

Jim adquirió trescientos acciones de Acmé Corp. en dos mil seis.

Y genera un bloque de texto anotado que resalta los nombres de entidades:

(persona) adquirió trescientos acciones de (organización) en (tiempo).

En este caso, han sido detectados y clasificados el nombre de una persona que consta de un token o bien componente léxico, un nombre de compañía de 2 tokens y una expresión temporal.


Los sistemas de reconocimiento de entidades para el inglés tienen un desempeño próximo al humano. Por poner un ejemplo, el mejor sistema presentado en el MUC-siete consiguió una puntuación de noventa y tres y treinta y nueve por ciento de valor-F al tiempo que anotadores humanos puntuaron noventa y siete y sesenta por ciento y noventa y seis y noventa y cinco por ciento .




En la expresión entidad nombrada, la palabra nombrada limita la labor a aquellas entidades para las que existe uno o bien más de un designador_rígido, definidos por Kripke. Por servirnos de un ejemplo, la compañía automotriz creada por Henry Ford en mil novecientos tres está relacionada a los designadores Ford o bien Ford Motor Company. Los designadores recios incluyen tanto nombres propios como términos para determinadas especies biológicas y substancias.


El Reconocimiento de entidades nombradas con frecuencia se divide, conceptualmente y probablemente asimismo en su implementación, en 2 inconvenientes distintos: detección de nombres, y clasificación de los nombres conforme el género de entidad al que hacen referencia a (persona, organización, localización y otro). La primera fase en general se reduce a un inconveniente de segmentación: los nombres son una secuencia anexa de tokens, sin solapamiento ni anidamiento, de forma que "Bank of America" es un nombre único, pese al hecho de que en este nombre aparezca, la subcadena América que es por su parte un nombre.


Las expresiones temporales y ciertos expresiones numéricas (dinero, porcentajes, etcétera) asimismo pueden ser considerados entidades en el contexto del NER. Mientras que ciertos casos de estos tipos son ejemplos buenos de designadores recios (p. ej., el año dos mil uno), hay asimismo muchos invalidos (p. ej., tomo mis vacaciones en “junio”). En el primer caso, el año dos mil uno refiere al dos mil uno.º año del calendario gregoriano. En el segundo caso, el mes de junio puede referir por mes de cualquier año (junio pasado, el próximo junio, junio dos mil veinte, etcétera). La definición de entidad nombrada no es rigurosa y de forma frecuente debe ser explicada en el contexto exactamente en qué se está usado.


En la literatura se han propuesto diferentes jerarquías de géneros de entidades nombradas. BBN categories, propuesta en dos mil dos, se usa para Busca de contestaciones y consta de veintinueve tipos y sesenta y cuatro subtipos. La jerarquía de Sekine, propuesta en dos mil dos, está compuesta de doscientos subtipos. Más últimamente, en dos mil once, Alan Ritter empleó una jerarquía basada en los modelos de entidades de Freebase en ensayos de vanguardia de reconocimiento de entidades en textos de medios sociales.


Evaluación formal


Para valorar la calidad de un sistema de NER se han definido múltiples medidas. La precisión a nivel de token es una posibilidad, mas tiene 2 problemas: la mayor parte de los tokens en textos de la vida real no son una parte de entidades nombradas, conque la precisión de un sistema que predice siempre y en toda circunstancia "no una entidad" es altísimo, por norma general mayor que el noventa por ciento ; y un fallo en la delimitación de una entidad nombrada no es adecuadamente penalizado. Por poner un ejemplo, advertir solo el primer nombre de la persona cuando le prosigue su apellido se puntúa con ½ precisión).


En conferencias académicas como CoNLL, se ha definido una variación del valor-F de la próxima manera:



  • Precisión es el número de entidades nombradas que coinciden precisamente con conjunto de evaluación. I.e. cuando se pronostica mas lo adecuado era la precisión es cero. La precisión es después promediada por cada una de la entidades nombradas.


  • El recobrado es el número de entidades del conjunto de evaluación que aparecen precisamente en exactamente la misma situación en las predicciones.


  • El Valor-F es la media armónica de estos 2 valores. Se deriva de la precedente definición que cualquier predicción que reconozca equivocadamente un token como una parte de una entidad nombrada o bien que deje de advertir un token que sí es una entidad nombrada o bien lo clasifique equivocadamente no contribuirá ni a la precisión ni al recobrado.

Se han propuesto modelos de evaluación basados en un emparejamiento token-por-token. Semejantes modelos dejan una evaluación más detallada y hacer una comparación de los sistemas de extracción existentes, teniendo presente asimismo el grado de disparidad en predicciones no precisas.


Las investigaciones efectuadas señalan que aun los sistemas NER más avanzadas son débiles, puesto que los sistemas NER desarrollados para un dominio no acostumbran a portarse bien en otros dominios. La puesta a puntito de un sistema NER para un nuevo dominio acarrea un esmero notable. Esto es cierto para modelos basados en reglas y para sistemas estadísticos.


Los primeros sistemas NER desarrollados en los noventa estuvieron dirigidos a la extracción de entidades en artículos periodísticos. Más adelante la atención se centró en el procesamiento de informes y despachos militares. Tras esto la extracción de contenido automática se extendió a múltiples géneros de textos de estilo informal, como blogs y transcripciones de conversaciones telefónicas. Desde mil novecientos noventa y ocho más o menos, ha habido un enorme interés en la identificación de entidades en la biología molecular, bioinformática, y el procesamiento de lenguaje natural.Las entidades de mayor interés han sido nombres de genes y productos génicos. Ha habido asimismo un interés notable en el reconocimiento de medicamentos y entidades químicas en el contexto de la competición CHEMDNER, que cuenta con la participación de veintisiete equipos.


A pesar de los altos valores F logrados en el conjunto de dato MUC-siete, el inconveniente de Reconocimiento de Entidades Nombradas está lejos de estar solucionado. Los mayores sacrificios están dirigidos a reducir el trabajo de anotación empleando aprendizaje semisupervisado, desempeño robusto en múltiples dominios y conseguir exactamente los mismos resultados con géneros de entidades más concretos. En años recientes, muchos proyectos han empleado crowdsourcing. Esta es una solución prometedora para conseguir conjuntos entrenantes de alta calidad y anotados por humanos para ser utilizados en sistemas NER estadísticos. Otra labor desafiante es localizar modelos para lidiar con contextos lingüísticamente complejos como Twitter y consultas de busca.


Una labor naciente es la de identificar "expresiones esenciales" en un texto y enlazarlas a páginas de Wikipedia. Esto puede ser visto como un caso en particular del reconocimiento de entidades nombradas, donde los modelos son las páginas de Wikipedia que describen conceptos (potencialmente equívocos). El próximo es un caso de la salida de un sistema que enlaza entidades a páginas de Wikipedia:

<ENTITYurl="http://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITYurl="http://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 





Está aquí: Inicio > [ INTERNET ] > ıllı Reconocimiento de entidades nombradas wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas