ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı grama wiki: info, historia y vídeos

videos internet

salud  grama 


Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en distintas áreas del conocimiento. Por poner un ejemplo, es utilizado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos.


La forma en la que extraemos los gramas se debe amoldar al campo que estudiamos y al objetivo que tenemos en psique. Por servirnos de un ejemplo en el estudio del lenguaje natural podríamos edificar los n-gramas sobre la base de diferentes géneros de elementos como por poner un ejemplo fonemas, sílabas, letras, palabras. Ciertos sistemas procesan las cadenas de texto suprimiendo los espacios. Otros no. En prácticamente todos los casos, los signos de puntuación se suprimen a lo largo del preproceso.


Se puede emplear gramas para prácticamente todos los campos. Por servirnos de un ejemplo, se han utilizado n-gramas para extraer peculiaridades comunes de grandes conjuntos de imágenes de la Tierra tomadas desde satélite, y para determinar a qué una parte de la Tierra pertenece una imagen dada.


Para algunos valores de n los n-gramas tienen nombres singulares. Por ejemplo:


Modelo de n-grama


Un modelo de n-grama es un género de modelo probabilístico que deja hacer una predicción estadística del próximo elemento de determinada secuencia de elementos sucedida hasta el instante. Un modelo de n-grama puede ser definido por una cadena de Márkov de orden n-1.


Más exactamente, un modelo de n-grama pronostica xi basándose en xi-1,xi-2,…,xi-n. Debido a restricciones computacionales y a la generalmente naturaleza abierta de los inconvenientes (acostumbra a haber infinitos elementos posibles), se acostumbra a aceptar que cada elemento solo depende de los últimos n elementos de la secuencia.


Las 2 ventajas primordiales de este género de modelos son:



  • Relativa simplicidad
  • Es simple ampliar el contexto de estudio acrecentando el tamaño de n.

El origen de esta clase de modelo se remonta a los ensayos efectuados por Claude Shannon teóricamente de la información para la estimación de la ratio de entropía de los idiomas. Su idea fue que dada una secuencia de letras (por poner un ejemplo, la secuencia "por ej"), ¿cuál es la próxima letra más probable? Desde un conjunto de datos de aprendizaje, uno puede inferir una distribución de probabilidad para la próxima letra dado un conjunto de datos históricos de tamaño n: a = 0.4, b = 0.00001, c = 0,....; donde las probabilidades de todas y cada una de las posibles letras siguientes suman diez.


Ha habido estudios para examinar los n-gramas más usuales. Por servirnos de un ejemplo Google tiene una gran cantidad de datos con información de esta clase. Una parte de esa información, Google n-gram corpus, está alcanzable a través del Google Ngram Viewer que se puede acceder de forma pública en salvaje o bien por medio de una interfaz web. Esta información fue lograda examinando más de 5 millones de libros de los últimos quinientos años. Esta información es aprovechada, por poner un ejemplo, para incorporar su sistema de recomendación de consultas. Otra aplicación propia de esta información es descubrir tendencia examinando la presencia de determinados sustantivos y viendo como se les va prestando aproximadamente atención (aproximadamente presencias) conforme la data de publicación y también idioma del libro.


Ejemplos propios de aplicación de modelos de ngrama en el lenguaje natural:



  • En el reconocimiento de voz, los fonemas se modelan empleando una distribución de n-gramas. De este modo los sistemas de reconocimiento de voz pueden decidir sobre determinada base entre múltiples interpretaciones posibles de lo que ha dicho el interlocutor. El reconocimiento de voz es un campo fundamental para los sistemas de espionaje que interceptan mensajes de voz (Ej. Echelon).
  • En los editores de textos para aconsejar como será la palabra siguiente o bien para advertir posibles fallos.

Este género de modelos asimismo son muy utilizados en otros campos además de la lingüística como la teoría de la comunicación, estudios biológicos y compresión de datos.


Técnicas de suavizado

Suavizado de n-gramas

Para establecer un modelo de n-grama ciertos sistemas se fundamentan en el estudio de una serie de datos de adiestramiento asimismo llamados de aprendizaje (en inglés training corpus) y desde ahí de manera directa se estiman las probabilidades. Un inconveniente obvio de esta clase de métodos es que asigna probabilidad 0 a todos aquellos n-gramas que no aparecen en los datos de adiestramiento. Para tratar con esta clase de inconvenientes se han desarrollado una serie de técnicas a las que llamamos técnicas de suavizado y que dismuyen la probabilidad asignada a ciertas de los n-gramas observados y que por otro lado proveen una probabilidad diferente de cero para aquellos n-gramas no observados en los datos de adiestramiento. Lo que se persigue en que todos y cada uno de los n-gramas razonable tengan una probabilidad diferentes de cero.


Encajes por aproximación


Los n-gramas asimismo pueden emplearse para efectuar eficazmente encajes por aproximación. Transformando una secuencia de elementos en un conjunto de n-gramas, este puede introducirse en un espacio vectorial (en otras palabras, representarse como un histograma), dejando de esta forma a la secuencia equipararse con otras secuencias de una forma eficaz. Por servirnos de un ejemplo, si transformamos cadenas de texto con solo letras del abecedario de España en tres-gramas, lograremos un espacio vectorial de 273 dimensiones (la primera dimensión mide el número de ocurrencias de "aaa", la segunda de "aab", y de esta manera para todas y cada una de las posibles combinaciones de tres letras). Empleando esta representación, perdemos información sobre la cadena de texto. Por servirnos de un ejemplo, las cadenas "abcba" y "bcbab" van a llevar precisamente a exactamente los mismos digramas. No obstante, se conoce experimentalmente que si 2 cadenas de texto real tienen una representación vectorial afín (medida a través del producto escalar) es muy posible que sean afines.Asimismo pueden aplicarse otras métricas a los vectores de n-gramas con resultados variados (en ocasiones, mejores). Por poner un ejemplo la distribución normal puede emplearse para equiparar documentos, examinando cuántas desviaciones propias de cada n-grama difieren de la media en un conjunto grande de documentos (que forma el vector de fondo).


Aplicaciones prácticas de esta técnica son:



  • La detección de plagios de documentos.


  • Clasificación de textos para progresar la busca de documentos y clasificación.- Ha habido trabajos que usan análisis de n-gramas para clasificar la información. La propia NSA ha investigado sobre este tema. La patente cinco.418.951 de E.U., concedida a la NSA en mil novecientos noventa y cinco, patenta el empleo de análisis de N-gramas para poder clasificar documentos conforme el tema que tratan. Se especula que la red Echelon utiliza esta clase de tecnologías para clasificar la información que recoge.

Otras aplicaciones


Los n-gramas se emplean en diferentes áreas de la informática, lingüística computacional, y matemática aplicada. Son una técnica generalmente empleada para diseñar núcleos que dejan a algoritmos automáticos de aprendizaje extraer datos desde cadenas de texto. Los n-gramas asimismo pueden emplearse para localizar aspirantes probables para la adecuada ortografía de una palabra mal escrita. Asimismo en algoritmos de compresión, donde una pequeña zona de datos precisa n-gramas de longitud mayor para progresar la compresión. Los n-gramas se emplean de manera frecuente en sistemas de reconocimiento de patrones para determinar la probabilidad de que una palabra dada aparezca en un texto. Esta capacidad puede ser útil en reconocimiento de voz, OCR (reconocimiento óptico de caracteres), reconocimiento inteligente de caracteres, traducciones automáticas, y aplicaciones afines en las que un sistema debe seleccionar el próximo elemento (letra, palabra, fonema, etcétera) de entre una lista de posibles aspirantes. Asimismo se emplean en recompilación de información cuando es preciso hallar "documentos" afines dado un documento y una base de datos de documentos de referencia.


En bioinformática, y particularmente en la predicción de genes, se examinan n-gramas extraídos de las largas cadenas de ácidos nucleicos del ADN (secuencias o bien oraciones de un abecé de 4 letras, en suma), como de aminoácidos (un abecé que consta, generalmente, de veinte letras), con la meta de advertir patrones estadísticos que dejen poner de manifiesto la posible existencia de genes.


Los n-gramas sintácticos son n-gramas definidos a través de caminos de un árbol sintáctico de dependencias o bien de constituyentes en vez de la estructura lineal del texto. Por servirnos de un ejemplo, la oración "las noticias económicas tienen poco efecto sobre los mercados financieros" puede ser transformada a n-gramas sintácticos siguiendo la estructura de sus relaciones de dependencia : tienen-noticias, efecto-poco, tienen-sobre-mercados-los.


Los n-gramas sintácticos están destinadas a reflejar la estructura sintáctica más fielmente que los n-gramas lineales, y tienen muchas de exactamente las mismas aplicaciones, en especial como peculiaridades en un modelo de espacio vectorial. Los n-gramas sintácticos dan mejores resultados que el empleo de n-gramas estándar para determinadas labores, por servirnos de un ejemplo, para atribución de autoría.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı grama wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas