ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Traducción automática basada en el contexto wiki: info, historia y vídeos


La información contenida en esta web debe ser considerada como información general, de carácter formativo, educativo o divulgativo, y no puede ser utilizada o interpretada como consejo o diagnótico médico, psicológico o de ningún otro tipo. Es posible que algunos datos mostrados no esten actualizados. Por ello, en caso de duda lo recomentable es consultar a un experto cualificado.


 


 

videos internet

salud  Traducción automática basada en el contexto 


La idea básica consiste en ir cogiendo conjuntos de palabras de determinada longitud N (entre cuatro y ocho) y buscar todas y cada una de las posibles traducciones a través de un diccionario políglota de gran capacidad. De esas posibilidades se eligen las que más sentido tienen. Repitiendo el proceso (cogiendo de la segunda palabra hasta la (N+1)-ésima) se consigue un nuevo conjunto de traducciones. Es acá donde, buscando coincidencias entre este último conjunto y el precedente, se consigue una traducción sensible al contexto.


Lo primero que debe hacerse es contar con del diccionario políglota y del corpus monolingüe del lenguaje destino.


Para llenar el primero se emplea un diccionario comercial cualquiera más ciertas reglas morfológicas básicas (número, género, conjugaciones, etcétera. Para la obtención del segundo se hace una recolección masiva de texto proveniente de Internet.


Generación de posibles traducciones y filtro


Las traducciones se producen en conjuntos de N palabras seguidas del texto de origen. Estas traducciones se crean reemplazando cada una de las N palabras por cada una de sus respectivas en el idioma destino merced al diccionario políglota. Este proceso, asimismo conocido como "flooding", genera un elevado número de combinaciones, las que deben ser filtradas conforme tengan o bien no sentido alguno.


El filtrado de las traducciones se efectúa buscando el mayor número de coincidencias con oraciones del corpus del lenguaje destino. Se puede suponer, puesto que, que solo se escogerán oraciones idénticas o bien muy afines a las del corpus, las que obviamente van a tener sentido.




El proceso se repite moviendo la ventana de las N palabras a traducir. Así, primero se consiguen las traducciones posibles de las N primeras palabras, tras la segunda a la N+1, de la tercera a la N+3, etc.


Contextualización


En este punto, disponemos de múltiples conjuntos de posibles traducciones (uno por ventana), las que parten de conjuntos de N palabras del texto original que incluyen solapamientos entre ellos (puesto que la ventana se mueve de palabra en palabra). Para decidir como es la opción mejor de cada conjunto, y en consecuente la mejor traducción final, se equiparan a través de solapamientos (overlapping) cada posible traducción de un conjunto con las de los conjuntos con ventanas precedentes y siguientes, y se eligen las que maximizan el número de coincidencias de palabras individuales.


Generación y empleo de sinónimos


Si en el momento de traducir una palabra en la fase precedente se han producido fallos parciales o bien totales de overlapping, esto es que hay una o bien más palabras sin coincidencias, o bien si no aparece en el diccionario políglota, se recurre a la generación de palabras sinónimas.


En el primer caso, para cada posible traducción de un conjunto, se aíslan los contextos (las palabras precedentes y las palabras siguientes) de la palabra en cuestión y se reemplaza esta por todas y cada una de las palabras del corpus que puedan coincidir en ese contexto. Estos sinónimos pueden ser clasificados conforme su número de apariciones en el corpus.


En el segundo caso es cuando puede venir bien el contar con de un corpus del idioma origen de la traducción, mas puesto que solo será usado en esta parte, no es preciso que sea tan extenso como el del idioma destino. La busca de sinónimos es entonces equivalente a la del primer caso, buscando las palabras del corpus que puedan tener exactamente el mismo contexto.


Fijación del borde


Con los procesos previamente descritos aseguramos una adecuada traducción dentro de las oraciones, pues con la aplicación de los solapamientos aseguramos que la parte media de la traducción es la mejor por coincidencia en la reiteración, mas si nos fijamos, hay ciertas zonas en las que, debido al movimiento de la ventana, únicamente confirmamos una o bien muy rara vez, lo que puede provocar que la traducción pierda calidad en ese punto. Estas zonas específicas son el principio y el final de las oraciones, los llamados bordes de la oración.


Para eludir posibles pérdidas de calidad en la traducción debido a este hecho, se provee de un proceso de reconfirmación buscando otras oraciones en el idioma fuente en las que el principio de la ventana que se está examinando aparece dentro de dichas oraciones.


Mediante el análisis "flooding" con las oraciones originales y las palabras contextualizadas, podemos asegurar que sea como sea la traducción escogida es consistente con el contexto, bien sea eligiendo aquellas traducciones que hayan logrado una mayor coincidencia o bien aquellas que pese a tener menor coincidencia satisfacen más criterios.


Así puesto que, exactamente el mismo proceso es el utilizado con los finales de oración, y puede ser aplicado a cortes estructurales de la escritura, como por servirnos de un ejemplo oraciones que rodean comas o bien otros signos de puntuación.


Con este paso agregamos asimismo, del mismo modo que con el interior de las oraciones, la confirmación para los extremos tanto inicial como final de la oración, redondeando de esta manera la calidad de la traducción de la oración completa.


La calidad de las traducciones se valora con la BLEU Metric (BiLingual Evaluation Understudy). Es uno de los métodos más empleados para este propósito, que reconoce la calidad de la traducción de una lengua a otra, existiendo una enorme relación entre este factor y la opinión que daría un especialista. La evaluación se fundamenta en la idea de que cuanto más se semeja la traducción a una efectuada por lingüistas profesionales mejor es. Se valora sobre 1, considerándose que la puntuación de un traductor humano está entre el 0.7 y el 0.85.


Las pruebas efectuadas con este sistema equiparando los resultados de exactamente las mismas traducciones de CBMT con los de SYSTRAN y SDL.En ellas CBMT logró en el primer mes del verano de dos mil seis un 0.6462 en una traducción del De España al Inglés, utilizando el sistema prototipo, todavía con los recursos incompletos (versión 1.0 del diccionario y solo 52GB de texto indizado).


Para exactamente el mismo conjunto de pruebas, SDL consiguió un 0.5610 y SYSTRAN 0.5551.


En una versión en pruebas más actual CBMT consiguió un 0.6950. Utilizando un conjunto de recursos mayor, con un corpus aumentado desde texto de la Web y mejorando el diccionario (sin hacer trampas, sin amoldarlo al conjunto de pruebas) agregando out-of-vocabulary words (OOV), palabras que por cualquier motivo no aparecen en un diccionario (nombres própios, neologismos...)


Para aportar más referencias sobre la puntuación lograda en BLEU metric, si bien la comparación no sea justísima debido a las contrariedades de tales lenguajes, acá están las puntuaciones que sacó Google en sus pruebas publicadas en el 2005: 0.5137 (Árabe-Inglés) y 0.3531 (Chino-Inglés).


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 





Está aquí: Inicio > [ INTERNET ] > ıllı Traducción automática basada en el contexto wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas