ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Traducción automática estadística wiki: info, historia y vídeos


La información contenida en esta web debe ser considerada como información general, de carácter formativo, educativo o divulgativo, y no puede ser utilizada o interpretada como consejo o diagnótico médico, psicológico o de ningún otro tipo. Es posible que algunos datos mostrados no esten actualizados. Por ello, en caso de duda lo recomentable es consultar a un experto cualificado.


 


 

videos internet

salud  Traducción automática estadística 


Las ideas que hay tras la traducción automática estadística vienen de la teoría de la información. Fundamentalmente, el documento se traduce en la probabilidadp(e|f)f) de que una cadena e de la lengua nativa (por servirnos de un ejemplo, inglés) sea la traducción de una cadena f en la lengua extranjera (por poner un ejemplo, francés). En general, estas probabilidades se calculan usando técnicas de estimación de factores.


El Teorema de Bayes se aplica a p(e|f)f), la probabilidad de que la cadena del idioma extranjero genere la cadena nativa para lograr p(e|f)?p(f|e)p(y también)e)p(y también), donde el modelo de traducciónp(f|e)e) es la probabilidad de que la cadena nativa sea la traducción de la cadena extranjera, y el modelo de lenguap(y también) es la probabilidad de ver aquella cadena nativa. Matemáticamente hablando, localizar la mejor traducción e~ se logra eligiendo aquella que dé la probabilidad más alta:

e~=arg?maxe?e*p(e|f)=arg?maxe?e*p(f|e)p(y también)e)p(y también).

Para una aplicación estricta de este se debería efectuar una busca pormenorizada por pasar por todas y cada una de las cadenas e* en el idioma nativo. Efectuar la busca eficaz es el trabajo de una máquina de decodificación de traducción, que emplea la cadena extranjera, heurísticas y otros métodos para limitar el espacio de busca y, al tiempo, sostener una calidad admisible. Este compromiso entre calidad y tiempo de empleo asimismo se puede localizar en la técnica de reconocimiento de voz.


Como los sistemas de traducción no son capaces de guardar todas y cada una de las cadenas nativas y sus traducciones, un documento se traduce típicamente oración por oración, mas ni tan siquiera esto es suficiente. Los modelos de lenguaje acostumbran a acercarse por modelos de alisado de n-grama y los enfoques afines se han aplicado a los modelos de traducción, mas hay una dificultad auxiliar debido a la longitud de oración y de diferentes órdenes de palabras en los idiomas.


Los modelos de traducción estadística estuvieron en un inicio basados en palabras, (Modelos 1-cinco de IBM Ocultos de Markov Model de Stephan Vogel y el Modelo seis de Franz-Joseph Och), mas se consiguieron avances significativos con la introducción de oraciones, basada en modelos. Un trabajo reciente ha incorporado sintaxis o bien estructuras casi-sintáctica.




Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weawer en mil novecientos cuarenta y nueve (W. Weaver mil novecientos cincuenta y cinco), incluyendo las ideas de aplicar la teoría de la información de Claude Shannon. Su retorno a escena se genera en mil novecientos noventa y uno, con el sistema CANDIDE, desarrollado por un conjunto de estudiosos del Thomas J. Watson Center de IBM en la ciudad de Nueva York (Brown et al. mil novecientos noventa). Tras el éxito conseguido a través de técnicas estocásticas en el reconocimiento del habla, el conjunto decidió probar suerte en la traducción. El enfoque se propuso desde el postulado de no utilizar información para el análisis y la generación que no fuese estadística. El experimento se efectuó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos 3 millones de oraciones en inglés y francés). Primero se alinearon oraciones, conjuntos de palabras y palabras sueltas, para después calcular las posibilidades de que una palabra de una oración en una lengua se correspondiese con otras palabras en la traducción. Los resultados sorprendieron a los propios estudiosos, en tanto que prácticamente la mitad de las oraciones traducidas eran precisamente como las contenidas en el texto original o bien tenían exactamente el mismo sentido si bien con palabras diferentes. El sistema no se llegó a comercializar, mas supuso un jalón histórico en la reorientación de las investigaciones.


Entre las aportaciones más recientes se puede destacar la del conjunto ISI de la University of Southern California, que desarrolla EGYPT, un bulto de software para edificar sistemas basados en la estadística desde corpus políglotas.


Desde dos mil seis, y hasta la publicación por la parte de Google de su artículo académico y la consecuente "fiebre neuronal" desde dos mil dieciseis, la traducción estadística fue el paradigma de traducción automática más estudiado.


Traducción basada en palabras (Word-Based translation)


En la traducción basada en palabras, la unidad esencial de la traducción es una palabra de una lengua natural. Generalmente, el número de palabras en oraciones traducidas son diferentes, por palabras compuestas, morfología y modismos. La relación de la longitud de las secuencias de palabras traducidas tiene por nombre fertilidad, que señala el número de palabras extranjeras que cada palabra nativa genera. Necesariamente se acepta la teoría de la información, que nos afirma que cada uno de ellos cubre exactamente el mismo término. En la práctica esto no es verdaderamente verdad. Por servirnos de un ejemplo, la palabra inglesa corner puede ser traducida en castellano por rincón o por esquina, en dependencia de si es en el sentido de su ángulo interno o bien externo.


La traducción simple basada en palabras no se puede traducir entre lenguas de diferente origen. Sistemas de traducción basados en palabras parcialmente simples pueden ser hechos para hacer en frente de altas tasas de fertilidad, mas podrían asignar una sola palabra a múltiples palabras, mas no al revés Por poner un ejemplo, si quisiésemos traducir del francés al Inglés, cada palabra en Inglés podría generar cualquier cantidad de palabras francesas, y no al reves. No hay forma de reunir 2 palabras en Inglés para generar una sola palabra francesa.


Un ejemplo de un sistema de traducción basado en la palabra es el bulto de distribución libre GIZA++ (en nuestros días de licencia GPL), que incluye el programa de adiestramiento para modelos de IBM y los modelos HMM y seis.


La traducción basada en la palabra no se emplea extensamente en la actualidad, los sistemas basados en oraciones son más habituales.La mayoría de sistemas basados en la oración prosiguen usando GIZA + + para alinear el corpus. Los alineamientos se emplean para extraer oraciones o bien inferir reglas de sintaxis. Y las palabras que coinciden en la bi-texto prosigue siendo un inconveniente discutido activamente en la comunidad. Debido al predominio de GIZA++, ahora hay múltiples implementaciones de distribución on-line.


Traducción basada en oraciones (Phrase-Based translation)


En la traducción basada en oraciones se han intentado reducir las limitaciones producidas por la traducción basada de palabras traduciendo secuencias de palabras a secuencias de palabras, donde las longitudes de la oración nativa y la extranjera pueden ser diferentes.


A las secuencias de palabras se les acostumbra a llamar bloques o bien oraciones, mas típicamente no son oraciones lingüísticas sino más bien oraciones encontradas en el corpus usando métodos estadísticos.


Se ha probado que la limitación de las oraciones a oraciones lingüísticas (conjuntos sintácticos de palabras, ver categorías sintácticas) reduce la calidad de la traducción


Frases hechas


Dependiendo de los cuerpos usados, ciertos modismos no se pueden traducir "idiomáticamente". Por servirnos de un ejemplo, utilizando el corpus políglota Hansard de Canadá, "oye" (en inglés, "hear") prácticamente siempre y en toda circunstancia se va a traducir como "¡Bravo!" (en francés, "Bravo!") en tanto que en el Parlamento "¡Oye, oye!" (en inglés, "Hear, hear!) aparece traducido en el corpus como "¡Bravo!".


Diferentes órdenes de palabras

El orden de las palabras en una oración difiere de lengua a lengua. Podemos hacer una clasificación tomando el orden propio de palabras de una lengua, fijándonos en el sujeto (S), verbo (V) y objeto (O bien) de una oración. De este modo, podemos charlar, por servirnos de un ejemplo, de lenguas tipo SVO (en la oración habitual el sujeto encabeza la oración, prosigue el verbo y por último se detalla el objeto), o bien de lenguas VSO, por poner los ejemplos más frecuentes. Asimismo hay diferencias auxiliares en este orden de palabras: por poner un ejemplo, exactamente en qué situación se ponen los modificadores del substantivo en lo que se refiere al propio substantivo -la expresión de España "viaje inopinado" se transformaría en inglés en "unexpected journey", donde se invierte el orden de nombre y adjetivo-; diferencias en el orden de palabras en expresiones afirmativas, negaciones, preguntas o bien imperativos; aparición de verbos auxiliares en diferentes puntos de la oración. De esta manera, en francés, podríamos tener la oración afirmativa "Il conduit un camion", que se traduciría al de España palabra por palabra como (Él) conduce un camión. No obstante, si cambiamos la oración a "Il ne conduit pas un camion", "Conduit-il un camion?" o bien "Conduis un camion!" (traducibles como (Él) no conduce un camión, ¿Conduce () un camión? y ¡Conduce un camión!) vemos cambios en el orden de palabras (pasamos de SVO a VSO en preguntas, por poner un ejemplo, y el sujeto se omite en las imperativas, aparte de aparecer partículas de negación a los dos lados del verbo).


En reconocimiento de voz, la señal de voz y la representación textual pertinente se puede asignar a cada uno de ellos en otros bloques en orden. Esto no es siempre y en toda circunstancia el caso con exactamente el mismo texto en 2 idiomas. Para SMT, el traductor automático solo puede dirigir pequeñas secuencias de palabras, y orden de las palabras debe ser pensada por el diseñador del programa. Los intentos de soluciones han incluido nuevos pedidos de modelos, donde se adivina una distribución de cambios de localización para cada elemento de la traducción del bi-texto alineados. Diferentes cambios de localización puede ser clasificados con la ayuda del modelo de lenguaje y el mejor puede ser elegido.


De léxico palabras (OOV)


Sistemas SMT guardar formularios diferentes palabras como símbolos independientes sin relación entre sí y formas de la palabra o bien oraciones que no estaban en los datos de adiestramiento no se pueden traducir. Esto podría ser debido a la carencia de datos de adiestramiento, los cambios en el dominio humano, cuando se utilice el sistema, o bien las diferencias en la morfología.


Los retos que encara la traducción automática estadística incluyen:


Orden diferente de palabras


El orden de las palabras en los diferentes idiomas no es exactamente el mismo. Se puede hacer un tanto de clasificación nombrando el orden propio de sujeto (S), verbo (V) y objeto (O bien) en una oración y se puede charlar, por poner un ejemplo, de lenguas SVO o bien VSO. Hay asimismo diferencias auxiliares, por poner un ejemplo, en el orden en que se ubican los modificadores de los sustantivos.


En el reconocimiento de la voz se pueden enlazar la señal del alegato y la representación textual en bloques ordenados. No siempre y en todo momento pasa lo mismo con exactamente el mismo texto en 2 lenguas. Para la SMT el modelo de traducción es únicamente capaz de traducir pequeñas secuencias de palabras y el orden de las palabras se debe tomar en consideración de alguna forma. La solución habitual han sido los modelos de reordenación, donde una distribución de cambios de sitio para cada elemento de traducción se acerca a la alineación de bi-texto. Los cambios de sitio se pueden clasificar con la ayuda del modelo de la lengua y se pueden elegir los mejores.


Palabras fuera del léxico (OOV, del inglés out of vocabulary)


Los sistemas de SMT guardan formas léxicas diferentes como símbolos separados sin relación entre ellas y las formas léxicas o bien oraciones que no estaban en los datos de capacitación no pueden ser traducidos. Las primordiales razones de que existan las palabras fuera de léxico son la restricción de datos de capacitación, los cambios de campo y la morfología.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 





Está aquí: Inicio > [ INTERNET ] > ıllı Traducción automática estadística wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas