ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Lingüística de corpus wiki: info, historia y vídeos

videos internet

salud  Lingüística de corpus 


La lingüística de corpus estudia el lenguaje mediante ejemplos de textos reales producidos en el "planeta real". Este procedimiento representa un enfoque que infiere un conjunto de reglas abstractas por el que una lengua natural se rige o bien se refiere a otro idioma. En el pasado se hacían a mano mas en la actualidad los corpus lingüísticos se consiguen mayoritariamente a través de un proceso automatizado.


En la lingüística forman los corpus aquellos textos, orales o bien escritos, y los documentos que los poseen, que han sido adecuadamente recogidos. Estos corpus forman las muestras que se usan en lingüística aplicada, entre otros muchos, para estudiar y examinar las peculiaridades del objeto de estudio, puesto que integran las muestras de los elementos que forman la realidad que se quiere observar. Tanto si es oral como escrito, un corpus va a deber definirse en función de los objetivos que se persigan con exactamente el mismo.


Los partidarios de la lingüística de corpus piensan que el análisis lingüístico más fiable se genera en las muestras recogidas en contextos naturales y con una interferencia mínima. En la lingüística de corpus hay puntos de vista discordantes en lo que se refiere al valor de la anotación de corpus, desde la perspectiva de John Sinclair, que opta por la anotación mínima y dejando a los textos "charlar por sí solos" hasta otros como el del equipo de Survey of English Usage (con sede en la University College, Londres) que apoyan la anotación como un camino cara una mayor entendimiento lingüística y de mayor rigor.


Algunos de los primeros sacrificios en la descripción gramatical se fundamentan, por lo menos en parte, en los corpus religiosos o bien culturales. Por poner un ejemplo, la literatura Pratisakhya describe los patrones de sonido de sánscrito como se halla en los Vedas, y la gramática de Panini del sánscrito tradicional se fundamenta, por lo menos en parte, en el análisis de ese corpus. De igual modo, los primeros gramáticos árabes prestaron singular atención a la lengua del Corán. En la tradición europea occidental múltiples académicos prepararon concordancias para efectuar una investigación detallado del lenguaje de la Sagrada Escritura y otros textos preceptivos.


Un jalón en la lingüística de corpus modernos fue la publicación por Henry Kucera y W. Nelson Francis de Computational Analysis of Present-Day American English en mil novecientos sesenta y siete, un trabajo basado en el análisis del Corpus de Brown, una selección esmeradamente compilada del inglés americano actual, con un total de más o menos un millón de palabras extraídas de una extensa pluralidad de fuentes. Kucera y Francis compilaron una obra riquísima y variada, que combina elementos de la lingüística, la enseñanza de idiomas, la sicología, la estadística y la sociología. Una publicación clave auxiliar fue la de Randolph QuirkTowards a description of English Usage (mil novecientos sesenta) en la que se introdujo el estudio del empleo del inglés.


Poco después, la editorial Houghton-Mifflin siguiendo a Kucera consiguió reunir un millón de palabras para su nuevo diccionario American Heritage Dictionary, el primer diccionario creado utilizando la lingüística de corpus. El AHD dio el paso renovador de conjuntar elementos prescriptivos (de qué forma se debe usar el lenguaje) con información gráfica (de qué manera se emplea realmente). Otras editoriales prosiguieron el ejemplo.


El Corpus de Brown asimismo ha dado sitio a una serie de conjuntos de corpus de estructura similar: el LOB Corpus (mil novecientos sesenta inglés británico), Kolhapur (inglés indio), Wellington (inglés de N. Zelanda), Corpus australiano de inglés (inglés australiano), el Corpus de Frown (el inglés americano de principios de mil novecientos noventa), y el FLOB Corpus (inglés británico de mil novecientos noventa). Otros conjuntos de corpus representan muchos idiomas, variedades y formas, y también incluyen el International Corpus of English, y el British National Corpus, una compilación de cien millones de palabras de una serie de textos orales y escritos, creada en la década de mil novecientos noventa por un consorcio de editoriales, universidades (Oxford y Lancaster) y la biblioteca británica. Para el inglés americano moderno, el trabajo se ha atascado en el American National Corpus, si bien el corpus de más de cuatrocientos millones de palabras Corpus of Contemporary American English (mil novecientos noventa-presente) está ahora libre por medio de una interfaz web.


El primer corpus informatizado del lenguaje hablado transcrito fue construido en mil novecientos setenta y uno por el Proyecto Francés de la ciudad de Montreal, que contenía un millón de palabras inspiró un corpus todavía más grande, el Corpus del Francés hablado en el área de Ottawa-Hull.


Además de estos conjuntos de corpus de las lenguas vivas, se han hecho corpus informatizados de las compilaciones de textos en lenguas viejas. Un caso es la base de datos de Andersen-Forbes de la Sagrada Escritura hebrea, que se viene desarrollando desde la década de los años setenta. En él, en todos y cada cláusula se examina el empleo de gráficos que representan hasta 7 niveles de sintaxis y cada segmento está etiquetado con 7 campos de información. El corpus del árabe coránico es un corpus con anotaciones de la lengua árabe tradicional del Corán. Este proyecto es reciente y con múltiples capas de anotación entre aquéllas que se incluyen la segmentación morfológica, el etiquetado gramatical y el análisis sintáctico usando la gramática de dependencia.


La Lingüística de corpus ha generado una serie de métodos de investigación, tratando de trazar un camino de datos a la teoría. Wallis y Nelson (dos mil uno) introdujeron por vez primera lo que llamaron la perspectiva de las 3 A (3A perspective): anotación, abstracción y análisis.



  • La anotación consiste en la aplicación de un esquema para textos. Las anotaciones pueden incluir etiquetas estructurales, etiquetado gramatical, análisis sintáctico, y numerosas otras representaciones.
  • La abstracción consiste en la traducción (mapeo) de términos en el esquema en conjunto de datos. La abstracción incluye la busca lingüista dirigida y puede incluir, por poner un ejemplo, la regla de aprendizaje para los analizadores.
  • El análisis consiste en sondear, la manipular y la producir el conjunto de datos, todo ello de forma estadística. El análisis podría incluir evaluaciones estadísticas, optimización de bases de reglas o bien métodos de descubrimiento de conocimiento.

La mayoría de los conjuntos de corpus léxicos son una parte del etiquetado del alegato. No obstante, aun los lingüistas de corpus que trabajan con texto plano y sin anotaciones en el texto aplican de forma ineludible algún procedimiento para aislar términos resaltables. En semejantes situaciones la anotación y la abstracción se combinan en la busca del léxico.


La ventaja de la publicación de un corpus con anotaciones es que otros usuarios pueden efectuar ensayos en el corpus. Los lingüistas con otros intereses y perspectivas diferentes que los autores pueden usar ese trabajo. Al compartir los datos, los lingüistas del corpus son capaces de tratar el corpus como un factor de discute lingüístico más que como una fuente de conocimiento.


Estudios recientes han probado que adolescentes con trastorno de fobia social asimismo pueden ser evaluados a través de el análisis de la lengua por medio de la lingüística de corpus.


La Lingüística de corpus una parte del empleo de lenguas naturales. Se trata de un procedimiento inductivo/empírico que persigue la adquisición de conocimiento sobre las lenguas: a través de la observación de un sinnúmero de ejemplos específicos se llega a la formulación de una teoría general del objeto. Este proceder experimental (de lo específico a lo general) una parte de la base de que todo conocimiento se basa en la experiencia. En el lado opuesto, nos hallamos el procedimiento deductivo que brota de la tradición filosófica del Racionalismo: a través del pensamiento se trata de hallar confirmación de de qué forma están construidas las lenguas (de lo general a lo específico).


A el interrogante de si la Lingüística de corpus es una metodología aplicada o bien general o bien de si forma una disciplina científica en sí todavía no se ha ofrecido una contestación terminante. En favor de su consideración como Procedimiento, es un hecho que muchas ramas de la Lingüística, desde la Lingüística teorética a la Lingüística forense, emplean técnicas de análisis experimentales basadas en corpus reflejado metódicamente, aunque no de forma exclusiva. No se le reconoce, no obstante, un objeto original o bien auténtico de la Lingüística de corpus. Incluso de esta forma, sería preciso que dispusiese de uno, si se le quiere entregar el estatuto de disciplina científica independiente. Para su consideración como disciplina científica podemos decir que determina de forma decidida el empleo de la lengua como su objeto de conocimiento y que, de esta manera, se distancia de las teorías lingüísticas que toman como objeto de estudio la capacidad lingüística de los humanos o bien las estructuras generales de la lengua como sistema semiótico. Con independencia de este principio, se ha afianzado la Lingüística de corpus como una disciplina científica en el planeta académico. Al respecto se puede comprobar, por poner un ejemplo, la existencia de numerosas gacetas especializadas, como, de 2 cátedras en la Universidad de Birmingham y en la Universidad Humboldt de Berlín.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı Lingüística de corpus wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas