Corpus Procesamiento del lenguaje natural (PLN) Corpus para aprendizaje en Procesamiento del Lenguaje Natural (PLN) Recuperación y Organización de la Información Corpus Recuperación y Organización de la Información: visitar también

Corpus


Un corpus es una especie de banco de datos. Según la Real Academia Española (RAE) un corpus consiste en un "conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación".

Los corpus son una herramienta muy útil para la recuperación y la organización de la información .

Los corpus textuales se pueden definir como "muestras de la lengua escrita".

Quizás los corpus textuales más importantes y conocidos son los que ofrece la Real Academia de la Lengua: el CREA ( Corpus de Referencia del Español Actual) y el CORDE ( Corpus Diacrónico del Español).

Estos dos corpus textuales son complementarios, ya que el CREA ( Corpus de Referencia del Español Actual) contiene textos de entre los años 1975 y 2004, y el CORDE ( Corpus Diacrónico del Español) textos de los años anteriores.

Por su parte, los corpus orales se pueden consistir bien en grabaciones de lengua hablada acompañadas de transcripciones, o bien en transcripciones ortográficas de la misma.

La lingüística del corpus es la disciplina que estudia la lengua a través de estos bancos de datos.

Referencias:

Real Academia de la Lengua (RAE)

Corpus


Contador


Lucía Martínez García
Licenciatura en Documentación
Universidad Carlos III de Madrid
100047248@alumnos.uc3m.es
©2009


¡CSS Válido! Valid HTML 4.01 Transitional Icono de conformidad con el Nivel A, del Test de Accesibilidad Web, T.A.W. FOAF RSS [Valid RSS]