Un corpus es una especie de banco de datos. Según la Real Academia Española (RAE) un corpus consiste en un "conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación".
Los corpus son una herramienta muy útil para la recuperación y la organización de la información .
Los corpus textuales se pueden definir como "muestras de la lengua escrita".
Quizás los corpus textuales más importantes y conocidos son los que ofrece la Real Academia de la Lengua: el CREA ( Corpus de Referencia del Español Actual) y el CORDE ( Corpus Diacrónico del Español).
Estos dos corpus textuales son complementarios, ya que el CREA ( Corpus de Referencia del Español Actual) contiene textos de entre los años 1975 y 2004, y el CORDE ( Corpus Diacrónico del Español) textos de los años anteriores.
Por su parte, los corpus orales se pueden consistir bien en grabaciones de lengua hablada acompañadas de transcripciones, o bien en transcripciones ortográficas de la misma.
La lingüística del corpus es la disciplina que estudia la lengua a través de estos bancos de datos.
Referencias:
Real Academia de la Lengua (RAE)
Lucía Martínez García
Licenciatura en Documentación
Universidad Carlos III de Madrid
100047248@alumnos.uc3m.es
©2009