Lanzan nueva versión de Corpus del Español
El corpus del español de la Universidad Brigham Young, uno de los más completos de la lengua castellana, con cien millones de palabras, acaba de anunciar el lanzamiento de su nueva versión, con nuevos y poderosos recursos. Ofrecemos aquí una entrevista con su autor, el lingüista estadounidense Mark Davies.
El uso de las computadoras ha hecho posible la aparición de nuevas herramientas para el estudio de las lenguas, Un corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Se trata de grandes volúmenes de textos, de numerosas fuentes, generalmente millones de palabras, clasificadas por fecha y por autor, en los que se puede hacer búsquedas en forma fácil y rápida, algo que hubiera sido impensable antes del surgimiento de la informática.
Este campo del conocimiento, llamado Lingüística computacional, nació en 1967 en la universidad estadounidense de Brown, en la ciudad de Providence, Rhode Island, con los trabajos de Henry Kucera y Nelson Francis, quienes compilaron el llamado corpus de Brown, el primero de la historia.
La Real Academia Española ofrece en su sitio web dos corpus diferenciados: El CREA (Corpus de Referencia del Español Actual) y el Corde (Corpus Diacrónico del Español). El CREA incluye textos de los últimos veinticinco años y el Corde, desde los inicios del español hasta el comienzo del CREA.
Otros corpus del español se han construido fuera de España. Entre ellos, cabe destacar uno de los más vastos y el que mejor parece adecuarse a las necesidades de quienes trabajan con la historia del idioma por las posibilidades que ofrece: el Corpus del Español de la Universidad de Brigham Young, creado en 2002 por el lingüista e investigador Mark Davies. El corpus, que está disponible en www.corpusdelespanol.org, contiene cien millones de palabras, entre los siglos XIII y XX.
Mark Davies lanzó a comienzos de diciembre una segunda versión de su corpus a la que se incorporan nuevos recursos. Es lo que explica en esta entrevista exclusiva que concedió a La Página del Idioma Español.
Cuéntenos sobre su carrera y sobre su interés en el idioma español
Aprendí español cuando tenía diecinueve años y actuaba como representante de mi iglesia con los inmigrantes hispánicos en Los Ángeles, California. Estudié y me gradué como bachiller en Lingüística Española y luego obtuve una maestría en la Universidad de Brigham Young, y posteriormente me doctoré en Lingüística Española en la Universidad de Austin, Texas, en 1992. A partir de allí enseñé español en la Universidad del Estado de Illinois durante doce años, época en la cual publiqué numerosos artículos sobre historia de la sintaxis española y variantes sintácticas del español moderno. Posteriormente, volvió a Brigham Young para enseñar lingüística general y corpus lingüísticos en 2003.
¿Cómo surgió la idea de llevar adelante este proyecto?
Como parte de mi investigación sobre sintaxis española, fue creando y empleando corpus de español desde fines de la década de 1980. Conocí corpus como los de la Real Academia Española –CREA y CORDE- que fueron desarrollados a fines de los años noventa. Yo sentía por entonces que era posible crear corpus más útiles que permitieran estudiar una amplia gama de fenómenos lingüísticos. En 2001, pedí y obtuve un generoso patrocinio de la Fundación Nacional de Estados Unidos para Humanidades (NEH, por su sigla en inglés, para crear tal corpus.
¿Cuándo fue instalado en la web?
Trabajé con ayuda de esa beca en 2001 y 2002, y el cuerpo fue puesto a disposición del público a fines de 2002. ¿Cuántas palabras contiene?
Cien millones: veinte millones de los siglos XIII a XV; cuarenta millones de los siglos XVI a XVIII, veinte millones del siglo XIX y veinte millones del siglo XX.
¿Cómo fueron seleccionados los textos?
Para los veinte millones de palabras del siglo XX tenemos un cuerpo balanceado de 25% de español hablado, 25% de ficción, 25% de periódicos y 25% de académicos/otros/no ficción. Para los períodos anteriores, obviamente no existe la misma variedad de registros, pero se buscó que hubiera un equilibrio entre ficción y no ficción.
¿Cuántos visitantes recibe mensualmente este corpus?
Normalmente recibe entre 1.500 y 2.000 visitantes diferentes por mes. El año pasado, 20.000 personas diferentes usaron el corpus, que hicieron total de casi 300.000 consultas
¿Podría darnos algunos datos sobre los aspectos técnológicos del proyecto?
El corpus está basado en una arquitectura de banco de datos relacional que yo mismo desarrollé en http://corpus.byu.edu, y que ha sido empleada en otros grandes corpus (de cien millones de palabras o más). Esto significa que el texto ha sido codificado por lema (forma diferentes deun verbo dado, por ejemplo), partes de texto, sinónimos y otras informaciones semánticas.
¿Qué innovaciones tecnológicas y lingüísticas trae esta nueva versión?
Desde su creación hace seis años, el corpus permitió una amplia gama de búsquedas que no están disponibles en otros grandes corpus del español. Esto incluye búsquedas por partes de texto, lema, sinónimo, listas estandarizadas y frecuencia en diferentes períodos históricos y en diferentes registros del español moderno.
Por ejemplo, con una simple búsqueda es posible hallar: 1) verbos que aparecen por primera vez en el siglo XX; 2) búsquedas por proximidad de determinadas palabras (por ejemplo suave y ruido) que aparecen cercanas una de otra más en el español hablado que en el escrito; 3) palabra que aparecen en proximidad (p. ej. mujer o valor) más en el siglo XIX que en el XX; 4) La presencia de todas las series de caracteres (string) para una construcción sintáctica específica (p. ej: hacer + infinitivo: les hicieron salir, nos hace pensar); 5) Los sinónimos más frecuentes de una palabra dada, o 6) cualquier combinación de búsquedas con partes del texto, lema, sinónimos y frecuencia (por ejemplo, cualquier forma o cualquier sinónimo de hacer + un infinitivo (p. ej. hicieron pensar, mandó decir, obliga a trabajar) que ocurren más en el español hablado que en ficción o en la prensa. Por supuesto, éstos son apenas algunos ejemplos de un número ilimitado de búsquedas que se hace posible con este corpus.
¿Y con la nueva versión? La nueva versión, disponible a partir de octubre de 2007, permitirá nuevas posibilidades de búsqueda. Entre ellas 1) hallazgo en proximidad de hasta diez palabras (p. ej.: todos los adjetivos cercanos a nube, o todos los sustantivos cercanos a lúgubre); comparaciones de estas palabras halladas en proximidad en diferentes registros y épocas (para ver diferentes significados de palabras o cómo los significados han cambiado en el tiempo); 3) gráficos de barras que ilustran la frecuencia con que aparecen los resultados (palabras, frases o series de caracteres [strings]) de una construcción gramatical específica en cada época y en cada registro del español moderno, tanto hablado como ficción, prensa o textos académicos) y 4) comparaciones selectivas, como palabras que aparecen cerca de pelo pero no de cabello, o cerca de empezar pero no de comenzar, etc.) . Ninguna de las búsquedas mencionadas en estos dos párrafos sería posible en otro corpus del español, incluyendo el CREA o el CORDE de la Real Academia Española.