Como usar el corpus del español
diciembre 2007
El Dr. Mark Davies, de la Universidad Brigham Young, detalla a nuestros lectores las nuevas posibilidades que el corpusdelespanol ofrece a los investigadores de la lengua: búsquedas combinadas, palabras que acompañan un sustantivo, búsquedas por flexiones verbales(verbos conjugados), por flexiones nominales (género y número) y por época de uso, desde el siglo XIII, entre muchas otras.
Nos complace comunicarles que existe una nueva versión del Corpus del Español: http://www.corpusdelespanol.org. Ésta les permite hacer muchas cosas que eran imposibles en la versión anterior, inclusive las siguientes:
- Encontrar las colocaciones (palabras cercanas) de una determinada palabra por ejemplo, las palabras que quedan dentro de cinco palabras a la izquierda o a la derecha de mujer; sustantivos cerca de grave; o los adjetivos que están cerca de rostro). Esta información puede resultar muy útil para entender el significado de una determinada palabra.
- Con una simple consulta, comparar las colocaciones de dos palabras (para ver la diferencia entre palabras relacionadas, por ejemplo pelo/cabello, comenzar/iniciar o gozar/disfrutar).
- Comparar las colacaciones en dos períodos históricos o en dos géneros (por ejemplo, una comparación de las colocaciones de mujer entre el siglo XIX y XX, o las colocaciones de cadena en ficción y en textos académicos).
- Ordenar las colocaciones según la frecuencia global en el Corpus (usando la "Información Mutua"). Por ejemplo, en lugar de rostro de, en, que, etc., la consulta rostro * produce rostro ovalado, desencajado, amoratado, etc..
- Ver un gráfico de barras que muestra la frecuencia global de una palabra, frase o construcción gramatical entre los siglos XIII-XX, así como en los cuatro registros del siglo XX (oral, ficción, periodístico y académico).
- Guardar los resultados de una búsqueda y recuperarlos (y usarlos) después de un tiempo.
- Registrar series más amplias de palabras, hasta 21 palabras en una serie (comparado con las 3-4 en la versión anterior).
- El Corpus se ha re-lematizado y re-etiquetado y es mucho más exacto que antes. Con la nueva arquitectura, será posible hacer búsquedas utilizando ocurrencias para categorías léxicas poco específicas (por ejemplo, [v*] para todos los verbos) o para categorías léxicas específicas (por ejemplo, [*n*ms] para todos los nombres en masculino singular).
- El Corpus textual se ha reorganizado. Para el siglo XX ahora hay cuatro divisiones de igual tamaño: oral (5 millones de palabras), ficción (5 millones), periodismo (5 millones) y texto académico (5 millones).
- La interfaz y la sintaxis de las consultas se han modificado completamente para hacer búsquedas más intuitivas y fáciles de realizar.
Los invitamos a visitar el nuevo Corpus y esperamos que les sea útil en su investigación.