twitter account

Como usar el corpus del español

El Dr. Mark Davies, de la Universidad Brigham Young, detalla a nuestros lectores las nuevas posibilidades que el corpusdelespanol ofrece a los investigadores de la lengua: búsquedas combinadas, palabras que acompañan un sustantivo, búsquedas por flexiones verbales(verbos conjugados), por flexiones nominales (género y número) y por época de uso, desde el siglo XIII, entre muchas otras.

Orientaciones para el uso de
corpusdelespanol.org
Por Mark Davies, PhD

Nos complace comunicarles que existe una nueva versión del Corpus del Español: http://www.corpusdelespanol.org. Ésta les permite hacer muchas cosas que eran imposibles en la versión anterior, inclusive las siguientes:

 

  • Encontrar las colocaciones (palabras cercanas) de una determinada palabra por ejemplo, las palabras que quedan dentro de cinco palabras a la izquierda o a la derecha de mujer; sustantivos cerca de grave; o los adjetivos que están cerca de rostro). Esta información puede resultar muy útil para entender el significado de una determinada palabra.
  • Con una simple consulta, comparar las colocaciones de dos palabras (para ver la diferencia entre palabras relacionadas, por ejemplo pelo/cabello, comenzar/iniciar o gozar/disfrutar).
  • Comparar las colacaciones en dos períodos históricos o en dos géneros (por ejemplo, una comparación de las colocaciones de mujer entre el siglo XIX y XX, o las colocaciones de cadena en ficción y en textos académicos).
  • Ordenar las colocaciones según la frecuencia global en el Corpus (usando la "Información Mutua"). Por ejemplo, en lugar de rostro de, en, que, etc., la consulta rostro * produce rostro ovalado, desencajado, amoratado, etc..
  • Ver un gráfico de barras que muestra la frecuencia global de una palabra, frase o construcción gramatical entre los siglos XIII-XX, así como en los cuatro registros del siglo XX (oral, ficción, periodístico y académico).
  • Guardar los resultados de una búsqueda y recuperarlos (y usarlos) después de un tiempo.
  • Registrar series más amplias de palabras, hasta 21 palabras en una serie (comparado con las 3-4 en la versión anterior).
  • El Corpus se ha re-lematizado y re-etiquetado y es mucho más exacto que antes. Con la nueva arquitectura, será posible hacer búsquedas utilizando ocurrencias para categorías léxicas poco específicas (por ejemplo, [v*] para todos los verbos) o para categorías léxicas específicas (por ejemplo, [*n*ms] para todos los nombres en masculino singular).
  • El Corpus textual se ha reorganizado. Para el siglo XX ahora hay cuatro divisiones de igual tamaño: oral (5 millones de palabras), ficción (5 millones), periodismo (5 millones) y texto académico (5 millones).
  • La interfaz y la sintaxis de las consultas se han modificado completamente para hacer búsquedas más intuitivas y fáciles de realizar.

 

Los invitamos a visitar el nuevo Corpus y esperamos que les sea útil en su investigación.