¿Qué es la lingüística de corpus?
Autor
Astrid P. Rosas
Publicado el

Dentro del amplio panorama de los estudios lingüísticos, en los cuales hay distintas metodologías, diferentes puntos de vista y muy variadas orientaciones teóricas, la lingüística de corpus ha ganado mucha relevancia y es, probablemente, la estrategia que más se emplea hoy en día –aunque no es nueva, sino que se usa desde mediados del siglo pasado– en distintos sectores, por ejemplo en la creación de diccionarios y en los análisis evolutivos de lexemas o construcciones sintácticas. Consiste en realizar investigaciones partiendo de un corpus, es decir una base de datos formada a partir del uso real de la lengua, con el fin de obtener resultados menos sesgados, más apegados a la realidad lingüística de los hablantes y también mucho más representativos.
Se trata de un método de estudio que busca apegarse a una postura meramente descriptiva –sin juicios de valor ni etiquetas sobre el buen o mal uso de la lengua– y que toma en cuenta, según los objetivos de cada caso, algunos aspectos del contexto que envuelve las reproducciones lingüísticas: perfil de los hablantes –edad, género, origen–, situación concreta, tipo de soporte –auditivo o escrito–, etc.
Para construir los corpus se puede recurrir a diversas técnicas, por ejemplo, las entrevistas y la recopilación de textos escritos como cartas, obras literarias, disertaciones o, incluso, material encontrado en comentarios o publicaciones de redes sociales. Para corpus diacrónicos que reúnen información de siglos pasados se utilizan manuscritos de textos jurídicos y periodísticos, que en ocasiones son las únicas fuentes localizables.
Así, en general, el contenido de cada corpus dependerá de los objetivos específicos de cada estudio, de modo que para aquellos lingüistas que se desenvuelven en la rama de la fonología será necesario obtener grabaciones nítidas que permitan distinguir tanto la pronunciación como la modulación y entonación; mientras que para alguien dedicado a la sociolingüística quizá lo relevante será tener representación de grupos de hablantes con distintos contextos para poder hacer un análisis comparativo y tratar de determinar qué elementos pragmáticos favorecen el uso de ciertas estructuras.
En lengua española existen corpus con acceso abierto y una base de datos robusta, pues abarcan distintos años y muy amplias zonas geográficas. La rae cuenta con el Corpus Diacrónico del Español (corde), el cual contiene textos de todos los lugares en que se habla español y llega hasta el año 1974, y con el Corpus de Referencia del Español Actual (crea), que contiene material escrito y auditivo de los diferentes países hispanohablantes desde 1975 y hasta 2004. Por su parte, la Academia Mexicana de la Lengua desarrolló el Corpus Diacrónico y Diatópico del Español de América (cordiam), que, como su nombre lo indica, posee textos escritos únicamente del continente americano, producidos entre 1494 y 1905.
Muchas de las gramáticas del español que en la actualidad usamos fueron elaboradas a partir de la lingüística de corpus, gracias a lo cual son capaces de ofrecernos ejemplos claros y reales, en lugar de basarse únicamente en la intuición y competencia lingüística de los gramáticos. Caso similar, aunque mucho más complejo, el de las inteligencias artificiales.
Así, la lingüística de corpus está más presente en nuestra cotidianeidad de lo que somos conscientes. Y tú ¿ya sabías cómo funcionaba?
Bibliografía
Academia Mexicana de la Lengua. Cordiam. Presentación. https://www.cordiam.org
Centro Virtual Cervantes. (2005). Lingüística de corpus. https://cvc.cervantes.es
Real Academia Española. (2019). Corde. https://www.rae.es/banco-de-datos/corde
Real Academia Española. (2019). Crea. https://www.rae.es/banco-de-datos/crea

Descubre cómo Anthony Burgess utiliza la ironía en La naranja mecánica para construir humor, crítica social y contrastes impactantes en su narrativa.

Descubre cómo la onomástica en Mickey 17 refleja la lucha por la identidad y la dignidad en un entorno de violencia y deshumanización.