Contido principal do artigo

Eva María Domínguez Noya
Instituto da Lingua Galega, Universidade de Santiago de Compostela / Centro Ramón Piñeiro para a investigación en humanidades
Spain
https://orcid.org/0000-0001-5592-4065
Vítor Míguez
Universidad del País Vasco / Euskal Herriko Unibertsitatea
Spain
http://orcid.org/0000-0001-7138-373X
Vol. 14 (2022): Estudos de Lingüística Galega, Pescuda
https://doi.org/10.15304/elg.14.8452
Recibido: 2022-05-03| Publicado: 2022-12-07

Resumo

O tratamento das unidades multipalabra é unha tarefa inconclusa no procesamento da linguaxe natural. Neste contexto, illámo-las denominacións de nomenclatura científica binomial, cuxas principais características —expresións multipalabra latinas ou latinizadas e aceptación internacional— as afastan do acervo léxico do galego e converten o seu tratamento en extrapolable a outras linguas. Tras revisa-la súa caracterización no CORGA e noutros corpus peninsulares, propoñemos analizalas como un subtipo específico de substantivos, nomenclatura científica, sen concretar valores de xénero nin número. Describimos logo as actuacións desenvolvidas no kérnel ou núcleo e mais no corpus de adestramento para integra-la nova etiqueta no sistema XIADA e, a continuación, avaliamos dúas estratexias para a detección de candidatos: unha ferramenta específica para a súa extracción e inventarios dispoñibles en Internet. Por último, á luz dos datos que proporciona o CORGA, constatamos unha presenza notable de termos científicos binomiais e demostrámo-la importancia da nova etiqueta para a súa identificación e distribución.