Contido principal do artigo

Eva María Domínguez Noya
Instituto da Lingua Galega, Universidade de Santiago de Compostela / Centro Ramón Piñeiro para a investigación en humanidades
España
https://orcid.org/0000-0001-5592-4065
Vítor Míguez
Universidad del País Vasco / Euskal Herriko Unibertsitatea
España
http://orcid.org/0000-0001-7138-373X
Vol 14 (2022): Estudos de Lingüística Galega, Pescuda
DOI https://doi.org/10.15304/elg.14.8452
Recibido: 03-05-2022 Aceptado: 05-10-2022 Publicado: 07-12-2022
Copyright Como citar Artigos máis lidos do mesmo autor/a(s) Citado por

Resumo

O tratamento das unidades multipalabra é unha tarefa inconclusa no procesamento da linguaxe natural. Neste contexto, illámo-las denominacións de nomenclatura científica binomial, cuxas principais características —expresións multipalabra latinas ou latinizadas e aceptación internacional— as afastan do acervo léxico do galego e converten o seu tratamento en extrapolable a outras linguas. Tras revisa-la súa caracterización no CORGA e noutros corpus peninsulares, propoñemos analizalas como un subtipo específico de substantivos, nomenclatura científica, sen concretar valores de xénero nin número. Describimos logo as actuacións desenvolvidas no kérnel ou núcleo e mais no corpus de adestramento para integra-la nova etiqueta no sistema XIADA e, a continuación, avaliamos dúas estratexias para a detección de candidatos: unha ferramenta específica para a súa extracción e inventarios dispoñibles en Internet. Por último, á luz dos datos que proporciona o CORGA, constatamos unha presenza notable de termos científicos binomiais e demostrámo-la importancia da nova etiqueta para a súa identificación e distribución.