Contido principal do artigo

Eva María Domínguez Noya
Instituto da Lingua Galega, Universidade de Santiago de Compostela / Centro Ramón Piñeiro para a investigación en humanidades
España
https://orcid.org/0000-0001-5592-4065
Vítor Míguez
Universidad del País Vasco / Euskal Herriko Unibertsitatea
España
http://orcid.org/0000-0001-7138-373X
Vol 14 (2022): Estudos de Lingüística Galega, Pescuda
DOI https://doi.org/10.15304/elg.14.8452
Recibido: 03-05-2022 Aceptado: 05-10-2022 Publicado: 07-12-2022
Copyright Como citar

Resumo

O tratamento das unidades multipalabra é unha tarefa inconclusa no procesamento da linguaxe natural. Neste contexto, illámo-las denominacións de nomenclatura científica binomial, cuxas principais características —expresións multipalabra latinas ou latinizadas e aceptación internacional— as afastan do acervo léxico do galego e converten o seu tratamento en extrapolable a outras linguas. Tras revisa-la súa caracterización no CORGA e noutros corpus peninsulares, propoñemos analizalas como un subtipo específico de substantivos, nomenclatura científica, sen concretar valores de xénero nin número. Describimos logo as actuacións desenvolvidas no kérnel ou núcleo e mais no corpus de adestramento para integra-la nova etiqueta no sistema XIADA e, a continuación, avaliamos dúas estratexias para a detección de candidatos: unha ferramenta específica para a súa extracción e inventarios dispoñibles en Internet. Por último, á luz dos datos que proporciona o CORGA, constatamos unha presenza notable de termos científicos binomiais e demostrámo-la importancia da nova etiqueta para a súa identificación e distribución.

Citado por

Detalles do artigo

Citas

BNC: British National Corpus (XML edition) https://cqpweb.lancs.ac.uk> [Consultado: 9/2/2022]

CB: Corpus Brasileiro [Consultado: 9/2/2022]

CdE: Corpus del español (Género/Histórico) [Consultado: 9/2/2022]

CdP: Corpus do português (Género/Histórico) [Consultado: 9/2/2022]

CORGA: Corpus de Referencia do Galego Actual (CORGA) [Consultado: 1-17/2/2022]

CORPES: Corpus del Español del Siglo XXI. [Consultado: 9/2/2022]

CRPC: Corpus de Referencia do Português Contemporâneo. [Consultado: 9/2/2022]

CT: Corpus Tècnic. [Consultado: 9/2/2022]

CTAG: Corpus Técnico Anotado do Galego. [Consultado: 9/2/2022]

CTILC: Corpus textual informatitzat de la llengua catalana. [Consultado: 9/2/2022]

TILG: Tesouro informatizado da lingua galega. [Consultado: 9/2/2022]

XIADA: Etiquetador/Lematizador do Galego Actual (XIADA) [2.8]

Bunge, Mario. 1972. La investigación científica. Barcelona: Ariel.

Calzolari, Nicoletta, Charles J. Fillmore, Ralph Grishman, Nancy Ide, Alessandro Lenci, Catherine MacLeod & Antonio Zampolli. 2002. Towards Best Practice for Multiword Expressions in Computational Lexicons. En Manuel González Rodríguez & Carmen Paz Suarez Araujo (eds.), Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02). 1934-1940. Las Palmas: European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2002/pdf/259.pdf

Caseli, Helena, Aline Villavicencio, André Machado & Maria José Finatto. 2009. Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains. En Dimitra Anastasiou, Chikara Hashimoto, Preslav Nakov & Su Nam Kim (eds.), Proceedings of the Workshop on Multiword Expressions: Identification, Interpretation, Disambiguation and Applications (MWE 2009). 1-8. Singapore: Association for Computational Linguistics. https://aclanthology.org/W09-2901.pdf

Darriba, Víctor, Yerai Doval & Elmurod Kuriyozov. 2021. Procesamiento de expresiones multipalabra en gallego mediante Aprendizaje Profundo. Procesamiento del Lenguaje Natural, 67, 45-57. https://doi.org/10.26342/2021-67-4

Domínguez Noya, Eva María. 2013. Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA. Santiago de Compostela: Universidade de Santiago de Compostela. [Tese de doutoramento inédita]. http://hdl.handle.net/10347/9587

Domínguez Noya, Eva María. 2016. O etiquetador probabilístico de XIADA e o seu teito de acerto: a elaboración de regras lingüísticas. En Manuel González González (ed.), Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal. 213-232. Santiago de Compostela: Xunta de Galicia / Centro Ramón Piñeiro para a Investigación en Humanidades.

Ernout, Alfred & Antoine Meillet. 2001. Dictionnaire étymologique de la langue latine. Histoire des mots. Paris: Klincksieck. [Obra publicada orixinalmente en 1932].

Graña Gil, Jorge. 2000. Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural. A Coruña: Universidade da Coruña. [Tese de doutoramento inédita]. http://hdl.handle.net/2183/12358

Manning, Christopher D. 2011. Part-of-speech tagging from 97 % to 100 %: is it time for some linguistics?. En Alexander F. Gelbukh (ed.), Computational linguistics and intelligent text processing, 12th International Conference, CICLing 2011, Proceedings. Part I: Lecture notes in computer science 6608. 171-189. Berlin: Springer. https://doi.org/10.1007/978-3-642-19400-9_14

Nguyen, Nhung T. H., Roselyn S. Gabud & Sophia Ananiadou. 2019. COPIOUS: A gold standard corpus of named entities towards extracting species occurrence from biodiversity literature. Biodiversity Data Journal 7, e29626. https://doi.org/10.3897/BDJ.7.e29626

Pafilis, Evangelos, Sune P. Frankild, Lucia Fanini, Sarah Faulwetter, Christina Pavloudi, Aikaterini Vasileiadou, Christos Arvanitidis & Lars Juhl Jensen. 2013. The SPECIES and ORGANISMS resources for fast and accurate identification of taxonomic names in text. PLoSONE 8(6), e65390. https://doi.org/10.1371/journal.pone.0065390

Pavlinov, Igor Ya. 2021. Taxonomic nomenclature: What’s in a name – theory and history. Boca Raton: CRC Press. https://doi.org/10.1201/9781003182535

Pyle, Richard L. 2016. Towards a Global Names Architecture: The future of indexing scientific names. ZooKeys 550, 261-281. https://doi.org/10.3897/zookeys.550.10009

Resolución de 24 de mayo de 2019, de la Secretaría General de Pesca, por la que se publica el listado de denominaciones comerciales de especies pesqueras y de acuicultura admitidas en España, Boletín Oficial del Estado, 143, de 15/06/2019. https://www.boe.es/buscar/doc.php?id=BOE-A-2019-9026

Rivers, Malin. 2019. European Red List of trees. Cambridge / Brussels: IUCN. https://doi.org/10.2305/IUCN.CH.2019.ERL.1.en

Rojo, Guillermo. 2017. Sobre la configuración estadística de los corpus textuales. Lingüística 33(1), 121‑134. http://doi.org/10.5935/2079-312x.20170008

Rouco, Miguel, José Luis Copete, Eduardo de Juana, Marcel Gil-Velasco, Juan Antonio Lorenzo, Marce Martín, Borja Milá, Blas Molina & David M. Santos. 2019. Lista de las aves de España. Madrid: SEO/BirdLife. https://seo.org/wp-content/uploads/2019/05/ListaAvesdeEspa%C3%B1a2019.pdf

Seideh, Mohamed Aly Fall, Hela Fehri, & Kais Haddar. 2017. Recognition and extraction of Latin names of plants for matching common plant named entities. En Linda Barone, Mario Monteleone & Max Silberztein (eds.), Automatic processing of natural-language electronic texts with NooJ. 10th International Conference, NooJ 2016, České Budějovice, Czech Republic, June 9-11, 2016, Revised Selected Papers. 132-144. Berlin: Springer. https://doi.org/10.1007/978-3-319-55002-2_12

Villavicencio, Aline, Valia Kordoni, Yi Zhang, Marco Idiart & Carlos Ramisch. 2007. Validation and Evaluation of Automatically Acquired Multiword Expressions for Grammar Engineering. En Jason Eisner (ed.), Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 1034-1043. Prague: Association for Computational Linguistics. https://aclanthology.org/D07-1110.pdf