Unha mellora do CORGA extrapolable a outros corpus e linguas: a etiquetaxe da nomenclatura científica binomial
Contido principal do artigo
Resumo
O tratamento das unidades multipalabra é unha tarefa inconclusa no procesamento da linguaxe natural. Neste contexto, illámo-las denominacións de nomenclatura científica binomial, cuxas principais características —expresións multipalabra latinas ou latinizadas e aceptación internacional— as afastan do acervo léxico do galego e converten o seu tratamento en extrapolable a outras linguas. Tras revisa-la súa caracterización no CORGA e noutros corpus peninsulares, propoñemos analizalas como un subtipo específico de substantivos, nomenclatura científica, sen concretar valores de xénero nin número. Describimos logo as actuacións desenvolvidas no kérnel ou núcleo e mais no corpus de adestramento para integra-la nova etiqueta no sistema XIADA e, a continuación, avaliamos dúas estratexias para a detección de candidatos: unha ferramenta específica para a súa extracción e inventarios dispoñibles en Internet. Por último, á luz dos datos que proporciona o CORGA, constatamos unha presenza notable de termos científicos binomiais e demostrámo-la importancia da nova etiqueta para a súa identificación e distribución.
Palabras chave
Detalles do artigo
Citas
BNC: British National Corpus (XML edition) https://cqpweb.lancs.ac.uk> [Consultado: 9/2/2022]
CB: Corpus Brasileiro [Consultado: 9/2/2022]
CdE: Corpus del español (Género/Histórico) [Consultado: 9/2/2022]
CdP: Corpus do português (Género/Histórico) [Consultado: 9/2/2022]
CORGA: Corpus de Referencia do Galego Actual (CORGA) [Consultado: 1-17/2/2022]
CORPES: Corpus del Español del Siglo XXI. [Consultado: 9/2/2022]
CRPC: Corpus de Referencia do Português Contemporâneo. [Consultado: 9/2/2022]
CT: Corpus Tècnic. [Consultado: 9/2/2022]
CTAG: Corpus Técnico Anotado do Galego. [Consultado: 9/2/2022]
CTILC: Corpus textual informatitzat de la llengua catalana. [Consultado: 9/2/2022]
TILG: Tesouro informatizado da lingua galega. [Consultado: 9/2/2022]
XIADA: Etiquetador/Lematizador do Galego Actual (XIADA) [2.8]
Bunge, Mario. 1972. La investigación científica. Barcelona: Ariel.
Calzolari, Nicoletta, Charles J. Fillmore, Ralph Grishman, Nancy Ide, Alessandro Lenci, Catherine MacLeod & Antonio Zampolli. 2002. Towards Best Practice for Multiword Expressions in Computational Lexicons. En Manuel González Rodríguez & Carmen Paz Suarez Araujo (eds.), Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02). 1934-1940. Las Palmas: European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2002/pdf/259.pdf
Caseli, Helena, Aline Villavicencio, André Machado & Maria José Finatto. 2009. Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains. En Dimitra Anastasiou, Chikara Hashimoto, Preslav Nakov & Su Nam Kim (eds.), Proceedings of the Workshop on Multiword Expressions: Identification, Interpretation, Disambiguation and Applications (MWE 2009). 1-8. Singapore: Association for Computational Linguistics. https://aclanthology.org/W09-2901.pdf
Darriba, Víctor, Yerai Doval & Elmurod Kuriyozov. 2021. Procesamiento de expresiones multipalabra en gallego mediante Aprendizaje Profundo. Procesamiento del Lenguaje Natural, 67, 45-57. https://doi.org/10.26342/2021-67-4
Domínguez Noya, Eva María. 2013. Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA. Santiago de Compostela: Universidade de Santiago de Compostela. [Tese de doutoramento inédita]. http://hdl.handle.net/10347/9587
Domínguez Noya, Eva María. 2016. O etiquetador probabilístico de XIADA e o seu teito de acerto: a elaboración de regras lingüísticas. En Manuel González González (ed.), Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal. 213-232. Santiago de Compostela: Xunta de Galicia / Centro Ramón Piñeiro para a Investigación en Humanidades.
Ernout, Alfred & Antoine Meillet. 2001. Dictionnaire étymologique de la langue latine. Histoire des mots. Paris: Klincksieck. [Obra publicada orixinalmente en 1932].
Graña Gil, Jorge. 2000. Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural. A Coruña: Universidade da Coruña. [Tese de doutoramento inédita]. http://hdl.handle.net/2183/12358
Manning, Christopher D. 2011. Part-of-speech tagging from 97 % to 100 %: is it time for some linguistics?. En Alexander F. Gelbukh (ed.), Computational linguistics and intelligent text processing, 12th International Conference, CICLing 2011, Proceedings. Part I: Lecture notes in computer science 6608. 171-189. Berlin: Springer. https://doi.org/10.1007/978-3-642-19400-9_14
Nguyen, Nhung T. H., Roselyn S. Gabud & Sophia Ananiadou. 2019. COPIOUS: A gold standard corpus of named entities towards extracting species occurrence from biodiversity literature. Biodiversity Data Journal 7, e29626. https://doi.org/10.3897/BDJ.7.e29626
Pafilis, Evangelos, Sune P. Frankild, Lucia Fanini, Sarah Faulwetter, Christina Pavloudi, Aikaterini Vasileiadou, Christos Arvanitidis & Lars Juhl Jensen. 2013. The SPECIES and ORGANISMS resources for fast and accurate identification of taxonomic names in text. PLoSONE 8(6), e65390. https://doi.org/10.1371/journal.pone.0065390
Pavlinov, Igor Ya. 2021. Taxonomic nomenclature: What’s in a name – theory and history. Boca Raton: CRC Press. https://doi.org/10.1201/9781003182535
Pyle, Richard L. 2016. Towards a Global Names Architecture: The future of indexing scientific names. ZooKeys 550, 261-281. https://doi.org/10.3897/zookeys.550.10009
Resolución de 24 de mayo de 2019, de la Secretaría General de Pesca, por la que se publica el listado de denominaciones comerciales de especies pesqueras y de acuicultura admitidas en España, Boletín Oficial del Estado, 143, de 15/06/2019. https://www.boe.es/buscar/doc.php?id=BOE-A-2019-9026
Rivers, Malin. 2019. European Red List of trees. Cambridge / Brussels: IUCN. https://doi.org/10.2305/IUCN.CH.2019.ERL.1.en
Rojo, Guillermo. 2017. Sobre la configuración estadística de los corpus textuales. Lingüística 33(1), 121‑134. http://doi.org/10.5935/2079-312x.20170008
Rouco, Miguel, José Luis Copete, Eduardo de Juana, Marcel Gil-Velasco, Juan Antonio Lorenzo, Marce Martín, Borja Milá, Blas Molina & David M. Santos. 2019. Lista de las aves de España. Madrid: SEO/BirdLife. https://seo.org/wp-content/uploads/2019/05/ListaAvesdeEspa%C3%B1a2019.pdf
Seideh, Mohamed Aly Fall, Hela Fehri, & Kais Haddar. 2017. Recognition and extraction of Latin names of plants for matching common plant named entities. En Linda Barone, Mario Monteleone & Max Silberztein (eds.), Automatic processing of natural-language electronic texts with NooJ. 10th International Conference, NooJ 2016, České Budějovice, Czech Republic, June 9-11, 2016, Revised Selected Papers. 132-144. Berlin: Springer. https://doi.org/10.1007/978-3-319-55002-2_12
Villavicencio, Aline, Valia Kordoni, Yi Zhang, Marco Idiart & Carlos Ramisch. 2007. Validation and Evaluation of Automatically Acquired Multiword Expressions for Grammar Engineering. En Jason Eisner (ed.), Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 1034-1043. Prague: Association for Computational Linguistics. https://aclanthology.org/D07-1110.pdf
Artigos máis lidos do mesmo autor/a(s)
- Vítor Míguez, Parámetros sintácticos e semánticos das alternancias obxecto/oblicuo: unha comparación entre os complementos con en do galego e as construcións conativa e antipasiva , Estudos de Lingüística Galega: Vol 8 (2016)
- Vítor Míguez, Nuyts, Jan / Johan van der Auwera (eds.) (2016): The Oxford Handbook of Modality and Mood. Oxford: Oxford University Press, xiv + 670 pp. , Estudos de Lingüística Galega: Vol 9 (2017)
- Vítor Míguez, Gabriel Rei-Doval & Fernando Tejedo-Herrero (eds.) (2019): Lusophone, Galician, and Hispanic Linguistics: Bridging Frames and Traditions. London / New York: Routledge, 282 pp. , Verba: Anuario Galego de Filoloxía: Vol 47 (2020)
- Vítor Míguez, Kato, Mary A., Martins, Ana Maria & Nunes, Jairo. 2023. "The Syntax of Portuguese". Cambridge: Cambridge University Press [507 pp.]. ISBN: 978-0521860611.https://doi.org/10.1017/9780511842931 , Estudos de Lingüística Galega: Vol 15 No 1 (2023): Estudos de Lingüística Galega