Generación y pesado de skipgrams y su aplicación al análisis de sentimientos
ISSN: 1135-5948
Year of publication: 2023
Issue: 70
Pages: 213-223
Type: Article
More publications in: Procesamiento del lenguaje natural
Abstract
El modelado de skipgrams es una técnica para la generación de términos multi-palabra que conserva parte de la secuencialidad y flexibilidad del lenguaje. Sin embargo, en algunos casos el número de skipgrams generados puede ser excesivo a medida que se aumenta la distancia entre palabras. Además, esta distancia no suele ser tenida en cuenta a la hora de valorar los términos que se generan. En este trabajo proponemos una técnica para la generación y filtrado eficientes de skipgrams y un esquema de pesado que tiene en cuenta la distancia entre los términos, dando más importancia a aquellos más cercanos. Aplicaremos y evaluaremos estas propuestas en la tarea de análisis de sentimientos.
Bibliographic References
- Chang, C.-Y., S.-J. Lee, y C.-C. Lai. 2017. Weighted word2vec based on the distance of words. En 2017 International Confe rence on Machine Learning and Cyberne tics (ICMLC), volumen 2, páginas 563– 568. IEEE.
- Church, K. W. 2017. Word2vec. Natural Language Engineering, 23(1):155–162.
- Du, X., J. Yan, R. Zhang, y H. Zha. 2020. Cross-network skip-gram embedding for joint network alignment and link prediction. IEEE Transactions on Knowledge and Data Engineering.
- Gompel, M. v. y A. van den Bosch. 2016. Efficient n-gram, skipgram and flexgram modelling with colibri core. Journal of Open Research Software, 4:1–10.
- Guthrie, D., B. Allison, W. Liu, L. Guthrie, y Y. Wilks. 2006. A closer look at skip gram modelling. En Proceedings of the fifth international conference on language resources and evaluation (LREC’06).
- Hossny, A. H., L. Mitchell, N. Lothian, y G. Osborne. 2020. Feature selection methods for event detection in twitter: A text mining approach. Social Network Analysis and Mining, 10(1):1–15.
- Komninos, A. y S. Manandhar. 2016. De pendency based embeddings for sentence classification tasks. En Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, páginas 1490–1500.
- Mikolov, T., K. Chen, G. Corrado, y J. Dean. 2013. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
- Mimno, D. y L. Thompson. 2017. The strange geometry of skip-gram with negative sampling. En Empirical Methods in Natural Language Processing.
- Nguyen, T. H. y R. Grishman. 2016. Modeling skip-grams for event detection with convolutional neural networks. En Proceedings of the 2016 Conference on Empirical Methods in Natural Language Pro cessing, páginas 886–891.
- Pang, B. y L. Lee. 2005. Seeing stars: Exploi ting class relationships for sentiment categorization with respect to rating scales. En Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL’05), páginas 115–124.
- Pedregosa, F., G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blon del, P. Prettenhofer, R. Weiss, V. Du bourg, J. Vanderplas, A. Passos, D. Cour napeau, M. Brucher, M. Perrot, y E. Du chesnay. 2011. Scikit-learn: Machine lear ning in Python. Journal of Machine Learning Research, 12:2825–2830.
- Peng, H., J. Li, H. Yan, Q. Gong, S. Wang, L. Liu, L. Wang, y X. Ren. 2020. Dyna mic network embedding via incremental skip-gram with negative sampling. Scien ce China Information Sciences, 63(10):1– 19.
- Santos, F. A. O., T. D. Bispo, H. T. Mace do, y C. Zanchettin. 2021. Morphological skip-gram: Replacing fasttext characters n-gram with morphological knowledge. Inteligencia Artificial, 24(67):1–17.
- Shazeer, N., J. Pelemans, y C. Chelba. 2015. Sparse non-negative matrix language modeling for skip-grams. Proceedings Interspeech 2015, 2015:1428–1432.
- Vaswani, A., N. Shazeer, N. Parmar, J. Usz koreit, L. Jones, A. N. Gómez, Ł. Kaiser, y I. Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems, 30.
- Vega, M. G., M. C. Díaz-Galiano, M. Á. G. Cumbreras, F. M. P. del Arco, A. Montejo-Ráez, S. M. J. Zafra, E. M. Cámara, C. A. Aguilar, M. A. S. Cabezudo, L. Chiruzzo, y others. 2020. Overview of tass 2020: Introducing emotion detection. En IberLEF@ SEPLN.
- Yadav, B. P., S. Ghate, A. Harshavardhan, G. Jhansi, K. S. Kumar, y E. Sudarshan. 2020. Text categorization performance examination using machine learning algorithms. En IOP Conference Series: Materials Science and Engineering, volumen 981, página 022044. IOP Publishing.
- Zhao, Z., T. Liu, S. Li, B. Li, y X. Du. 2017. Ngram2vec: Learning improved word re presentations from ngram co-occurrence statistics. En Proceedings of the 2017 conference on empirical methods in natural language processing, páginas 244–253.