Дослідження ефективності використання архітектури LSTM при моделюванні когнітивного процесу розуміння

Рейтинг користувача:  / 0
ГіршийКращий 

Authors:


А.В.М’якенький*, orcid.org/0000-0002-4141-001X, Національний технічний університет «Дніпровська політехніка», м. Дніпро, Україна, e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.

М.О.Алексєєв, orcid.org/0000-0001-8726-7469, Національний технічний університет «Дніпровська політехніка», м. Дніпро, Україна, e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.

С.М.Мацюк, orcid.org/0000-0001-6798-5500, Національний технічний університет «Дніпровська політехніка», м. Дніпро, Україна

* Автор-кореспондент e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.


повний текст / full article



Naukovyi Visnyk Natsionalnoho Hirnychoho Universytetu. 2025, (1): 090 - 095

https://doi.org/10.33271/nvngu/2025-1/090



Abstract:


Здатність людини розпізнавати та виокремлювати сенси слів при роботі з текстовою інформацією відноситься до вищих когнітивних функцій мозку, зокрема до когнітивного процесу розуміння. Розв’язання задачі виокремлення сенсу слів у тексті належить до задач обробки природних мов або natural language procesing (NLP) та має назву «усунення неоднозначності слів» або word sense disambiguation (WSD), для вирішення якої існують багато підходів, зокрема з використанням нейронних мереж.


Мета.
Створення та аналіз архітектури нейронної мережі двонаправленої LSTM для розв’язання задачі WSD в українській мові.


Методика.
Одним із сучасних підходів для розв’язання задачі WSD є використання моделей LSTM ‒ типом рекурентної архітектури нейронних мереж, що дозволяє фіксувати довгострокові залежності при моделюванні послідовностей. Для визначення ефективності використання даної архітектури під час дослідження були побудовані дві нейронних мережі: за класичною архітектурою LSTM та її вдосконаленою версією ‒ Bi-LSTM. У рамках дослідження також був сформований набір даних, оснований на словнику української мови SUM. Отримані моделі були навчені на сформованому наборі даних, після чого був проведений порівняльний аналіз отриманих даних.



Результати.
Аналіз результатів точності роботи побудованих моделей дозволив визначити ефективність нейронної мережі, побудованої за архітектурою Bi-LSTM. Отримані результати точності дорівнюють відповідно 73 % для LSTM моделі та 83 % для Bi-LSTM, що обумовлено наявністю у моделі Bi-LSTM додаткового шару, який надає можливість для врахування повного контексту слова у поданому тексті.


Наукова новизна.
У роботі встановлена ефективність моделі нейронної мережі, побудованої за архітектурою Bi-LSTM, для розв’язання задачі усунення неоднозначності слів у текстах українською мовою у порівнянні з класичною архітектурою LSTM.


Практична значимість.
У результаті роботи запропонована модель, що дозволяє розв’язувати задачу усунення неоднозначності слів в українській мові, яку можна використовувати у задачах обробки текстів, зокрема для моделювання когнітивного процесу розуміння.


Ключові слова:
когнітивне моделювання, когнітивний процес, NLP, WSD, LSTM, Bi-LSTM, pymorphy2, stanza, tensorflow

References.


1. Metzler, T., & Shea, K. (2011). Taxonomy of cognitive functions. Proceedings of the 18th International Conference on Engineering Design, 330-341. Retrieved from https://mediatum.ub.tum.de/1167203.

2. Pal, A. R., & Saha, D. (2015). Word Sense Disambiguation: A Survey. International Journal of Control Theory and Computer Modeling, 5(3), 1-16. https://doi.org/10.5121/ijctcm.2015.5301.

3. Agirre, E., De Lacalle, O. L., & Soroa, A. (2014). Random Walks for Knowledge-Based Word Sense Disambiguation. Computational Linguistics40(1), 57-84. https://doi.org/10.1162/coli_a_00164.

4. Popov, A. (2017). Word Sense Disambiguation with Recurrent Neural Networks. RANLP 2017 Student Research Workshop. Shoumen, Bulgaria: Incoma Ltd. https://doi.org/10.26615/issn.1314-9156.2017_004.

5. Sundermeyer, M., Alkhouli, T., Wuebker, J., & Ney, H. (2014). Translation Modeling with Bidirectional Recurrent Neural Networks. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 14-25. https://doi.org/10.3115/v1/D14-1003.

6. Murugesan, R., Mishra, E., & Krishnan, A. H. (2021). Deep Learning Based Models: Basic LSTM, Bi LSTM, Stacked LSTM, CNN LSTM and Conv LSTM to Forecast Agricultural Commodities Prices. Research Square. https://doi.org/10.21203/rs.3.rs-740568/v1.

7. Zhang, A., Lipton, Z. C., Li, M., & Smola, A. J. (2021). Dive into Deep Learning. arXiv (Cornell University). https://doi.org/10.48550/arxiv.2106.11342.

8. Shi, Y., Zheng, Y., Guo, K., Zhu, L., & Qu, Y. (2018). Intrinsic or Extrinsic Evaluation: An Overview of Word Embedding Evaluation. 2018 IEEE International Conference on Data Mining Workshops, 1, 1255-1262. https://doi.org/10.1109/icdmw.2018.00179.

9. Reisinger, J., & Mooney, R. J. (2010). Multi-Prototype Vector-Space Models of Word Meaning. North American Chapter of the Association for Computational Linguistics, 1173-1182. Retrieved from https://aclanthology.org/N10-1013.

10. Gunawan, D., Sembiring, C. A., & Budiman, M. A. (2018). The Implementation of Cosine Similarity to Calculate Text Relevance between Two Documents. Journal of Physics Conference Series, 978, 012120. https://doi.org/10.1088/1742-6596/978/1/012120.

11. Almeida, F., & Xexéo, G. (2019). Word Embeddings: A Survey. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1901.09069.

12. Sun, S., & Iyyer, M. (2021). Revisiting Simple Neural Probabilistic Language Models. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 5181-5188. https://doi.org/10.18653/v1/2021.naacl-main.407.

13. Baroni, M., Dinu, G., & Kruszewski, G. (2014). Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. Proceedings of the 52 nd Annual Meeting of the Association for Computational Linguistics, 1, 238-247. https://doi.org/10.3115/v1/p14-1023.

14. Mikolov, T., Chen, K., Corrado, G. S., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1301.3781.

15. Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532-1543. https://doi.org/10.3115/v1/d14-1162.

16. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1310.4546.

17. NER–models for MITIE. lang-uk. Retrieved from https://lang.org.ua/en/models/.

18. Tmienova, N., & Sus, B. (2019). System of Intellectual Ukrainian Language Processing. Selected Papers of the XIX International Scientific and Practical Conference “Information Technologies and Security”, 199-209. Retrieved from https://ceur-ws.org/Vol-2577/.

19. Qi, P., Zhang, Y., Zhang, Y., Bolton, J., & Manning, C. D. (2020). Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. arXiv (Cornell University). https://doi.org/10.48550/arxiv.2003.07082.

20. Kågebäck, M., & Salomonsson, H. (2016). Word Sense Disambiguation using a Bidirectional LSTM. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1606.03568.

21. Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, ..., & Zheng, X. (2016). TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1603.04467.

22. Dozat, T. (2016). Incorporating Nesterov Momentum into Adam. Proceedings of the 4 th International Conference on Learning Representations, 1-4. Retrieved from https://openreview.net/pdf?id=OM0jvwB8jIp57ZJjtNEZ.

 

Наступні статті з поточного розділу:

Попередні статті з поточного розділу:

Відвідувачі

7944599
Сьогодні
За місяць
Всього
4349
250928
7944599

Гостьова книга

Якщо у вас є питання, побажання або пропозиції, ви можете написати їх у нашій «Гостьовій книзі»

Реєстраційні дані

ISSN (print) 2071-2227,
ISSN (online) 2223-2362.
Журнал зареєстровано у Міністерстві юстиції України.
Реєстраційний номер КВ № 17742-6592ПР від 27.04.2011.

Контакти

49005, м. Дніпро, пр. Д. Яворницького, 19, корп. 3, оф. 24 а
Тел.: +38 (066) 379 72 44.
e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.
Ви тут: Головна Авторам і читачам UkrCat Архів журналу 2025 Зміст №1 2025 Дослідження ефективності використання архітектури LSTM при моделюванні когнітивного процесу розуміння