Статті
Дослідження ефективності використання архітектури LSTM при моделюванні когнітивного процесу розуміння
- Деталі
- Категорія: Зміст №1 2025
- Останнє оновлення: 25 лютого 2025
- Опубліковано: 30 листопада -0001
- Перегляди: 45
Authors:
А.В.М’якенький*, orcid.org/0000-0002-4141-001X, Національний технічний університет «Дніпровська політехніка», м. Дніпро, Україна, e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.
М.О.Алексєєв, orcid.org/0000-0001-8726-7469, Національний технічний університет «Дніпровська політехніка», м. Дніпро, Україна, e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.
С.М.Мацюк, orcid.org/0000-0001-6798-5500, Національний технічний університет «Дніпровська політехніка», м. Дніпро, Україна
* Автор-кореспондент e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.
Naukovyi Visnyk Natsionalnoho Hirnychoho Universytetu. 2025, (1): 090 - 095
https://doi.org/10.33271/nvngu/2025-1/090
Abstract:
Здатність людини розпізнавати та виокремлювати сенси слів при роботі з текстовою інформацією відноситься до вищих когнітивних функцій мозку, зокрема до когнітивного процесу розуміння. Розв’язання задачі виокремлення сенсу слів у тексті належить до задач обробки природних мов або natural language procesing (NLP) та має назву «усунення неоднозначності слів» або word sense disambiguation (WSD), для вирішення якої існують багато підходів, зокрема з використанням нейронних мереж.
Мета. Створення та аналіз архітектури нейронної мережі двонаправленої LSTM для розв’язання задачі WSD в українській мові.
Методика. Одним із сучасних підходів для розв’язання задачі WSD є використання моделей LSTM ‒ типом рекурентної архітектури нейронних мереж, що дозволяє фіксувати довгострокові залежності при моделюванні послідовностей. Для визначення ефективності використання даної архітектури під час дослідження були побудовані дві нейронних мережі: за класичною архітектурою LSTM та її вдосконаленою версією ‒ Bi-LSTM. У рамках дослідження також був сформований набір даних, оснований на словнику української мови SUM. Отримані моделі були навчені на сформованому наборі даних, після чого був проведений порівняльний аналіз отриманих даних.
Результати. Аналіз результатів точності роботи побудованих моделей дозволив визначити ефективність нейронної мережі, побудованої за архітектурою Bi-LSTM. Отримані результати точності дорівнюють відповідно 73 % для LSTM моделі та 83 % для Bi-LSTM, що обумовлено наявністю у моделі Bi-LSTM додаткового шару, який надає можливість для врахування повного контексту слова у поданому тексті.
Наукова новизна. У роботі встановлена ефективність моделі нейронної мережі, побудованої за архітектурою Bi-LSTM, для розв’язання задачі усунення неоднозначності слів у текстах українською мовою у порівнянні з класичною архітектурою LSTM.
Практична значимість. У результаті роботи запропонована модель, що дозволяє розв’язувати задачу усунення неоднозначності слів в українській мові, яку можна використовувати у задачах обробки текстів, зокрема для моделювання когнітивного процесу розуміння.
Ключові слова: когнітивне моделювання, когнітивний процес, NLP, WSD, LSTM, Bi-LSTM, pymorphy2, stanza, tensorflow
References.
1. Metzler, T., & Shea, K. (2011). Taxonomy of cognitive functions. Proceedings of the 18th International Conference on Engineering Design, 330-341. Retrieved from https://mediatum.ub.tum.de/1167203.
2. Pal, A. R., & Saha, D. (2015). Word Sense Disambiguation: A Survey. International Journal of Control Theory and Computer Modeling, 5(3), 1-16. https://doi.org/10.5121/ijctcm.2015.5301.
3. Agirre, E., De Lacalle, O. L., & Soroa, A. (2014). Random Walks for Knowledge-Based Word Sense Disambiguation. Computational Linguistics, 40(1), 57-84. https://doi.org/10.1162/coli_a_00164.
4. Popov, A. (2017). Word Sense Disambiguation with Recurrent Neural Networks. RANLP 2017 – Student Research Workshop. Shoumen, Bulgaria: Incoma Ltd. https://doi.org/10.26615/issn.1314-9156.2017_004.
5. Sundermeyer, M., Alkhouli, T., Wuebker, J., & Ney, H. (2014). Translation Modeling with Bidirectional Recurrent Neural Networks. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 14-25. https://doi.org/10.3115/v1/D14-1003.
6. Murugesan, R., Mishra, E., & Krishnan, A. H. (2021). Deep Learning Based Models: Basic LSTM, Bi LSTM, Stacked LSTM, CNN LSTM and Conv LSTM to Forecast Agricultural Commodities Prices. Research Square. https://doi.org/10.21203/rs.3.rs-740568/v1.
7. Zhang, A., Lipton, Z. C., Li, M., & Smola, A. J. (2021). Dive into Deep Learning. arXiv (Cornell University). https://doi.org/10.48550/arxiv.2106.11342.
8. Shi, Y., Zheng, Y., Guo, K., Zhu, L., & Qu, Y. (2018). Intrinsic or Extrinsic Evaluation: An Overview of Word Embedding Evaluation. 2018 IEEE International Conference on Data Mining Workshops, 1, 1255-1262. https://doi.org/10.1109/icdmw.2018.00179.
9. Reisinger, J., & Mooney, R. J. (2010). Multi-Prototype Vector-Space Models of Word Meaning. North American Chapter of the Association for Computational Linguistics, 1173-1182. Retrieved from https://aclanthology.org/N10-1013.
10. Gunawan, D., Sembiring, C. A., & Budiman, M. A. (2018). The Implementation of Cosine Similarity to Calculate Text Relevance between Two Documents. Journal of Physics Conference Series, 978, 012120. https://doi.org/10.1088/1742-6596/978/1/012120.
11. Almeida, F., & Xexéo, G. (2019). Word Embeddings: A Survey. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1901.09069.
12. Sun, S., & Iyyer, M. (2021). Revisiting Simple Neural Probabilistic Language Models. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 5181-5188. https://doi.org/10.18653/v1/2021.naacl-main.407.
13. Baroni, M., Dinu, G., & Kruszewski, G. (2014). Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. Proceedings of the 52 nd Annual Meeting of the Association for Computational Linguistics, 1, 238-247. https://doi.org/10.3115/v1/p14-1023.
14. Mikolov, T., Chen, K., Corrado, G. S., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1301.3781.
15. Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532-1543. https://doi.org/10.3115/v1/d14-1162.
16. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1310.4546.
17. NER–models for MITIE. lang-uk. Retrieved from https://lang.org.ua/en/models/.
18. Tmienova, N., & Sus, B. (2019). System of Intellectual Ukrainian Language Processing. Selected Papers of the XIX International Scientific and Practical Conference “Information Technologies and Security”, 199-209. Retrieved from https://ceur-ws.org/Vol-2577/.
19. Qi, P., Zhang, Y., Zhang, Y., Bolton, J., & Manning, C. D. (2020). Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. arXiv (Cornell University). https://doi.org/10.48550/arxiv.2003.07082.
20. Kågebäck, M., & Salomonsson, H. (2016). Word Sense Disambiguation using a Bidirectional LSTM. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1606.03568.
21. Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, ..., & Zheng, X. (2016). TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1603.04467.
22. Dozat, T. (2016). Incorporating Nesterov Momentum into Adam. Proceedings of the 4 th International Conference on Learning Representations, 1-4. Retrieved from https://openreview.net/pdf?id=OM0jvwB8jIp57ZJjtNEZ.
Наступні статті з поточного розділу:
- Зовнішньоекономічна діяльність підприємств чорної металургії України в умовах кризи - 25/02/2025 13:05
- Людський капітал як драйвер формування конкурентних переваг України в повоєнний період - 25/02/2025 13:05
- Талант-менеджмент: стратегічний пріоритет розвитку інтелектуального потенціалу підприємства в умовах цифровізації - 25/02/2025 13:05
- Вплив розвитку освіти на конкурентоспроможність країн в економіці знань - 25/02/2025 13:05
- Методика комплексної діагностики ризиків управління технічним освітньо-науковим кластером - 25/02/2025 13:05
- Інновації в оборонно-промисловому комплексі: сучасний стан і перспективи розвитку - 25/02/2025 13:05
- Комерціалізація інновацій НТУ «ХПІ» інструментами цифрового маркетингу в економіці вражень - 25/02/2025 13:05
- Системне проєктування й розробка універсального штампового блоку для гідравлічного преса - 25/02/2025 13:04
- FoSDet: нова гібридна модель машинного навчання для точного та швидкого виявлення ботнету інтернету речей - 25/02/2025 13:04
- Технологія визначення вагових коефіцієнтів складових інформаційної безпеки - 25/02/2025 13:04
Попередні статті з поточного розділу:
- Автоматична компенсація ексцентриситету прокатних валків за обмеженої швидкодії гідравлічних натискних пристроїв - 25/02/2025 13:04
- Екологічні фактори для встановлення обмежень щодо використання земель в Україні - 25/02/2025 13:04
- Дослідження ефективності гасіння макетних вогнищ деревини хвойних і листяних порід - 25/02/2025 13:04
- Оцінка екологічної безпеки ґрунтів Хмельниччини на основі аналізу хімічного складу та кислотності - 25/02/2025 13:04
- Вплив силових електронних пристроїв на струм витоку в шахтних електросистемах: приклад В’єтнаму - 25/02/2025 13:04
- Cтатична континуальна модель сипучого матеріалу для похилої частини бункера - 25/02/2025 13:04
- Критерії оцінювання придатності металів і сплавів до литва та деформування - 25/02/2025 13:04
- Трансформація деформованої кіригамі структури під час прокатки-з’єднання - 25/02/2025 13:04
- Оцінка можливості збагачення низькосортної залізної руди із шахти Ель Уенза методом високоінтенсивної магнітної сепарації - 25/02/2025 13:04
- Експлуатація свердловин плунжерними штанговими насосами у складних умовах - 25/02/2025 13:04