Програмна реалізація автоматичного класифікатора текстів на основі уточненого методу формування простору ознак категорій
DOI: 10.31673/2412-4338.2020.011673
Анотація
У статті запропоновано рішення однієї із задач комп’ютерної лінгвістики, описана теоретична розробка і програмна реалізація уточненого методу формування простору ознак категорій при класифікації текстів за тематикою. Виконано дослідження ефективності запропонованого методу при використанні в процесі класифікації текстових документів.
В рамках однієї тематики спостерігається використання однакової термінології в декількох категоріях, що підвищує складність процесу класифікації. Особливість уточненого методу полягає в тому, що він дозволяє виконати класифікацію документів за категоріями загальної тематики і таким чином отримати більш точний результат.
Уточнений метод формування простору ознак категорій включає в себе етапи попередньої обробки тексту і формування простору ознак. Етап попередньої обробки тексту характеризується залежністю даного процесу від мови тексту, що зумовлює використання алгоритмів, спеціалізованих для окремих мов. В даному дослідженні розглядаються тексти українською мовою. Стемінг, як один з кроків попередньої обробки тексту, побудований на основі адаптованого методу для текстів українською мовою. Він враховує особливості синтаксису і словотворення в даній мові. Формування простору ознак категорій виконується на основі методу TF-SLF, який враховує входження слів в кожну категорію, а також подальшої фільтрації отриманого простору на основі порогового значення, що відображує важливість кожного слова для певної категорії.
В результаті послідовного виконання всіх етапів уточненого методу формується простір ознак окремих категорій, з яких виключаються малоїнформатівни терми. Це призводить до зменшення кількості ітерацій і розрахунків при подальшій класифікації, що в свою чергу веде до загального скорочення часових витрат на рішення задачі.
На основі запропонованого авторами уточненого методу формування простору ознак розроблено програмний комплекс, за допомогою якого підтверджено доцільність практичного застосування методу.
Ключові слова: класифікація тексту, попередня обробка тексту, стемінг, фільтрація, простір ознак категорій.
Список використаної літератури
1. Безверхий О. А., Самохвалова С. Г. Кластеризация большого объема текстовых поисковых запросов. Ученые заметки ТОГУ. 2016. Том 7, № 3. С. 104 – 110.
2. Labani, M., Moradi, P., Jalili, M. A multi-objective genetic algorithm for text feature selection using the relative discriminative criterion. Expert Systems with Applications. 2020. Vol. 149. Access mode: https://doi.org/10.1016/j.eswa.2020.113276
3. Karpovich, S.N., Smirnov, A.V., Teslya, N.N. Classification of Text Documents Based on a Probabilistic Topic Model. Scientific and Technical Information Processing. 2019. Vol. 46, Issue 5. P. 314-320
4. Глибовець А. М., Точицький В. В. Алгоритм токенізації та стемінгу для текстів українською мовою. Наукові записки НаУКМА. Комп'ютерні науки. 2017. Т. 198. С. 4-8.
5. Бісікало О. В. Висоцька В. А. Виявлення ключових слів на основі методу контент-моніторингу україномовних текстів. Радіоелектроніка, інформатика, управління. 2016. № 1. С. 74-83.
6. Moral Cristian, Angélica de Antonio, Imbert Ricardo, Ramírez Jaime. A survey of stemming algorithms in information retrieval. Information research. 2014. Vol. 19, no. 1. P. 605-625.
7. Hassanein A.M.D.E. Nour, M A Proposed model of selecting features for classifying Arabic text. Jordanian Journal of Computers and Information Technology. 2019. Vol. 5, issue 3. P. 275-290
8. Alper Kursat Uysal. An improved global feature selection scheme for text classification. Expert Systems with Applications. 2016. Vol. 43. P. 82-92
9. Pouramini Jafar, Behrouze Minaei-Bidgoli Dr., Mahdi Esmaeili Dr. A Novel One Sided Feature Selection Method for Imbalanced Text Classification. JSDP. 2019. Vol. 16, Issue 1 (5). P. 21-40.
10. Ferreira Charles Henrique Porto, Debora Maria Rossi de Medeiros, Fabricio Olivetti de Franc DCDistance: A Supervised Text Document Feature extraction based on class labels. Computer Science. 2018. Vol.2. P.23-31.
11. Doan Son, Horiguchi Susumu. Dynamic Feature Selection in Text Classification. Part of book Intelligent Control and Automation, Lecture Notes in Control and Information Sciences. 2006. P. 664-675
12. Котельников Е.В. Методология интеллектуального анализа мнений при обработке текстовой информации на основе правдоподобного вывода : автореф. дис. … канд. техн. наук : 05.13.17. Нижний Новгород, Россия. 2019. 39 с.
13. Chen, J., Dai, Z., Duan, J., Matzinger, H., Popescu, I. Naive bayes with correlation factor for text classification problem. 18th IEEE International Conference on Machine Learning and Applications, ICMLA, Boca Raton, United States. 16 - 19 December 2019. Boca Raton, United States. P. 1051-1056
14. Yampolsky L.S. Analytical approach to the choice of neural network topologies to solve the applied problems. Adaptive systems of automatic control. 2012. Vol. 20. P. 159-179
15. А.Ю.Кононюк. Нейронні мережі і генетичні алгоритми. К.:«Корнійчук», 2008. 446 с.
16. Краснянский М. Н., Обухов А. Д., Соломатина Е. М., Воякина А. А. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения. Вестник ВГУ, Серия: Системный анализ и информационные технологи. 2018. № 3. С. 173-182.
17. Акбархужаев С. А., Абдурахманова Н. Н. Сравнительный анализ методов Наивного Байеса и SVM алгоритмов при классификации текстовых документов. Молодой ученый. 2019. №29. С. 8-10.
18. Mbaikodzi E., Dral’ А. А., Sochenko I. V. The method of automatic classification of short text messages. Information technologies and computer systems. 2012. Vol. 3. P. 93-102
19. Tehseen Zia, Muhammad Pervez Akhter Qaiser Abbas. Comparative Study of Feature Selection Approaches for Urdu Text Categorization. Malaysian Journal of Computer Science. 2015. Vol. 28(2). P. 93-109
20. Голуб Т.В., Тягунова М.Ю. Метод стемінгу україномовних текстів для класифікації документів на базі алгоритму Портера. Наукові праці Донецького національного технічного університету. Серія : Інформатика, кібернетика та обчислювальна техніка. 2017. №1. С.59-63.
21. Golub T. Modernized Mathematical Model of Text Document Classification. The Second International Workshop on Computer Modeling and Intelligent Systems (CMIS-2019), Zaporizhzhia, Ukraine, April 15-19, 2019. Zaporizhzhia, Ukraine. P. 607-617. Access mode: http://ceur-ws.org/Vol-2353/paper48.pdf
22. Голуб Т.В., Тягунова М.Ю. Метод уменьшения размера вектора термов для классификации текстовых документов по категориям. Проблемы региональной энергетики. 2019. № 1–2(41). С. 84–94. DOI: 10.5281/zenodo.3240216
23. Глибовець А. М., Точицький В. В. Алгоритм токенізації та стемінгу для текстів українською мовою. Наукові записки НаУКМА. Комп'ютерні науки. 2017. Т. 198. С. 4-8.
24. Bird S., Klein E., Loper E. Natural Language Processing with Python. Sebastopol (USA): O’Reilly Media. 2009. 504p.
25. Perkins J. Python 3 Text Processing with NLTK 3 Cookbook. Birmingham (UK): Packt Publishing Ltd. 2014. 304 p.
26. Універсальний десятковий класифікатор. Режим доступу: http://www.udcsummary.info/php/index.php?id=13358&lang=uk