Класифікація тексту адаптивним нормалізованим взваженим методом KNN на основі оптимізації методом рою часток

Рейтинг користувача:  / 0
ГіршийКращий 

Автори:

У Феньлінь, Сяминьський медичний колледж, м. Сяминь, КНР

Чжен Іфей, Сяминьський Медичний колледж, м. Сяминь, КНР

Ван Чен, Університет ХуаЦяо, м. Сяминь, КНР

Реферат:

Мета. У стандартного класифікатора тексту по методу k найближчих сусідів (KNN) є ряд недоліків, таких як рівнозначність (рівноважність) усіх ознак, що знижує точність класифікації, і велика розмірність елементу, що збільшує витрати часу при обробці великих пакетів даних. Для вирішення вказаних проблем запропонований адаптивний нормалізований зважений текстовий класифікатор за методом k найближчих сусідів (алгоритм NP-SOKNN).

Методика. Результуюча точність класифікатора використовується як цільовий показник (орієнтир) загальної оптимізації вагомості ознак. Для визначення оптимальної ваги ознак використовується оптимізація методом рою часток. Для скорочення кількості ознак і зменшення витрат часу KNN-класифікатора тексту було встановлено порогове значення, що відсікає ознаки з меншою вагою.

Результати. Проведена загальна оптимізація вагомості ознак, далі, з використанням отриманої ваги ознак і методу зменшення розмірності елементів, отриманий новий вектор ознак, розмірність якого менша, ніж у початкового за високої точності класифікації.

Наукова новизна. Проведені дослідження з удосконалення текстового класифікатора за допомогою покращених методів KNN і PSO. Розглянуті нормалізовані ваги ознак, зважені функції розрахунку відстаней, зменшення розмірності елементів. Дослідження вказаних аспектів раніше не проводилося.

Практична значимість. Результати десятиразової перехресної перевірки на достовірність показали, що се-редньостатистична точність алгоритму NPSOKNN вища за стандартний KNN у текстовому класифікаторові, і часові витрати істотно менші, завдяки зменшенню розмірності елементів.

Список літератури / References:

1. Kulkarni, S.R. and Posner, S.E., 1995. Rates of convergence of nearest neighbor estimation under arbitrary sampling. IEEE Information Theory, vol. 41, no. 4, pp. 1028−1039.

2. Fan, J. and Lv, J.A., 2010. Selective overview of variable selection in high dimensional feature space. Statistica Sinica, vol. 20, no. 1, pp. 101−148.

3. Chen, J., Huang, H., Tian, S. and Qu, Y., 2009. Feature selection for text classification with Naïve Bayes. Expert Systems with Applications, vol. 36, no. 3, pp. 5432−5435.

4. Sun, W.M.B., 2012. On relationship between probabilistic rough set and Bayesian risk decision over two universes. International Journal of General Systems, vol. 41, no. 3, pp. 225−245.

5. Liang, J., Wang, F., Dang, C. and Qian, Y. 2014. A group incremental approach to feature selection applying rough set technique. IEEE Knowledge and Data Engineering, vol. 26, no. 2, pp. 294−308.

6. Chen, C.L., Tseng, F.S.C. and Liang, T., 2011. An integration of fuzzy association rules and WordNet for document clustering, Knowledge & Information Systems, vol. 28, no. 3, pp. 687−708.

7. Uysal, A.K., and Serkan, G., 2012. A novel probabilistic feature selection method for text classification. Knowledge-Based Systems, vol. 36, pp. 226−235.

8. Confalonieri, R., Bregaglio, S. and Acutis, M. 2010. A proposal of an indicator for quantifying model robustness based on the relationship between variability of errors and of explored conditions. Ecological Modelling, vol. 221, no. 6, pp. 960–964.

9. Mao, Yu-Xing, Chen, Tong-Bing and Shi, Bai-Le, 2011. Efficient method for mining multiple-level and generalized association rules. Journal of Software, vol. 22, no. 12, pp. 2965−2980.

 

Files:
2016_01_fenlin
Date 2016-04-02 Filesize 552.04 KB Download 143

Відвідувачі

1418166
Сьогодні
За місяць
Всього
1593
46232
1418166

Гостьова книга

Якщо у вас є питання, побажання або пропозиції, ви можете написати їх у нашій «Гостьовій книзі»

Реєстраційні дані

ISSN (print) 2071-2227,
ISSN (online) 2223-2362.
Журнал зареєстровано у Міністерстві юстиції України.
Реєстраційний номер КВ № 17742-6592ПР від 27.04.2011.

Контакти

49000, м. Дніпропетровськ,
пр. К. Маркса, 19, корп. 3, к. 24 а
Тел.: 47-45-24
e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.

Ви тут: Головна Архів журналу за розділами IT-технології Класифікація тексту адаптивним нормалізованим взваженим методом KNN на основі оптимізації методом рою часток