Класифікація тексту адаптивним нормалізованим взваженим методом KNN на основі оптимізації методом рою часток
- Деталі
- Категорія: Інформаційні технології, системний аналіз та керування
- Останнє оновлення: 02 квітня 2016
- Опубліковано: 02 квітня 2016
- Перегляди: 5893
Автори:
У Феньлінь, Сяминьський медичний колледж, м. Сяминь, КНР
Чжен Іфей, Сяминьський Медичний колледж, м. Сяминь, КНР
Ван Чен, Університет ХуаЦяо, м. Сяминь, КНР
Реферат:
Мета. У стандартного класифікатора тексту по методу k найближчих сусідів (KNN) є ряд недоліків, таких як рівнозначність (рівноважність) усіх ознак, що знижує точність класифікації, і велика розмірність елементу, що збільшує витрати часу при обробці великих пакетів даних. Для вирішення вказаних проблем запропонований адаптивний нормалізований зважений текстовий класифікатор за методом k найближчих сусідів (алгоритм NP-SOKNN).
Методика. Результуюча точність класифікатора використовується як цільовий показник (орієнтир) загальної оптимізації вагомості ознак. Для визначення оптимальної ваги ознак використовується оптимізація методом рою часток. Для скорочення кількості ознак і зменшення витрат часу KNN-класифікатора тексту було встановлено порогове значення, що відсікає ознаки з меншою вагою.
Результати. Проведена загальна оптимізація вагомості ознак, далі, з використанням отриманої ваги ознак і методу зменшення розмірності елементів, отриманий новий вектор ознак, розмірність якого менша, ніж у початкового за високої точності класифікації.
Наукова новизна. Проведені дослідження з удосконалення текстового класифікатора за допомогою покращених методів KNN і PSO. Розглянуті нормалізовані ваги ознак, зважені функції розрахунку відстаней, зменшення розмірності елементів. Дослідження вказаних аспектів раніше не проводилося.
Практична значимість. Результати десятиразової перехресної перевірки на достовірність показали, що се-редньостатистична точність алгоритму NPSOKNN вища за стандартний KNN у текстовому класифікаторові, і часові витрати істотно менші, завдяки зменшенню розмірності елементів.
Список літератури / References:
1. Kulkarni, S.R. and Posner, S.E., 1995. Rates of convergence of nearest neighbor estimation under arbitrary sampling. IEEE Information Theory, vol. 41, no. 4, pp. 1028−1039.
2. Fan, J. and Lv, J.A., 2010. Selective overview of variable selection in high dimensional feature space. Statistica Sinica, vol. 20, no. 1, pp. 101−148.
3. Chen, J., Huang, H., Tian, S. and Qu, Y., 2009. Feature selection for text classification with Naïve Bayes. Expert Systems with Applications, vol. 36, no. 3, pp. 5432−5435.
4. Sun, W.M.B., 2012. On relationship between probabilistic rough set and Bayesian risk decision over two universes. International Journal of General Systems, vol. 41, no. 3, pp. 225−245.
5. Liang, J., Wang, F., Dang, C. and Qian, Y. 2014. A group incremental approach to feature selection applying rough set technique. IEEE Knowledge and Data Engineering, vol. 26, no. 2, pp. 294−308.
6. Chen, C.L., Tseng, F.S.C. and Liang, T., 2011. An integration of fuzzy association rules and WordNet for document clustering, Knowledge & Information Systems, vol. 28, no. 3, pp. 687−708.
7. Uysal, A.K., and Serkan, G., 2012. A novel probabilistic feature selection method for text classification. Knowledge-Based Systems, vol. 36, pp. 226−235.
8. Confalonieri, R., Bregaglio, S. and Acutis, M. 2010. A proposal of an indicator for quantifying model robustness based on the relationship between variability of errors and of explored conditions. Ecological Modelling, vol. 221, no. 6, pp. 960–964.
9. Mao, Yu-Xing, Chen, Tong-Bing and Shi, Bai-Le, 2011. Efficient method for mining multiple-level and generalized association rules. Journal of Software, vol. 22, no. 12, pp. 2965−2980.
2016_01_fenlin | |
2016-04-02 552.04 KB 1050 |
Наступні статті з поточного розділу:
- Виділення контурів зображення на основі гібридного мурашиного алгоритму - 02/04/2016 14:12
- Оптимізація ваги нейронної мережі прямого розповсюдження на основі ортогонального генетичного алгоритму - 02/04/2016 14:08
- Застосування саморегульованого динамічного нішевого генетичного алгоритму в завданнях глобальної багатомодальної оптимізації - 02/04/2016 14:03
- Саморегульований типовий алгоритм злиття інтерактивних багатомодельних даних - 02/04/2016 13:59
- Двопопуляційний самоналагоджувальний гібридний генетико-бджолиний алгоритм на основі ентропії інформації - 02/04/2016 13:55