Покращена SMOTE-стратегія класифікації незбалансованих даних на основі ансамблевого алгоритму

Рейтинг користувача:  / 0
ГіршийКращий 

Aвторы:

Лю Нін, Шанлонский університет, м. Шанло, КНР

Реферат:

Мета. У практичному застосуванні точність міноритарного класу дуже важлива, тому дослідження незбалансованих даних стало одним з найпопулярніших напрямів. З метою підвищення ефективності класифікації незбалансованих даних, у статті запропоновано алгоритм класифікації на основі вибірки даних і технології інтеграції незбалансованих даних.

Методика. По-перше, традиційний алгоритм SMOTE був поліпшений до K-SMOTE (метод збільшення числа прикладів міноритарного класу, що об’єднує стратегію семплінгу SMOTE та метод K-середніх). У K-SMOTE, набір даних підлягав кластеризації, а інтерполяція проводилася між центром кластера та точкою вихідних даних. По-друге, був запропонований алгоритм ECA-IBD (поліпшена SMOTE-стратегія класифікації незбалансованих даних на основі ансамблевого алгоритму). У ECA-IBD, збільшення числа прикладів міноритарного класу проводилося за допомогою K-SMOTE, а зменшення числа прикладів мажоритарного класу проводилося методом випадкового відбору, з метою зменшення масштабу проблеми й формування нового набору даних. Цілий ряд слабких класифікаторів і методів інтеграції було використано для формування кінцевого сильного класифікатора.

Результати. Експеримент проводився на UCI на­бо­рі незбалансованих даних. Результати показали, що за­пропонований алгоритм ефективний за використання F-значення та G-середнього значення в якості оціночних індексів.

Наукова новизна. Покращено алгоритм SMOTE й скомбіновані стратегії збільшення числа прикладів міноритарного класу та зменшення числа прикладів мажоритарного класу, і технологія бустінгу для вирішення задач класифікації незбалансованих даних.

Практична значимість. Запропонований алгоритм має важливе значення для класифікації незбалансованих даних. Він може застосовуватися в багатьох областях, таких як виявлення несправностей, вторгнення і т. п.

Список литературы / References

1. Napierała, K. and Stefanowski, J., 2015.Addressing imbalanced data with argument based rule learning. Expert Systems with Applications, vol.24, no.24, pp. 9468‒9481.

2. Ditzler, G. and Polikar, R.,2013. Incremental learning of concept drift from streaming imbalanced data. IEEE Transactions on Knowledge & Data Engineering, vol.25, no.10, pp. 2283‒2301.

3. Maldonado, S.andLópez, J., 2014. Imbalanced data classification using second-order cone programming support vector machines. Pattern Recognition, vol.47, no.5, pp.2070‒2079.

4. Barua, S., Islam, M.M. and Yao, X., 2014. MWMOTE-majority weighted minority-oversampling technique for imbalanced dataset learning. IEEE Transactions on Knowledge & Data Engineering, vol.26, no.2, pp.405‒425.

5. Castro, C.L.and Braga, A.P.,2013. Novel cost-sensitive approach to improve the multilayer perceptron performance on imbalanced data. IEEE Transactions on Neural Networks & Learning Systems, vol.24, no.6, pp.888‒899.

6. Maratea, A., Petrosino, A.and Manzo, M., 2014. Adjusted F-measure and kernel scaling for imbalanced data learning. Information Sciences, vol.257, no.257, pp.331–341.

7. Sun, Z., Song, Q. and Zhu, X., 2015.A novel ensemble method for classifying imbalanced data. Pattern Recognition, vol.48, no.5, pp.1623‒1637.

8. Galar, M., Fernández, A.andBarrenechea, E., 2013. EUSBoost: Enhancing ensembles for highly imbalanced datasets by evolutionary undersampling. Pattern Recognition, vol.46, no.12, pp.460‒3471.

9. Khoshgoftaar, T.M., Van Hulse, J. and Napolitano, A., 2011. Comparing boosting and bagging techniques with noisy and imbalanced data. IEEE Transactions on Systems Man and Cybernetics - Part a Systems and Humans, vol.41, no.3, pp.552‒568.

10. Ghazikhani, A., Monsefi, R. and Yazdi, H.S., 2013. Ensemble of online neural networks for non-stationary and imbalanced data streams.Neurocomputing, vol.122, pp.535‒544.

 

Files:
2016_02_Liu
Date 2016-06-21 Filesize 831.52 KB Download 925

Відвідувачі

7354125
Сьогодні
За місяць
Всього
1487
43628
7354125

Гостьова книга

Якщо у вас є питання, побажання або пропозиції, ви можете написати їх у нашій «Гостьовій книзі»

Реєстраційні дані

ISSN (print) 2071-2227,
ISSN (online) 2223-2362.
Журнал зареєстровано у Міністерстві юстиції України.
Реєстраційний номер КВ № 17742-6592ПР від 27.04.2011.

Контакти

49005, м. Дніпро, пр. Д. Яворницького, 19, корп. 3, к. 24 а
Тел.: +38 (056) 746 32 79.
e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.
Ви тут: Головна Архів журналу за випусками 2016 Зміст №2 2016 Інформаційні технології, системний аналіз та керування Покращена SMOTE-стратегія класифікації незбалансованих даних на основі ансамблевого алгоритму