Покращена SMOTE-стратегія класифікації незбалансованих даних на основі ансамблевого алгоритму
- Деталі
- Категорія: Інформаційні технології, системний аналіз та керування
- Останнє оновлення: 21 червня 2016
- Опубліковано: 21 червня 2016
- Перегляди: 4242
Aвторы:
Лю Нін, Шанлонский університет, м. Шанло, КНР
Реферат:
Мета. У практичному застосуванні точність міноритарного класу дуже важлива, тому дослідження незбалансованих даних стало одним з найпопулярніших напрямів. З метою підвищення ефективності класифікації незбалансованих даних, у статті запропоновано алгоритм класифікації на основі вибірки даних і технології інтеграції незбалансованих даних.
Методика. По-перше, традиційний алгоритм SMOTE був поліпшений до K-SMOTE (метод збільшення числа прикладів міноритарного класу, що об’єднує стратегію семплінгу SMOTE та метод K-середніх). У K-SMOTE, набір даних підлягав кластеризації, а інтерполяція проводилася між центром кластера та точкою вихідних даних. По-друге, був запропонований алгоритм ECA-IBD (поліпшена SMOTE-стратегія класифікації незбалансованих даних на основі ансамблевого алгоритму). У ECA-IBD, збільшення числа прикладів міноритарного класу проводилося за допомогою K-SMOTE, а зменшення числа прикладів мажоритарного класу проводилося методом випадкового відбору, з метою зменшення масштабу проблеми й формування нового набору даних. Цілий ряд слабких класифікаторів і методів інтеграції було використано для формування кінцевого сильного класифікатора.
Результати. Експеримент проводився на UCI наборі незбалансованих даних. Результати показали, що запропонований алгоритм ефективний за використання F-значення та G-середнього значення в якості оціночних індексів.
Наукова новизна. Покращено алгоритм SMOTE й скомбіновані стратегії збільшення числа прикладів міноритарного класу та зменшення числа прикладів мажоритарного класу, і технологія бустінгу для вирішення задач класифікації незбалансованих даних.
Практична значимість. Запропонований алгоритм має важливе значення для класифікації незбалансованих даних. Він може застосовуватися в багатьох областях, таких як виявлення несправностей, вторгнення і т. п.
Список литературы / References
1. Napierała, K. and Stefanowski, J., 2015.Addressing imbalanced data with argument based rule learning. Expert Systems with Applications, vol.24, no.24, pp. 9468‒9481.
2. Ditzler, G. and Polikar, R.,2013. Incremental learning of concept drift from streaming imbalanced data. IEEE Transactions on Knowledge & Data Engineering, vol.25, no.10, pp. 2283‒2301.
3. Maldonado, S.andLópez, J., 2014. Imbalanced data classification using second-order cone programming support vector machines. Pattern Recognition, vol.47, no.5, pp.2070‒2079.
4. Barua, S., Islam, M.M. and Yao, X., 2014. MWMOTE-majority weighted minority-oversampling technique for imbalanced dataset learning. IEEE Transactions on Knowledge & Data Engineering, vol.26, no.2, pp.405‒425.
5. Castro, C.L.and Braga, A.P.,2013. Novel cost-sensitive approach to improve the multilayer perceptron performance on imbalanced data. IEEE Transactions on Neural Networks & Learning Systems, vol.24, no.6, pp.888‒899.
6. Maratea, A., Petrosino, A.and Manzo, M., 2014. Adjusted F-measure and kernel scaling for imbalanced data learning. Information Sciences, vol.257, no.257, pp.331–341.
7. Sun, Z., Song, Q. and Zhu, X., 2015.A novel ensemble method for classifying imbalanced data. Pattern Recognition, vol.48, no.5, pp.1623‒1637.
8. Galar, M., Fernández, A.andBarrenechea, E., 2013. EUSBoost: Enhancing ensembles for highly imbalanced datasets by evolutionary undersampling. Pattern Recognition, vol.46, no.12, pp.460‒3471.
9. Khoshgoftaar, T.M., Van Hulse, J. and Napolitano, A., 2011. Comparing boosting and bagging techniques with noisy and imbalanced data. IEEE Transactions on Systems Man and Cybernetics - Part a Systems and Humans, vol.41, no.3, pp.552‒568.
10. Ghazikhani, A., Monsefi, R. and Yazdi, H.S., 2013. Ensemble of online neural networks for non-stationary and imbalanced data streams.Neurocomputing, vol.122, pp.535‒544.
2016_02_Liu | |
2016-06-21 831.52 KB 925 |
Наступні статті з поточного розділу:
Попередні статті з поточного розділу:
- Алгоритм дифференціальної кластеризації на основі елітарної стратегії - 21/06/2016 21:09
- Метод зменшення шуму в зображенні на основі розрідженого представлення та адаптивного словника - 21/06/2016 21:07
- Покращений бінарний антиколлізійний алгоритм для радіочастотної - 21/06/2016 21:05
- Підхід до виявлення викидів за допомогою матричних обчисленнь, заснований на мірі схожості - 21/06/2016 21:03
- Формування автоматизованної системи розрахунку пропускної спроможності залізничих мереж для просування вантажопотоків підприємств гірничо-металургійного комплексу - 21/06/2016 21:00