Підхід до виявлення викидів за допомогою матричних обчисленнь, заснований на мірі схожості
- Деталі
- Категорія: Інформаційні технології, системний аналіз та керування
- Останнє оновлення: 21 червня 2016
- Опубліковано: 21 червня 2016
- Перегляди: 3953
Aвторы:
Оу Є, Сіаньський науково-технічний університет, м. Сіань, КНР
Чжаньлі Лі, Сіаньський науково-технічний університет, м. Сіань, КНР
Реферат:
Мета. В інформації про клієнта, рядки, що містять помилкові значення, потрібно виявити й очистити. На сьогоднішній день багато алгоритмів виявлення викидів (аномалій) фокусуються тільки на семантиці даних, ігноруючи структуру, що ускладнює забезпечення необхідної точності виявлення. З метою вирішення зазначеної проблеми, у даній роботі запропоновано метод виявлення викидів на основі міри відстані (схожості).
Методика. Сформульована модель розрахунку схожості строкових даних, що об'єднує семантичні та структурні чинники. Відповідно до теорії виявлення викидів, в очищенні даних, одномірні рядки даних проектуються у двомірний простір, і рядки, що містять викиди, виявляються за допомогою нового механізму вимірювання схожості у двовимірному просторі.
Результати. Спочатку, з використанням матричних обчислень, була визначена частота вживання слів у рядках даних, а потім, з її допомогою, обчислювалися схожість семантики та структури. Після переводу рядка даних з одновимірного у двомірний простір, за допомогою міри схожості, були визначені помилкові значення.
Наукова новизна. Проведено дослідження з виявлення рядків, що містять викиди, для очищення даних. По-перше, сформульована модель обчислення схожості з урахуванням семантичного й структурного факторів. По-друге, за допомогою побудови комірки схожості для проекції рядку даних, здійснювалося вимірювання відстані схожості.
Практична значимість. Метод може бути використаний для очищення рядків з аномаліями в інформації про клієнтів на будь-якому підприємстві щоб гарантувати якість даних в інформації про клієнтів, а також знизити витрати на обслуговування даних. Проведена вичерпна кількість моделюючих експериментів з метою довести доцільність і раціональність цього методу. Результати показали, що цей метод дозволяє поліпшити точність виявлення рядків з викидами.
Список литературы / References
1. Barnabe-Lortie, V., Bellinger, C. and Japkowicz, N., 2014. Smoothing Gamma Ray Spectra to Improve Outlier Detection. In: IEEE. Computational Intelligence for Security and Defense Applications (CISDA), 2014 Seventh IEEE Symposium, pp. 1‒8.
2. Pardo, M.C. and Hobza, T., 2014. Outlier detection method in GEEs. Biometrical Journal, vol.56, no.5, pp. 838‒850.
3. Knorr, E.M., Ng, R.T., and Tucakov, V., 2000. Distance-based outliers: algorithms and applications. VLDB Journal: Very Large Databases, pp. 237‒253.
4. Ramaswamy, S., Rastogi, R. and Shim, K., 2000. Efficient algorithms for mining outliers from large data sets. Proc. of the ACM SIGMOD International Conference on Management of Data, pp. 427‒438.
5. Yang, Z. and Zhang., M., 2013. Research of algorithm forming outlier based on double distance application in coal mining. Manufacturing Automation, 237‒253. vol.35, no.8, pp. 40‒42.
6. S. Fan, S., 2011. The outlier detection based on semantics. Inner Mongolia Coal Economy, vol.7, no.7, pp. 19‒21.
7. Cong, Y., Yuan, J. and Tang, Y., 2013. Video anomaly search in crowded scenes via spatio-temporal motion context. IEEE Transactions on Information Forensics and Security, vol.8, no.10, pp. 1590‒1599.
8. Guo-Hui, L., Xiao-Kun, D., Fang-Xiao, H., Bing, Y. and Xiao-Hong, T., 2009. Structure matching method based on functional dependencies. Journal of Software, vol.20, no.10, pp. 2667‒2678.
2016_02_Ou | |
2016-06-21 970.21 KB 860 |
Наступні статті з поточного розділу:
- Удосконалений алгоритм К-середніх автоматичного визначення початкових значень центрів кластарів - 21/06/2016 21:15
- Покращена SMOTE-стратегія класифікації незбалансованих даних на основі ансамблевого алгоритму - 21/06/2016 21:13
- Алгоритм дифференціальної кластеризації на основі елітарної стратегії - 21/06/2016 21:09
- Метод зменшення шуму в зображенні на основі розрідженого представлення та адаптивного словника - 21/06/2016 21:07
- Покращений бінарний антиколлізійний алгоритм для радіочастотної - 21/06/2016 21:05