Підхід до виявлення викидів за допомогою матричних обчисленнь, заснований на мірі схожості

Рейтинг користувача:  / 0
ГіршийКращий 

Aвторы:

Оу Є, Сіаньський науково-технічний університет, м. Сіань, КНР

Чжаньлі Лі, Сіаньський науково-технічний університет, м. Сіань, КНР

Реферат:

Мета. В інформації про клієнта, рядки, що містять помилкові значення, потрібно виявити й очистити. На сьогоднішній день багато алгоритмів виявлення викидів (аномалій) фокусуються тільки на семантиці даних, ігноруючи структуру, що ускладнює забезпечення необхідної точності виявлення. З метою вирішення зазначеної проблеми, у даній роботі запропоновано метод виявлення викидів на основі міри відстані (схожості).

Методика. Сформульована модель розрахунку схожості строкових даних, що об'єднує семантичні та структурні чинники. Відповідно до теорії виявлення викидів, в очищенні даних, одномірні рядки даних проектуються у двомірний простір, і рядки, що містять викиди, виявляються за допомогою нового механізму вимірювання схожості у двовимірному просторі.

Результати. Спочатку, з використанням матричних обчислень, була визначена частота вживання слів у рядках даних, а потім, з її допомогою, обчислювалися схожість семантики та структури. Після переводу рядка даних з одновимірного у двомірний простір, за допомогою міри схожості, були визначені помилкові значення.

Наукова новизна. Проведено дослідження з виявлення рядків, що містять викиди, для очищення даних. По-перше, сформульована модель обчислення схожості з урахуванням семантичного й структурного факторів. По-друге, за допомогою побудови комірки схожості для проекції рядку даних, здійснювалося вимірювання відстані схожості.

Практична значимість. Метод може бути використаний для очищення рядків з аномаліями в інформації про клієнтів на будь-якому підприємстві щоб гарантувати якість даних в інформації про клієнтів, а також знизити витрати на обслуговування даних. Проведена вичерпна кількість моделюючих експериментів з метою довести доцільність і раціональність цього методу. Результати показали, що цей метод дозволяє поліпшити точність виявлення рядків з викидами.

Список литературы / References

1. Barnabe-Lortie, V., Bellinger, C. and Japkowicz, N., 2014. Smoothing Gamma Ray Spectra to Improve Outlier Detection. In: IEEE. Computational Intelligence for Security and Defense Applications (CISDA), 2014 Seventh IEEE Symposium, pp. 1‒8.

2. Pardo, M.C. and Hobza, T., 2014. Outlier detection method in GEEs. Biometrical Journal, vol.56, no.5, pp. 838‒850.

3. Knorr, E.M., Ng, R.T., and Tucakov, V., 2000. Distance-based outliers: algorithms and applications. VLDB Journal: Very Large Databases, pp. 237‒253.

4. Ramaswamy, S., Rastogi, R. and Shim, K., 2000. Efficient algorithms for mining outliers from large data sets. Proc. of the ACM SIGMOD International Conference on Management of Data, pp. 427‒438.

5. Yang, Z. and Zhang., M., 2013. Research of algorithm forming outlier based on double distance application in coal mining. Manufacturing Automation, 237‒253. vol.35, no.8, pp. 40‒42.

6. S. Fan, S., 2011. The outlier detection based on semantics. Inner Mongolia Coal Economy, vol.7, no.7, pp. 19‒21.

7. Cong, Y., Yuan, J. and Tang, Y., 2013. Video anomaly search in crowded scenes via spatio-temporal motion context. IEEE Transactions on Information Forensics and Security, vol.8, no.10, pp. 1590‒1599.

8. Guo-Hui, L., Xiao-Kun, D., Fang-Xiao, H., Bing, Y. and Xiao-Hong, T., 2009. Structure matching method based on functional dependencies. Journal of Software, vol.20, no.10, pp. 2667‒2678.

 

Files:
2016_02_Ou
Date 2016-06-21 Filesize 970.21 KB Download 850

Відвідувачі

7334266
Сьогодні
За місяць
Всього
537
23769
7334266

Гостьова книга

Якщо у вас є питання, побажання або пропозиції, ви можете написати їх у нашій «Гостьовій книзі»

Реєстраційні дані

ISSN (print) 2071-2227,
ISSN (online) 2223-2362.
Журнал зареєстровано у Міністерстві юстиції України.
Реєстраційний номер КВ № 17742-6592ПР від 27.04.2011.

Контакти

49005, м. Дніпро, пр. Д. Яворницького, 19, корп. 3, к. 24 а
Тел.: +38 (056) 746 32 79.
e-mail: Ця електронна адреса захищена від спам-ботів. вам потрібно увімкнути JavaScript, щоб побачити її.
Ви тут: Головна Архів журналу за випусками 2016 Зміст №2 2016 Інформаційні технології, системний аналіз та керування Підхід до виявлення викидів за допомогою матричних обчисленнь, заснований на мірі схожості