Удосконалений алгоритм К-середніх автоматичного визначення початкових значень центрів кластарів

Рейтинг користувача:

/ 0

Деталі: Категорія: Інформаційні технології, системний аналіз та керування; Останнє оновлення: 21 червня 2016; Опубліковано: 21 червня 2016; Перегляди: 3874

SocButtons v1.4

Aвторы:

Гуанбінь Сунь, Китайский університет нафти, м. Пекін, КНР

Хунці Лі, Китайский університет нафти, м. Пекін, КНР

Хайїн Хуан, Дацин Ойлфілд Інжиніринг Ко, Лтд, м. Дацин, КНР

Реферат:

Мета. Традиційний метод K-середніх вимагає наявності значення K і чутливий до початкового значення центрів кластерів. Різні початкові значення центрів кластерів часто призводять до різних результатів кластеризації, а наявність значення K завжди обов’язкове. З метою усунення цих недоліків, у роботі запропоновано спосіб отримання значення центру кластера на підставі щільності й мінімаксної відстані. Вибір центру кластера та класифікація можуть проводитись одночасно.

Методика. Відповідно до щільності об’єктів був зменшений шум, а в якості початкового значення центру кластера обраний об’єкт з найбільшою щільністю. Метод мінімаксної відстані використаний для пошуку інших кращих центрів. Обирається кластер, до якого належить об’єкт.

Результати. Результати кластеризації пов›язані з вибором параметрів q. В умовах відсутності знань про розподіл вибірки може використовуватися тільки тестовий метод за допомогою багаторазової оптимізації тестування. У разі, коли q заздалегідь відоме, можливо швидке сходження. Отже, q має бути оптимізовано.

Наукова новизна. У роботі запропоновані нові методи отримання початкового центру кластера на основі щільності й мінімаксної відстані. Вдосконалений алгоритм, отриманий за допомогою експериментального аналізу, стабільно показує більш високу точність.

Практична значимість. Експерименти показали, що алгоритм може автоматично отримувати K значень центрів кластерів і показує більш високу точність кластеризації за обробки невідомих наборів даних.

Список литературы / References

1. Celebi, M.E., Kingravi, H.A. and Vela, P.A., 2013. A comparative study of efficient initialization methods for the k-means clustering algorithm. ExpertSystems with Applications, vol.40, no.1, pp. 200‒210.

2. Tran T.N. and Drab K., Daszykowski M., 2013. Revised DBSCAN algorithm to cluster data with dense adjacent clusters. Chemometrics and Intelligent Laboratory Systems, vol.120, pp.92‒96.

3. Chakraborty, S. and Nagwani, N.K. 2014. Analysis and study of Incremental DBSCAN clustering algorithm. Eprint ArXiv, vol.1406, no.4754, pp. 401‒410.

4. Smiti, A. and Eloudi, Z. 2013., Soft DBSCAN: Improving DBSCAN Clustering method using fuzzy set theory. In: Proc. of the 6thInternational Conf. On Human System Interaction (HSI), pp. 380‒385.

5. Onoda, T., Sakai, M. and Yamada, S.2012. Careful seeding method based on independent components analysis for k-means clustering. Journal of Emerging Technologies in Web Intelligence, vol.4 no.1, pp. 51‒59.

6. Reddy, D., Jana, P.K. and Member, I.S., 2012. Initialization for K-means clustering using Voronoi diagram, Procedia Technology, vol.4, pp. 395‒400.

7. Zhang, Y.J. and Cheng, E. 2013. An optimized method for selection of the initial centers of k-means clustering.Integrated Uncertainty in Knowledge Modelling and Decision Making. Springer Berlin Heidelberg, pp. 149‒156.

8. Frank, A. and Asuncion A. 2012, UCI machine learning repository.Availableat: <http:// archive.ics.uci.edu/ml> (2012-05-20)

Files:

2016_02_Guangbin


2016-06-21 1.22 MB 768

Tags: кластеризація • кластеризація за методом K-середніх • метод мінімаксної відстані • щільність

Удосконалений алгоритм К-середніх автоматичного визначення початкових значень центрів кластарів

Попередні статті з поточного розділу: