Одним з інструментів для розв'язання економічних задач є кластерний аналіз. З його допомогою кластери та інші об'єкти масиву даних класифікуються за групами. Дану методику можна застосовувати в програмі Excel. Подивимося, як це робиться на практиці.

Використання кластерного аналізу

За допомогою кластерного аналізу можна проводити вибірку за ознакою, який досліджується. Його основне завдання - розбиття багатовимірного масиву на однорідні групи. В якості критерію угруповання застосовується парний коефіцієнт кореляції або евклідова відстань між об'єктами по заданому параметру. Найбільш близькі один до одного значення групуються разом.

Хоча найчастіше даний вид аналізу застосовують в економіці, його також можна використовувати в біології (для класифікації тварин), психології, медицині і в багатьох інших сферах діяльності людини. Кластерний аналіз можна застосовувати, використовуючи для цих цілей стандартний набір інструментів Ексель.

приклад використання

Маємо п'ять об'єктів, які характеризуються за двома досліджуваним параметрам - x і y.

  1. Застосовуємо до даних значень формулу евклідовой відстані, яке обчислюється за шаблоном:

    =КОРЕНЬ((x2-x1)^2+(y2-y1)^2)

  2. Досліджувані об'єкти в Microsoft Excel

  3. Дане значення обчислюємо між кожним з п'яти об'єктів. Результати розрахунку поміщаємо в матриці відстаней.
  4. Матриця відстаней в Microsoft Excel

  5. Дивимося, між якими значеннями дистанція найменше. У нашому прикладі - це об'єкти 1 і 2. Відстань між ними становить 4,123106, що менше, ніж між будь-якими іншими елементами даної сукупності.
  6. Відстань між об'єктами мінімально в Microsoft Excel

  7. Об'єднуємо ці дані в групу і формуємо нову матрицю, в якій значення 1,2 виступають окремим елементом. При складанні матриці залишаємо найменші значення з попередньої таблиці для об'єднаного елемента. Знову дивимося, між якими елементами відстань мінімально. На цей раз - це 4 і 5, а також об'єкт 5 і група об'єктів 1,2. Дистанція складає 6,708204.
  8. Відстань між об'єктами мінімально в другій матриці в Microsoft Excel

  9. Додаємо зазначені елементи в загальний кластер. Формуємо нову матрицю за тим же принципом, що і в попередній раз. Тобто, шукаємо самі менші значення. Таким чином ми бачимо, що нашу сукупність даних можна розбити на два кластери. У першому кластері знаходяться найбільш близькі між собою елементи - 1, 2, 4, 5. У другому кластері в нашому випадку представлений тільки один елемент - 3. Він знаходиться порівняно на віддалі від інших об'єктів. Відстань між кластерами становить 9,84.

Підсумкове значення в Microsoft Excel

На цьому завершується процедура розбиття сукупності на групи.

Як бачимо, хоча в цілому кластерний аналіз і може здатися складною процедурою, але насправді розібратися в нюансах даного методу не так вже важко. Головне зрозуміти основну закономірність об'єднання в групи.