« Попередня Наступна »

10.5. Методологія

 Загальноприйнятим способом аналізу результатів опитування в більшості випадків є угруповання відповідей. в таблицях, складених за демографічними ознаках респондентів. Інший поширений підхід систематизації даних полягає в застосуванні методів кластеризації, наприклад методу К-середніх, методу головних компонент (МГК) і факторного аналізу. Часто застосовується також багатовимірне масштабування, мета якого полягає у виявленні подоб в сукупностях даних про ставлення споживачів до товарів і торгових марках. Однак основним недоліком всіх цих методів є неможливість візуального представлення даних у формі, прийнятною для осіб, які приймають рішення, т. Е. Менеджерів, зайнятих виробленням стратегії і тактики у відношенні конкретних сегментів споживчого ринку. У разі кластеризації методом К-середніх набір відображають кластери модельних векторів все ще є множиною точок багатовимірного простору. Тому для досягнення прийнятного візуаль-ного представлення даних потрібні додаткові методи зменшення раз-мірності. Крім того, широко застосовуються методи кластеризації часто усклад-няют інтерпретацію кластерів. Багато способи формування кластерів мають тенденцію заносити дані в кластери певної форми, навіть якщо в самих даних такі відсутні. Якщо поставлена ??задача полягає не тільки в стисненні даних, але і в отриманні уявлення про кластерної структурі, необхідно встановити, чи проявляє той чи інший набір даних тенденцію до кластеризації.
Аналіз головних компонент і факторний аналіз є стандартними методами отримання лінійних проекцій даних на підпростір набагато меншої розмірності, в якому форма дисперсії вихідних даних зберігається в максимальному ступені. Насправді широко використовуваний критерій власного значення є не що інше, як міра дисперсії, з'ясовна в рамках запропонованої моделі. Подібно лінійному моделюванню, факторний аналіз накладає суворі обмеження на використовувані дані і поряд з іншими обговорюваними методами має кілька серйозних обмежень відносно візуалізації структури нелінійних даних.
Техніки багатовимірного масштабування являють собою методи створення просторів, в яких подоби розглядаються як відстані, що задаються певним показником. Існує безліч способів використання багатовимірного масштабування як для метричних (де відстані між даними повинні мати точні значення), так і для неметричних даних (де важливо, щоб відстані між даними були одного порядку).
 Більшість методів багатовимірного масштабування вимагають складних і значних за обсягом обчислень і не дозволяють створити функцію, яка б могла бути використана для відображення нових елементів даних. Замість цього проекції всіх даних розраховуються в процесі одночасної оптимізації.
У порівнянні зі стандартними методами сегментації даних метод самоорганізованих карт, що отримав широке застосування в інженерній справі, фінансах, економіці і маркетингу, дозволяє істотно спростити процес візуалізації, пред'являючи до нього мінімум вимог та обмежень. Подібно іншим методам, він дозволяє обробляти великі обсяги даних з метою виявлення в них закономірностей і стійких структур.
СОК є непараметричної регресійної методикою, яка часто використовується для формування двовимірного відображення вхідних даних із збереженням вихідної топології. СОК відноситься до розряду нейронних мереж, учнів без учителя, і являє собою спосіб виявлення взаємозв'язків у структурі дан- них. Нейрони самоорганізованих карт є формою узагальненого представлення даних. Навчання нейронів послідовним введенням векторів даних формує «еластичну» мережу, яка «розтягується» на весь простір вхідних даних. Замість трудомісткого аналізу статистики та обробки табличних даних СОК пропонує наочну карту, що дозволяє легко візуалізувати будь-яку вибірку з вихідних даних. Більше того, відображення компонентних площин на СОК дозволяє отримати інформацію про взаємозв'язок компонент даних і співвідношеннях між ними. Більш докладно метод СОК буде розглянуто в гол. 11.
Самоорганізуючі карти, наведені у цій статті, створені компанією «Eudaptics Inc.» за допомогою комерційної комп'ютерної програми Viscovery SOMine, яка у всіх подробицях описується в гл. 13 і 15. Усі відповіді з ан-кетних даних, отриманих в результаті опитування КЕМШБ, враховувалися в рівній мірі, т. Е. Наділялися однаковою вагою (або пріоритетом). У процесі поперед-рительное обробки анкетних даних була виконана нормалізація анкетних граф по дисперсії в цілях отримання однакової шкали для всіх ознак.
« Попередня Наступна »
= Перейти до змісту підручника =

10.5. Методологія