МЕТОДИ МЕТРИЧНОГО ТА НЕМЕТРИЧНОГО БАГАТОВИМІРНОГО ШКАЛЮВАННЯ ДЛЯ ДОВІЛЬНОЇ МАТРИЦІ ДАНИХ В МОВІ R
DOI: 10.31673/2412-4338.2024.039411
Анотація
У статті розглядаються два підходи до багатовимірного шкалювання — метричне та неметричне — в контексті їхньої реалізації на мові програмування R для аналізу довільних матриць даних. Багатовимірне шкалювання (MDS) є потужним інструментом для візуалізації та інтерпретації складних багатовимірних даних. В сучасних умовах, з урахуванням стрімкого зростання обсягів інформації, ефективні методи аналізу великих даних набувають все більшої актуальності. Метою цієї роботи є порівняння ефективності та точності метричних та неметричних підходів до MDS, визначення їхніх переваг і недоліків, а також надання практичних рекомендацій щодо їх використання для вирішення різноманітних завдань в різних сферах, таких як соціологія, маркетинг, політологія, психологія тощо.
У статті проведено огляд теоретичних основ багатовимірного шкалювання, описано алгоритми, що лежать в основі реалізації MDS в R, а також проаналізовано особливості застосування кожного методу. Метричний підхід до MDS ґрунтується на припущенні про лінійну залежність між відстанями у вихідних даних і результатами шкалювання, що дозволяє отримувати точні результати для структурованих даних. Неметричний підхід, навпаки, є гнучкішим і здатен працювати з більш абстрактними даними, зокрема у випадках, коли відстані між об'єктами важко піддаються чіткому кількісному опису.
Для оцінки ефективності обох методів було розроблено приклади з використанням реальних і симуляційних даних, на яких було показано, як обидва підходи поводять себе в різних ситуаціях. Метричне шкалювання продемонструвало кращі результати при роботі з даними, що відповідають припущенням про лінійність, тоді як неметричне MDS виявилося більш адаптивним для даних із нелінійними зв'язками. Результати експериментів показали, що для даних з різною структурою і розміром обидва підходи можуть бути корисними, але вибір методу залежить від конкретних вимог до аналізу.
Важливим результатом роботи є розробка набору рекомендацій для вибору методу багатовимірного шкалювання в залежності від типу даних, що аналізуються. Наприклад, для чітко структурованих даних, таких як географічні або демографічні, перевагу слід надавати метричному підходу, тоді як для більш складних та неструктурованих даних, як у психологічних дослідженнях, більш доцільним буде застосування неметричного шкалювання.
У статті також надано приклади коду на мові R для реалізації обох підходів, що можуть бути використані для подальших досліджень та практичної роботи з багатовимірним шкалюванням. Розглянуті приклади демонструють, як обидва методи можуть бути інтегровані у процес аналізу даних для виявлення скритих закономірностей та побудови візуальних моделей на основі багатовимірних даних. Окрім цього, автори вказують на перспективи подальших досліджень у галузі застосування багатовимірного шкалювання в аналізі великих даних та розробки нових методологій для обробки гетерогенних інформаційних масивів.
Таким чином, стаття робить вагомий внесок у розвиток сучасних підходів до аналізу даних в мовах програмування та відкриває нові перспективи для застосування багатовимірного шкалювання у різних сферах науки і бізнесу. Пропоновані рекомендації щодо вибору методу шкалювання можуть бути корисними для дослідників та практиків, що працюють з великими обсягами даних та прагнуть використовувати новітні методи для їх аналізу.
Ключові слова: багатовимірне шкалювання, метричне MDS, неметричне MDS, аналіз даних, R, великі дані, візуалізація, евклідова метрика, статистична обробка, Big Data.
Список використаних джерел
1. Borg, I., Groenen, P. J. F. "Modern Multidimensional Scaling: Theory and Applications." Springer, 2005
2. Cox, T. F., Cox, M. A. A. "Multidimensional Scaling." Chapman and Hall/CRC, 2001
3. Kruskal, J. B. "Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis." Psychometrika, 1964
4. Torgerson, W. S. "Multidimensional scaling: I. Theory and method." Psychometrika, 1952
5. Venables, W. N., Ripley, B. D. "Modern Applied Statistics with S." Springer, 2002
6. Офіційна документація пакету MASS в R: https://cran.r-project.org/web/packages/MASS/index.html
7. Офіційна документація пакету smacof в R: https://cran.r-project.org/web/packages/smacof/index.html
8. Статті на сайті R-bloggers про багатовимірне шкалювання: https://www.r-bloggers.com/
9. Zhebka V., Skladannyi P., Bazak Y., Bondarchuk A., Storchak K. Methods for Predicting Failures in a Smart Home / CEUR Workshop Proceedings, 2024, 3665, p. 70–78
10. Malinov V., Zhebka V., Kokhan I., Storchak K., Dovzhenko T. Cryptocurrency as a Tool for Attracting Investment and Ensuring the Strategic Development of the Bioenergy Potential of Processing Enterprises in Ukraine / Lecture Notes on Data Engineering and Communications Technologies, 2024, 195, p. 387–405