Файл: Z9411_КафкаРС_ВВАД_ЛР.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 12.04.2024

Просмотров: 8

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
  1. В набор данных добавляется ещё один столбец - cluster, который показывает, к какому из двух кластеров принадлежит данная строка. Также выводятся первые 15 строк набора данных, чтобы убедиться, что этот столбец добавлен.

Рисунок 25 – Добавление столбца cluster

  1. С помощью метода describe() просматриваются средние значения по каждому из столбцов, а также их средние отклонения.

Рисунок 26 – Средние значения данных.

  1. Строится график деления клиентов по столбцу «HeartDisease» с помощью команды sns.pairplot(dataframe, hue = 'HeartDisease').

Рисунок 27 – График деления клиентов по столбцу «HeartDisease»

Исходя из графика, нельзя точно определить, какие именно признаки оказывают наибольшее влияние на признак.

ВЫВОД

В ходе выполнения лабораторной работы я изучил алгоритмы и методы кластерного анализа на практике. Я выполнил кластеризацию объектов с помощью иерархического агломеративного метода и метода k-средних. Я выбрал подходящую метрику расстояния, построил дендрограмму и рассчитал оптимальное число кластеров. Я также описал полученные кластеры в терминах предметной области и дал каждому кластеру условное наименование с учетом значимости признаков, повлиявших на выделение кластеров.

В результате работы я пришел к выводу, что кластеризация может быть полезным инструментом для анализа данных и выделения групп объектов с похожими характеристиками. Однако, необходимо тщательно подбирать параметры алгоритмов кластеризации и проводить предварительную обработку данных для достижения наилучших результатов. В целом, лабораторная работа была интересной и познавательной.

Посмотреть на реализацию лабораторной работы в Colab можно по следующей ссылке:

https://colab.research.google.com/drive/1PEc2ILK2NWmac-DjqrdPqrcuEaZgqyUC?usp=sharing