Файл: Расчетнографическая работа Обработка экспериментальных данных.pdf
Добавлен: 18.03.2024
Просмотров: 20
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
15
Рисунок 12 – Результаты очистки данных
3.2 Оценка качества данных
Одним из этапов очистки данных, предусмотренных ПАП «DEDUCTOR» является узел «Качество данных», предназначенный для проведения профайлинга и аудита данных с целью определения степени пригодности полей набора данных для решения задач анализа по объективным критериям: пропуски, выбросы, экстремальные значения. [3]
1 Шаг - для выполнения оценки качества данных на панели «Сценарии» нажимаем
«Мастер обработки», предварительно в левой части окна выбрав необходимую для анализа базу данных. В появившемся окне выбираем обработчик «Качество данных» (рисунок 13).
Рисунок 13 - Оценка качества данных (выбор обработчика)
16 2 Шаг – определяем параметры обработки: пропущенные данные, выбросы и экстремальные значения. Для этого в секции «Максимально допустимый процент пропусков» можем задать максимально допустимое число пропусков в процентах к общему числу записей набора данных, при превышении которого поле считается требующим предобработки с целью восстановления пропущенных значений [3], равное 0%, так как при анализе выполнения импорта было получено, что пропуски отсутствуют (см. рисунок 9).
В этом же окне выбираем способ определения выбросов и экстремальных значений. Выбираем «Стандартное отклонение», для которого критерием является отклонение значения признака от среднего более чем на заданное число стандартных отклонений. При этом данный параметр отдельно задается для выбросов и для экстремальных значений, что в дальнейшем позволяет обрабатывать эти типы аномальных значений по отдельности, используя различные методы [3]. Нужно помнить, что каждый количественный показатель имеет свои значения этих параметров, поэтому все последующие шаги будут приведены для показателя P4 (рисунок 14).
Рисунок 14 - Оценка качества данных
(определение пропущенных данных, выбросов и экстремальных значений)
3 Шаг - задаем используемые столбцы. Так как мы хотим определить качество показателя P4, поэтому в графе «Назначение» для столбца P4 ставим значение «Используемый», для остальных – «Неиспользуемый», нажимаем
«Далее» (рисунок 15).
17
Рисунок 15 - Оценка качества данных (задание используемых столбцов)
4 Шаг - нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 16).
Рисунок 16 - Оценка качества данных (запуск процесса)
5 Шаг - выбираем способ отображения данных: для этого ставим галочки напротив «Таблица характеристик полей», нажимаем «Далее» (рисунок 17).
18
Рисунок 17 - Оценка качества данных (выбор способа отображения данных)
6 Шаг - заполняем графы «Имя» и «Метка», нажимаем «Готово»
(рисунок 18).
Рисунок 18 - Оценка качества данных (завершение процесса)
7 Шаг– результаты профайлинга и аудита данных, сделанные узлом
«Качество данных» представляются в виде таблицы, в заголовке которой указываются свойства набора данных и другие параметры оценки качества
(рисунок 19).
В графе «Пропуски» отображается количество имеющихся пропусков и действие, которое требуется выполнить при восстановлении пропусков.
В графе «Выбросы» представлено количество обнаруженных выбросов и действие, которое требуется выполнить при их обработке.
19
В графе «Экстремальные» указывается количество обнаруженных экстремальных значений и действие, которое требуется выполнить при их обработке.
Графа «Количество уникальных» содержит количество уникальных значений в данных.
В графе «Качество данных» указывается индекс качества данных.
Поле «Резюме» содержит заключение о том, являются ли данные пригодными для последующего анализа. Пригодным считается поле, которое не содержит пропусков, экстремальных значений и выбросов, непригодным – поле, индекс качества которого равен 0. Все остальные поля считаются требующими предобработки. [3]
Рисунок 19 - Оценка качества данных
(определение качества данных и их пригодности к анализу)
Исходя из рисунка 19, делаем вывод, что данные показателя P4 (масса выключателя) не имеют пропусков, выбросов и экстремальных значений, индекс качества данных достаточно высок, следовательно, данные являются пригодными для анализа.
8 Шаг - аналогичным образом проводим оценку качества данных всех количественных показателей.
Рисунок 20 - Оценка качества данных для P4-P11
После проведения оценки качества данных для других количественных показателей получаем, что P4 (масса выключателя), P5 (полное время отключения), P6 (номинальный ток отключения), P7 (наибольшее рабочее напряжение), P8 (срок службы), P9 (собственное время отключения), P10 (время короткого замыкания), P11 (ток электродинамической стойкости) являются пригодными для анализа.
20 3.3 Выявление дубликатов и противоречий
Так как при оценке качества данных было выявлено, что у показателей отсутствуют выбросы, пропуски и экстремальные значения, поэтому не требуется выбирать обработчики «заполнение пропусков» и «редактирование выбросов».
Однако, необходимо проверить данные на выявление возможных дубликатов и противоречий.
1 Шаг - для выявления дубликатов и противоречий необходимо на панели
«Сценарии» нажимаем
«Мастер обработки», предварительно в левой части окна выбрав необходимую для анализа базу данных. В появившемся окне выбираем соответствующий обработчик.
2 Шаг - в открывшемся окне для каждого показателя в графе «Назначение» выбираем «Входное» и нажимаем «Далее» (рисунок 21).
Рисунок 21 - Выявление дубликатов и противоречий
(назначение входных и выходных параметров)
3 Шаг - нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 22).
21
Рисунок 22 - Выявление дубликатов и противоречий (запуск процесса)
4 Шаг - в следующем окне выбираем способ отображения данных: для этого ставим галочки напротив «Отображает в виде таблицы информацию о дубликатах и противоречиях», нажимаем «Далее» (рисунок 23). При завершении назначаем имя и метку, нажимаем «Готово».
Рисунок 23 - Выявление дубликатов и противоречий (выбор способа отображения данных)
В отрывшемся окне (рисунок 24) видим, что в результирующий набор добавлены два поля логического типа «Противоречие» и «Дубликат», где для каждой записи исходных полей указывается признак дубликата или противоречия.
22
Если бы записи содержали противоречие, то в поле «Противоречие» для нее было установлен флажок «True» (истина). Аналогично и для поля «Дубликат».
Кроме того, в набор были включены два столбца целого типа «Группа противоречий» и «Группа дубликатов», содержащие номер группы для противоречивых и дублирующихся записей соответственно. Для записей, не содержащих противоречий и дубликатов, эти поля отображаются пустыми.
Рисунок 24 - Выявление дубликатов и противоречий
Так как добавленные ячейки остались пустыми, следовательно, данные не содержат противоречий, но содержат 7 дубликатов.
23
4 Первичный анализ данных
4.1 Частотный анализ данных
4.1.1 Теоретические сведения
Анализ частотных распределений результатов исследования – это первый шаг при обработке информации. Первый шаг одномерного описательного анализа для объяснения какого-либо явления – его описание. Результаты любого исследования содержат множество данных и просто просмотр базы данных не дает возможности осмыслить такой массив информации.
В этом случае методы одномерного описательного анализа решают задачу сжатия исходной информации, ее компактного представления. Как правило, в процессе исследования бывает важно получить совокупные характеристики отдельных предметов через призму какого-либо конкретного свойства. Вместо большого числа отдельных показателей нам требуется одно значение, которое было бы типичным (репрезентативным) для всей совокупности объектов. Анализ одномерных распределений позволяет заодно установить, насколько типичное значение в действительности типично, репрезентативно по отношению к совокупности данных. [5]
4.1.2 Частотные таблицы
1 Шаг – для того, чтобы открыть частотные таблицы, необходимо открыть вкладку «Статистика» (рисунок 10), выбрать необходимый показатель и на панели нажать «Обзор статистики». В конкретном случае откроем частотную таблицу для показателя P5 (рисунок 25).
Рисунок 25 - Частотный анализ показателя P5 (полное время восстановления)
24
В правой части откроется окно, содержащее информацию о частотном распределении. В верхней части все данные сгруппированы в 6 диапазонов и указано количество примеров (в том числе в процентном соотношении), входящих в данный диапазон. Для показателя P5 все данные сгруппировались в 3 основных диапазона:
- в диапазон, где полное время восстановления составляет от 0,04 до 0,15%, попали 47 образцов выключателей (94% от общего количества);
- в диапазон, где полное время восстановления составляет от 0,26 до 0,37%, попал 1 выключатель (2% от общего количества);
- в диапазон, где полное время восстановления составляет от 0,59 до 0,7%, попали 2 выключателя (4% от общего количества).
В нижней части данного окна отражены максимальное 0,1% и минимальное
0,07% значения, а также стандартное отклонение данных показателя 0,131.
Также распределение данных по диапазонам можно отразить в графическом виде с помощью гистограммы. Для этого необходимо при выборе способа отображения (рисунок 7) поставить флажок напротив «Гистограмма» и выбрать нужный показатель.
Рисунок 26 - Гистограмма распределения показателя P5 (массовая доля осадка)
Далее будут приведена частотная таблица и гистограмма для второго количественного показателя P7 (наибольшее рабочее напряжение).
25 а) б)
Рисунок 27 - Частотная таблица (а) и гистограмма (б) для количественного показателя P7 (наибольшее рабочее напряжение)
Построение гистограмм в ПАП «DEDUCTOR» возможно только для количественных показателей, поэтому для показателей номинальной шкалы P1
(страна-производитель) и P2 (среда гашения дуги) были построены частотные таблицы (рисунок 28). а) б)
Рисунок 28 - Частотные таблицы для показателей порядковой и номинальной шкалы: P1 (страна-производитель) и (б) P2 (среда гашения дуги)
26
Исходя из частотной таблицы показателя P1 (рисунок 28 (а)), можем сделать вывод, что 19 выключателей или 38% всех образцов произведены в России, 16 образцов или 32% произведены в таких странах, как Китай и Япония, 15 образцов или 30% произведены в других странах (кроме стран СНГ).
Аналогичные результаты отражены в частотной таблицы (рисунок 28 (б)) показателя P2 (среда гашения дуги): 38 выключателей или 76% всех образцов в качестве среды для гашения дуги используют элегаз, 5 выключателей или 10% - воздух, 4 выключателя или 8% - вакуум, 3 выключателя или 6 % - масло.
Рисунок 29 - Частотные таблицы для показателей номинальной шкалы:
(а) P13 (Выдерживает температуру -30°С) и (б) P14 (Выдерживает температуру +30°С)
Исходя из частотных таблиц показателей P13 и P14 (рисунок 29), можем сделать вывод, что только 4 образца выключателей или 8% всех образцов не выдерживают температуру -30°С, однако все образцы или 100% выдерживают и могут работать при температуре +30°С.
!!!!Рекомендации Провести анализ статистических характеристик (мода, среднеее выборочное, дисперсия, и т.д.). Обязательно обратить внимание на ограничения использования статистических характеристик для качественных и количественных признаков.!!!!
4.2 Корреляционный анализ данных
!!!!Дать краткое описание понятия корреляционный анализ!!!!
!!!!Назначение матрицы парных корреляций!!!!
27
4.2.1 Матрица парной корреляции и анализ зависимостей
Так как ПАП «DEDUCTOR» не позволяет составить матрицу парной корреляции, поэтому данная процедура была произведена MS Excel.
1 Шаг – в корреляционном анализе анализируются количественные показатели, поэтому матрица признаков была преобразована (рисунок 30).
Рисунок 30 - Корреляционный анализ (преобразованная матрица данных)
2 Шаг – для того, чтобы составить матрицу парной корреляции, используем функцию «PEARSON», выбирая в качестве значений массива 1 – значения показателя P1, в качестве массива 2 – P1, тем самым определяя коэффициент корреляции (рисунок 31).
Рисунок 31 - Корреляционный анализ (построение матрицы парной корреляции)
28 3 Шаг - аналогичным образом определяются показатели корреляции каждой пары факторов. Полученная матрица парной корреляции представлена в таблице
5.
Таблица 3- Матрица парной корреляции
Показатели
P4
P5
P6
P7
P8
P9
P10
P11
P4 1,0 0,161
-0,212
-0,109
-0,056 0,697
-0,136 0,036
P5 0,161 1,000
-0,200
-0,160
-0,234 0,326
-0,070 0,170
P6
-0,212
-0,200 1,000 0,194 0,227
-0,344
-0,117 0,347
P7
-0,109
-0,160 0,194 1,000 0,104
-0,243 0,057 0,193
P8
-0,056
-0,234 0,227 0,104 1,000
-0,137 0,084 0,130
P9 0,697 0,326
-0,344
-0,243
-0,137 1,000
-0,245 0,032
P10
-0,136
-0,070
-0,117 0,057 0,084
-0,245 1,000
-0,291
P11 0,036 0,170 0,347 0,193 0,130 0,032
-0,291 1,000
Корреляционные связи могут быть:
-возрастающими (положительными);
-убывающими (отрицательные).
Если коэффициент корреляции отрицательный, это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Сила связи характеризуется также и абсолютной величиной коэффициента корреляции используются следующие градации:
Таблица 4 - Сила связи парной корреляции
Значение
Интерпретация
До 0,2
Очень слабая корреляция
До 0,5
Слабая корреляция
До 0,7
Средняя корреляция
До 0,9
Высокая корреляция
Свыше 0,9
Очень высокая корреляция
Исходя из полученной матрицы парной корреляции (табл.3), проводим анализ между показателями. Результаты анализа отображены в таблице 5.
Таблица 5 – Корреляционные связи между показателями
P
i
P
j r
ij
Анализ связи
Примечание
Наклон
Сила связи
1 2
3 4
5 6
P5
P4 0,161
В
Очень слабая
P6
P4
-0,212
У
Слабая
P7
P4
-0,109
У
Очень слабая
P8
P4
-0,056
У
Очень слабая
P9
P4 0,697
В
Средняя
Самая
29 сильная связь из всех
P10
P4
-0,136
У
Очень слабая
P11
P4 0,036
В
Очень слабая
P6
P5
-0,200
У
Очень слабая
P7
P5
-0,160
У
Очень слабая
Продолжение таблицы 5 1
2 3
4 5
6
P8
P5
-0,234
У
Слабая
P9
P5 0,326
В
Слабая
P10
P5
-0,070
У
Очень слабая
P11
P5 0,170
В
Очень слабая
P7
P6 0,194
В
Очень слабая
P8
P6 0,227
В
Слабая
P9
P6
-0,344
У
Слабая
P10
P6
-0,117
У
Очень слабая
P11
P6 0,347
В
Слабая
P8
P7 0,104
В
Очень слабая
P9
P7
-0,243
У
Слабая
P10
P7 0,057
В
Очень слабая
P11
P7 0,193
В
Очень слабая
P9
P8
-0,137
У
Очень слабая
P10
P8 0,084
В
Очень слабая
P11
P8 0,130
В
Очень слабая
P10
P9
-0,245
У
Слабая
P11
P9 0,032
В
Очень слабая
Самая слабая связь из всех
P11
P10
-0,291
У
Слабая
Благодаря таблице 5, делаем вывод, что самая сильная связь между показателями P4 (масса выключателя) и P9 (собственное время отключение), так как значение коэффициента корреляции, равное 0,697, является максимально высоким в данной базе данных (оно выделено в матрице). Однако, данное значение не близко к 1, то есть связь между показателями является средней.
4 Шаг – для проверки полученной матрицы парной корреляции (табл. 3) проведем корреляционный анализ, используя ПАП «DEDUCTOR». Для этого на панели сценарии выбираем «Мастер обработки» и в открывшемся окне выбираем соответствующий обработчик.
5 Шаг – задаем в качестве входного параметра P9 и в качестве выходного
P4, нажимаем «Далее».
6 Шаг – в качестве метода расчета корреляции выбираем «Коэффициент корреляции Пирсона», при помощи которого можно определить силу и направление линейной зависимости между двумя процессами, происходящими одновременно без учета временного лага.