Файл: Итоговое практическое задание по дисциплине Информатика и основы информационнокоммуникационных технологий.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.05.2024
Просмотров: 19
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
| Российский государственный социальный университет |
ИТОГОВОЕ ПРАКТИЧЕСКОЕ ЗАДАНИЕ
по дисциплине «_______Информатика и основы информационно-коммуникационных технологий _______________________»
_____________________________________________________
(тема практического задания)
ФИО студента | Рощин Денис Степанович |
Направление подготовки | Лечебное Дело |
Группа | ЛЕЧ-С-0-Д-2022-2 |
Москва
Введение.
Анализ проводился над датасетом, в котором описывались различные сорта вин из разных стран, цен и категорий.
В источнике была информация о наборе данных (Рис.1)
Рис.1
Переводим данные.
Context
После просмотра Somm (документальный фильм о мастерах сомелье) Я задавался вопросом, как я мог бы создать прогностическую модель для идентификации вин через слепую дегустацию, как мастер-сомелье. Первым шагом в этом путешествии был сбор некоторых данных для обучения модели. Я планирую использовать глубокое обучение для прогнозирования сорта вина, используя слова в описании / обзоре. Модель по-прежнему не сможет попробовать вино, но теоретически она может идентифицировать вино на основе описания, которое может дать сомелье. Если у кого-то есть идеи о том
, как это сделать, пожалуйста, опубликуйте их!
Content
Этот набор данных содержит три файла:
winemag-data-130k-v2.csv содержит 10 столбцов и 130k строк винных обзоров.
winemag-data_first150k.csv содержит 10 столбцов и 150 строк отзывов о вине.
winemag-data-130k-v2.json содержит 6919 узлов винных обзоров.
Перейдите на вкладку данные, чтобы просмотреть описания отдельных файлов, метаданные на уровне столбцов и сводную статистику.
Acknowledgements
Данные были получены из WineEnthusiast в течение недели 15 июня 2017 года. Код для скребка можно найти здесь, если у вас есть более конкретные вопросы о сборе данных, которые я не рассматривал.
ОБНОВЛЕНИЕ 24.11.2017
После отзывов пользователей набора данных я снова очистил обзоры 22 ноября 2017 года. На этот раз я собрал название каждого обзора, из которого вы можете разобрать год, имя дегустатора и ручку Twitter дегустатора. Это также должно исправить проблему с дублированием записи.
Inspiration
Я думаю, что этот набор данных предлагает отличные возможности для анализа настроений и других прогностических моделей, связанных с текстом. Моя общая цель - создать модель, которая может идентифицировать сорт, винодельню и местоположение вина на основе описания. Если у кого-то есть какие-либо идеи, прорывы или другие интересные идеи / модели, пожалуйста, опубликуйте их.
В скачанном файле содержится 813 145 строк и 13 столбцов. Для удобства расчетов сокращаем информацию.
Столбцов оставляем 4 шт с наименованиями (Рис. 2):
Country – Страна;
Points – Баллы;
Price – Цена;
Тaster_name – Имя сомелье.
Рис.2
Для удобства дальнейшей сортировки в столбце Price при помощи функции «Найти и заменить», меняем точку на запятую.
Строки сортируем «Настраиваемой сортировкой». (Рис.3)
Рис.3
Числовым фильтром в столбце Pointsотбираем данные, которые менее 97. Их удаляем, очищаем фильтр.
При помощи функции «Найти и выделить» в столбце Price удаляем строки в которых нет информации.
Оставляем по одной стране с самым дорогим вином и самым высоким баллом. (Рис. 4)
Рис.4
При помощи анализа данных создаем описательную статистику по полю Price(Рис 5).
Рис. 5
Ставим вопросы к датасету и находим ответы при помощи диаграмм и гистограмм.
-
В какой стране низкий балл, но дороге вино?
-
В какой стране самое дорогое вино?
-
Кто из сомелье пил самое дорогое вино?
Выводы:
-
В какой стране низкий балл, но дороге вино? – Германия -
В какой стране самое дорогое вино? - Германия -
Кто из сомелье пил самое дорогое вино? - Anna Lee C. Iijima