Добавлен: 05.05.2024
Просмотров: 64
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
Глава 1. Что такое Большие данные?
Глава 2. Как работает Big Data
2.1. Как собирают и хранят большие данные
2.2. Как анализируют большие данные
2.3. Технологии и аппаратные решения
Глава 3. Как используют большие данные?
3.1. В каких отраслях используют Big Data
МАОУ «Лицей № 67 г. Челябинска»
Информационно-познавательный проект
«Big data: зачем это нужно?»
Исполнитель: Демидов Владимир, 9 В класс
Наставник: ____________________________
2022-2023
Содержание
Введение 3
Глава 1. Что такое «большие данные» 4
1.1. Понятие Big Data 4
1.2. История появления 4
1.3. Характеристики 5
1.4. Источники…………………………………………………………………………….
Глава 2. Как работает Big Data 7
2.1. Как собирают и хранят 7
2.2. Как анализируют…………………………………………………….………………8
2.3. Технологии и аппаратные решения...……………………………………………...8
Глава 3. Как используют Big Data….…………….……………………………………..….11
3.1. В каких отраслях используют Big Data…..………………………………………11
3.2. Big Data в бизнесе… 12
3.3. Big Data в России и мире……………………………………………………………
Глава 4. Проблемы и перспективы Big Data….………………………………………..….11
4.1. Проблемы…………………………………………………………………………….
4.2. Перспективы………………………………………………………………………….
Заключение 15
Список литературы 16
Введение
Разговоры о постоянном геометрическом росте объемов хранимых данных ведутся с середины прошлого века. Объемы растут постоянно, но только в последние годы на IT-рынке стала широко обсуждаться концепция Big Data (большие данные), появление которой связано с пониманием необходимости некоторых качественных изменений в подходах к хранению и использованию растущих объемов информации. Традиционный вариант прямолинейного увеличения ресурсов и мощностей здесь уже не работает.
С развитием сферы больших данных круг задач управления информацией сместился от вопросов физического хранения данных к их использованию. Хранение данных - это не самоцель, а средство для того, чтобы ими можно было воспользоваться в нужный момент.
Необходимость обработки и использования огромных объемов информации привела к появлению новых методов, инструментов, технологий и целых аппаратных решений.
Использование больших данных открывает новые горизонты в планировании производства, образовании, здравоохранении, банковской сфере, торговле и других отраслях.
Цель данной работы: дать ответ на вопрос, что такое большие данные и зачем они нужны.
Задачи:
- выяснить, что такое большие данные;
- изучить, откуда они берутся;
- узнать, как их обрабатывать, хранить и использовать;
- изучить проблемы и перспективы работы с большими данными;
- дать ответ на вопрос, что включает в себя понятие «большие данные» и для чего их можно использовать.
Актуальность моей работы объясняется перспективностью, популярностью, важностью и стремительным развитием направления BigData .
Также мною была подготовлена презентация, которая может быть использована в качестве наглядного пособия для объяснения сути термина Big Data (большие данные).
Глава 1. Что такое Большие данные?
-
Понятие Big Data
Больши́е да́нные (англ. big data) - обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых программными инструментами, появившимися в конце 2000-х годов.
В широком смысле о больших данных говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых областях - весь мировой объём данных, и вытекающих из этого трансформационных последствий.
Big Data – это сама информация, методы её обработки и аналитики.
Для Big Data разрабатываются свои алгоритмы, программные инструменты и даже машины. Чтобы придумать средство обработки постоянно растущей информации, необходимо создавать новые, инновационные решения. Именно поэтому большие данные стали отдельным направлением в технологической сфере.
-
История появления
Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах. Термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда».
Несмотря на то, что термин вводился в академической среде и, прежде всего, разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях использует понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, а основные аналитики рынка информационных технологий посвящают концепции больших данных отдельные исследования.
В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где используется наблюдение за индивидуальными перемещениями.
С 2014 на Big Data обратили внимание ведущие мировые вузы, где обучают прикладным инженерным и ИТ-специальностям.
-
Характеристики
Компания Meta Group в 2011 г. предложила основные характеристики больших данных – так называемый набор признаков VVV:
Volume — объем данных: от 150 Гб в сутки;
Velocity — скорость накопления и обработки массивов данных. Большие данные обновляются регулярно, поэтому необходимы интеллектуальные технологии для их обработки в режиме онлайн;
Variety — разнообразие типов данных. Данные могут быть структурированными, неструктурированными или структурированными частично. Например, в соцсетях поток данных не структурирован: это могут быть текстовые посты, фото или видео.
Сегодня к этим трем добавляют еще три признака:
Veracity — достоверность как самого набора данных, так и результатов его анализа;
Variability — изменчивость. У потоков данных бывают свои пики и спады под влиянием сезонов или социальных явлений. Чем нестабильнее и изменчивее поток данных, тем сложнее его анализировать;
Value — ценность или значимость. Как и любая информация, большие данные могут быть простыми или сложными для восприятия и анализа. Пример простых данных — это посты в соцсетях, сложных — банковские транзакции.
Глава 2. Как работает Big Data
2.1. Как собирают и хранят большие данные
Большие данные необходимы, чтобы проанализировать все значимые факторы и принять правильное решение. С помощью Big Data строят модели-симуляции, чтобы протестировать то или иное решение, идею, продукт.
Главные источники больших данных:
- интернет вещей (IoT) и подключенные к нему устройства;
- соцсети, блоги и СМИ;
- данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;
- показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников, данные дистанционного зондирования Земли;
- статистика городов и государств: данные о перемещениях, рождаемости и смертности;
- медицинские данные: анализы, заболевания, диагностические снимки.
В качестве примеров источников возникновения больших данных также приводятся потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио - и видеорегистрации и так далее.
С 2007 года в распоряжении ФБР и ЦРУ появилась PRISM — один из самых продвинутых сервисов, который собирает персональные данные обо всех пользователях соцсетей, а также сервисов Microsoft, Google, Apple, Yahoo и даже записи телефонных разговоров.
Современные вычислительные системы обеспечивают мгновенный доступ к массивам больших данных. Для их хранения используют специальные дата-центры с самыми мощными серверами.
Помимо традиционных, физических серверов используют облачные хранилища, «озера данных» (data lake — хранилища большого объема неструктурированных данных из одного источника) и Hadoop — фреймворк (программное обеспечение), состоящий из набора утилит (вспомогательных компьютерных программ) для разработки и выполнения программ распределенных вычислений. Для работы с Big Data применяют передовые методы интеграции и управления, а также подготовки данных для аналитики.
2.2. Как анализируют большие данные
Благодаря высокопроизводительным технологиям — таким, как грид-вычисления или аналитика в оперативной памяти, компании могут использовать любые объемы больших данных для анализа. Иногда Big Data сначала структурируют, отбирая только те, что нужны для анализа. Все чаще большие данные применяют для задач в рамках расширенной аналитики, включая искусственный интеллект.
Выделяют четыре основных метода анализа Big Data:
1. Описательная аналитика (descriptive analytics) — самая распространенная. Она отвечает на вопрос «Что произошло?», анализирует данные, поступающие в реальном времени, и исторические данные. Главная цель — выяснить причины и закономерности успехов или неудач в той или иной сфере, чтобы использовать эти данные для наиболее эффективных моделей. Для описательной аналитики используют базовые математические функции. Типичный пример — социологические исследования или данные веб-статистики, которые компания получает через Google Analytics.
2. Прогнозная или предикативная аналитика (predictive analytics) — помогает спрогнозировать наиболее вероятное развитие событий на основе имеющихся данных. Для этого используют готовые шаблоны на основе каких-либо объектов или явлений с аналогичным набором характеристик. С помощью предикативной (или прогнозной) аналитики можно, например, просчитать обвал или изменение цен на фондовом рынке. Или оценить возможности потенциального заемщика по выплате кредита.
3. Предписательная аналитика (prescriptive analytics) — следующий уровень по сравнению с прогнозной. С помощью Big Data и современных технологий можно выявить проблемные точки в бизнесе или любой другой деятельности и рассчитать, при каком сценарии их можно избежать в будущем.
4. Диагностическая аналитика (diagnostic analytics) — использует данные, чтобы проанализировать причины произошедшего. Это помогает выявлять аномалии и случайные связи между событиями и действиями.
2.3. Технологии и аппаратные решения
Данные обрабатывают и анализируют с помощью различных инструментов и технологий:
- специальное программное обеспечение: NoSQL, MapReduce, Hadoop, R;
- Data mining — извлечение из массивов ранее неизвестных данных с помощью большого набора техник;
- искусственный интеллект и нейросети — для построения моделей на основе Big Data, включая распознавание текста и изображений;
- визуализация аналитических данных — анимированные модели или графики, созданные на основе больших данных.
При этом разработчики придерживаются двух критериев сбора информации:
- обезличивание данных: делает персональную информацию пользователей в какой-то степени недоступной;
- агрегированность данных: позволяет оперировать лишь со средними показателями.
Чтобы обрабатывать большие массивы данных в режиме онлайн используют суперкомпьютеры: их мощность и вычислительные возможности многократно превосходят обычные.
Существует ряд аппаратно-программных комплексов, предоставляющих решения для обработки больших данных: Aster MapReduce appliance, Oracle Big Data appliance, Greenplum appliance. Эти комплексы поставляются в центры (хранения и) обработки данных (data-centr) как готовые к установке телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки.
Глава 3. Как используют большие данные?
3.1. В каких отраслях используют Big Data
Сегодня большие данные используют крупные компании во всех отраслях, а также — госорганы.
Государственное управление. Изучение и анализ больших данных помогает правительствам принимать решения в таких областях, как здравоохранение, занятость населения, экономическое регулирование, борьба с преступностью и обеспечение безопасности, реагирование на чрезвычайные ситуации.
Промышленность. Внедрение инструментов Big Data помогает повысить прозрачность промышленных процессов и внедрять «предиктивное производство», позволяющее более точно прогнозировать спрос на продукцию и, соответственно, планировать расходование ресурсов.