Файл: Исполнитель Демидов Владимир, 9 в класс.docx

МАОУ «Лицей № 67 г. Челябинска»

Информационно-познавательный проект

«Big data: зачем это нужно?»

Исполнитель: Демидов Владимир, 9 В класс

Наставник: ____________________________

2022-2023

Содержание

Введение 3

Глава 1. Что такое «большие данные» 4

1.1. Понятие Big Data 4

1.2. История появления 4

1.3. Характеристики 5

1.4. Источники…………………………………………………………………………….
Глава 2. Как работает Big Data 7

2.1. Как собирают и хранят 7

2.2. Как анализируют…………………………………………………….………………8

2.3. Технологии и аппаратные решения...……………………………………………...8

Глава 3. Как используют Big Data….…………….……………………………………..….11

3.1. В каких отраслях используют Big Data…..………………………………………11

3.2. Big Data в бизнесе… 12

3.3. Big Data в России и мире……………………………………………………………
Глава 4. Проблемы и перспективы Big Data….………………………………………..….11

4.1. Проблемы…………………………………………………………………………….

4.2. Перспективы………………………………………………………………………….

Заключение 15

Список литературы 16
Введение

Разговоры о постоянном геометрическом росте объемов хранимых данных ведутся с середины прошлого века. Объемы растут постоянно, но только в последние годы на IT-рынке стала широко обсуждаться концепция Big Data (большие данные), появление которой связано с пониманием необходимости некоторых качественных изменений в подходах к хранению и использованию растущих объемов информации. Традиционный вариант прямолинейного увеличения ресурсов и мощностей здесь уже не работает.

С развитием сферы больших данных круг задач управления информацией сместился от вопросов физического хранения данных к их использованию. Хранение данных - это не самоцель, а средство для того, чтобы ими можно было воспользоваться в нужный момент.

Необходимость обработки и использования огромных объемов информации привела к появлению новых методов, инструментов, технологий и целых аппаратных решений.

Использование больших данных открывает новые горизонты в планировании производства, образовании, здравоохранении, банковской сфере, торговле и других отраслях.

Цель данной работы: дать ответ на вопрос, что такое большие данные и зачем они нужны.

Задачи:

- выяснить, что такое большие данные;

- изучить, откуда они берутся;

- узнать, как их обрабатывать, хранить и использовать;

- изучить проблемы и перспективы работы с большими данными;

- дать ответ на вопрос, что включает в себя понятие «большие данные» и для чего их можно использовать.

Актуальность моей работы объясняется перспективностью, популярностью, важностью и стремительным развитием направления BigData .

Также мною была подготовлена презентация, которая может быть использована в качестве наглядного пособия для объяснения сути термина Big Data (большие данные).

Глава 1. Что такое Большие данные?

Понятие Big Data

Больши́е да́нные (англ. big data) - обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых программными инструментами, появившимися в конце 2000-х годов.

В широком смысле о больших данных говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых областях - весь мировой объём данных, и вытекающих из этого трансформационных последствий.

Big Data – это сама информация, методы её обработки и аналитики.

Для Big Data разрабатываются свои алгоритмы, программные инструменты и даже машины. Чтобы придумать средство обработки постоянно растущей информации, необходимо создавать новые, инновационные решения. Именно поэтому большие данные стали отдельным направлением в технологической сфере.

История появления

Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах. Термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда».

Несмотря на то, что термин вводился в академической среде и, прежде всего, разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях использует понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, а основные аналитики рынка информационных технологий посвящают концепции больших данных отдельные исследования.

В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где используется наблюдение за индивидуальными перемещениями.

С 2014 на Big Data обратили внимание ведущие мировые вузы, где обучают прикладным инженерным и ИТ-специальностям.

Характеристики

Компания Meta Group в 2011 г. предложила основные характеристики больших данных – так называемый набор признаков VVV:

Volume — объем данных: от 150 Гб в сутки;

Velocity — скорость накопления и обработки массивов данных. Большие данные обновляются регулярно, поэтому необходимы интеллектуальные технологии для их обработки в режиме онлайн;

Variety — разнообразие типов данных. Данные могут быть структурированными, неструктурированными или структурированными частично. Например, в соцсетях поток данных не структурирован: это могут быть текстовые посты, фото или видео.

Сегодня к этим трем добавляют еще три признака:

Veracity — достоверность как самого набора данных, так и результатов его анализа;

Variability — изменчивость. У потоков данных бывают свои пики и спады под влиянием сезонов или социальных явлений. Чем нестабильнее и изменчивее поток данных, тем сложнее его анализировать;

Value — ценность или значимость. Как и любая информация, большие данные могут быть простыми или сложными для восприятия и анализа. Пример простых данных — это посты в соцсетях, сложных — банковские транзакции.

Глава 2. Как работает Big Data

2.1. Как собирают и хранят большие данные

Большие данные необходимы, чтобы проанализировать все значимые факторы и принять правильное решение. С помощью Big Data строят модели-симуляции, чтобы протестировать то или иное решение, идею, продукт.

Главные источники больших данных:

- интернет вещей (IoT) и подключенные к нему устройства;

- соцсети, блоги и СМИ;

- данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;

- показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников, данные дистанционного зондирования Земли;

- статистика городов и государств: данные о перемещениях, рождаемости и смертности;

- медицинские данные: анализы, заболевания, диагностические снимки.

В качестве примеров источников возникновения больших данных также приводятся потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио - и видеорегистрации и так далее.

С 2007 года в распоряжении ФБР и ЦРУ появилась PRISM — один из самых продвинутых сервисов, который собирает персональные данные обо всех пользователях соцсетей, а также сервисов Microsoft, Google, Apple, Yahoo и даже записи телефонных разговоров.

Современные вычислительные системы обеспечивают мгновенный доступ к массивам больших данных. Для их хранения используют специальные дата-центры с самыми мощными серверами.

Помимо традиционных, физических серверов используют облачные хранилища, «озера данных» (data lake — хранилища большого объема неструктурированных данных из одного источника) и Hadoop — фреймворк (программное обеспечение), состоящий из набора утилит (вспомогательных компьютерных программ) для разработки и выполнения программ распределенных вычислений. Для работы с Big Data применяют передовые методы интеграции и управления, а также подготовки данных для аналитики.

2.2. Как анализируют большие данные

Благодаря высокопроизводительным технологиям — таким, как грид-вычисления или аналитика в оперативной памяти, компании могут использовать любые объемы больших данных для анализа. Иногда Big Data сначала структурируют, отбирая только те, что нужны для анализа. Все чаще большие данные применяют для задач в рамках расширенной аналитики, включая искусственный интеллект.

Выделяют четыре основных метода анализа Big Data:

1. Описательная аналитика (descriptive analytics) — самая распространенная. Она отвечает на вопрос «Что произошло?», анализирует данные, поступающие в реальном времени, и исторические данные. Главная цель — выяснить причины и закономерности успехов или неудач в той или иной сфере, чтобы использовать эти данные для наиболее эффективных моделей. Для описательной аналитики используют базовые математические функции. Типичный пример — социологические исследования или данные веб-статистики, которые компания получает через Google Analytics.

2. Прогнозная или предикативная аналитика (predictive analytics) — помогает спрогнозировать наиболее вероятное развитие событий на основе имеющихся данных. Для этого используют готовые шаблоны на основе каких-либо объектов или явлений с аналогичным набором характеристик. С помощью предикативной (или прогнозной) аналитики можно, например, просчитать обвал или изменение цен на фондовом рынке. Или оценить возможности потенциального заемщика по выплате кредита.

3. Предписательная аналитика (prescriptive analytics) — следующий уровень по сравнению с прогнозной. С помощью Big Data и современных технологий можно выявить проблемные точки в бизнесе или любой другой деятельности и рассчитать, при каком сценарии их можно избежать в будущем.

4. Диагностическая аналитика (diagnostic analytics) — использует данные, чтобы проанализировать причины произошедшего. Это помогает выявлять аномалии и случайные связи между событиями и действиями.

2.3. Технологии и аппаратные решения

Данные обрабатывают и анализируют с помощью различных инструментов и технологий:

- специальное программное обеспечение: NoSQL, MapReduce, Hadoop, R;

- Data mining — извлечение из массивов ранее неизвестных данных с помощью большого набора техник;

- искусственный интеллект и нейросети — для построения моделей на основе Big Data, включая распознавание текста и изображений;

- визуализация аналитических данных — анимированные модели или графики, созданные на основе больших данных.

При этом разработчики придерживаются двух критериев сбора информации:

- обезличивание данных: делает персональную информацию пользователей в какой-то степени недоступной;

- агрегированность данных: позволяет оперировать лишь со средними показателями.

Чтобы обрабатывать большие массивы данных в режиме онлайн используют суперкомпьютеры: их мощность и вычислительные возможности многократно превосходят обычные.

Существует ряд аппаратно-программных комплексов, предоставляющих решения для обработки больших данных: Aster MapReduce appliance, Oracle Big Data appliance, Greenplum appliance. Эти комплексы поставляются в центры (хранения и) обработки данных (data-centr) как готовые к установке телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки.

Глава 3. Как используют большие данные?

3.1. В каких отраслях используют Big Data

Сегодня большие данные используют крупные компании во всех отраслях, а также — госорганы.

Государственное управление. Изучение и анализ больших данных помогает правительствам принимать решения в таких областях, как здравоохранение, занятость населения, экономическое регулирование, борьба с преступностью и обеспечение безопасности, реагирование на чрезвычайные ситуации.

Промышленность. Внедрение инструментов Big Data помогает повысить прозрачность промышленных процессов и внедрять «предиктивное производство», позволяющее более точно прогнозировать спрос на продукцию и, соответственно, планировать расходование ресурсов.