Файл: Лекция 6 big data историческая справка Широкое введение термина большие данные.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.03.2024

Просмотров: 25

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Лекция 6
BIG DATA
Историческая справка
Широкое введение термина «большие данные» связывают с
Клиффордом Линчем
, редактором журнала Nature
, подготовившим к
3 сентября
2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности
работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая
нефть», «большая руда».
Несмотря на то, что термин вводился в академической среде и прежде всего, разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе
IBM
,
Oracle
,
Microsoft
,
Hewlett-Packard
,
EMC
, а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования.
В 2011 году
Gartner отметил большие данные как тренд номер два в информационно- технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг
).
С 2013 года большие данные как академический предмет изучаются в появившихся вузовских программах по науке о данных и инженерии.
Мировой технологический потенциал для хранения, передачи и вычисления информационных данных (динамика роста и изменение цифровой доли информации в мире):
 2002 год явился переломным в изменении соотношения мирового объёма аналоговых и цифровых данных в пользу последних, объём которых увеличивался в геометрической прогрессии (лавинообразно).
 В 2007 году объём цифровых данных превысил объём аналоговых почти в 15 раз, составив 280 эксабайт цифровых данных к 19 аналоговых.
 По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных. К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).
 К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC.


Что такое Big data
Больши́е да́нные— обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце
2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.
В широком смысле о «больших данных» говорят, как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий.
Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:
1. Volume —величина физического объёма.
2. Velocity — скорость прироста и необходимости высокоскоростной обработки и получения результатов.
3. Variety — возможность одновременной обработки различных типов, структурированных и полуструктурированных данных
Набор признаков VVV (volume, velocity, variety) изначально выработан вне контекста представлений о больших данных как об определённой серии информационно- технологических методов и инструментов, в нём, в связи с ростом популярности концепции центрального хранилища данных для организаций, отмечалась равнозначимость проблематик управления данными по всем трём аспектам.
В дальнейшем появились интерпретации:
«VVVV» (добавлялась veracity — достоверность, использовалась в рекламных материалах
IBM
),
«VVVVV» (в этом варианте прибавляли viability — жизнеспособность)
«VVVVVV» (в этом варианте прибавляли и value — ценность).
Кроме того, добавляли variability — переменчивость, и visualization
IDC
интерпретирует «четвёртое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC.
Во всех случаях в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но другие категории, существенные для представления о сложности задачи обработки и анализа данных.
Классическими источниками больших данных признаются:

Интернет вещей
;
показания датчиков, приборов и других устройств;
 социальные медиа
(
соцсети, форумы, блоги, СМИ и другие сайты);

Корпоративные архивы документов; также большие данные могут происходить из внутренней информации предприятий и организаций (генерируемой в информационных средах, но ранее не сохранявшейся и не анализировавшейся),
 сфера медицины и биоинформатики
В качестве примеров источников возникновения больших данных приводятся непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов
, потоки сообщений из социальных сетей
, метеорологические данные
, данные дистанционного зондирования Земли
, потоки данных о местонахождении абонентов сетей сотовой связи
, устройств аудио- и видеорегистрации
Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.


Big data — простыми словами
Big data — это различные инструменты, подходы и методы обработки как
структурированных, так и неструктурированных данных для того, чтобы их
использовать для конкретных задач и целей.
Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.
По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.
В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных. Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.
Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.
Появление больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно.
В публичную сферу технологии Big Data вышли, когда речь стала идти о вполне конкретном числе — числе жителей планеты. 7 миллиардов, собирающихся в социальных сетях и других проектах, которые агрегируют людей.
YouTube, Facebook, ВКонтакте, где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно, огромно. Поток данных в этом случае — это пользовательские действия.
Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.
Многое из того, что касается больших данных, подходов, которые используются для их анализа, на самом деле существует довольно давно. Например, обработка изображений с камер наблюдения, когда мы говорим не об одной картинке, а о потоке данных. Или навигация роботов. Все это существует десятки лет, просто сейчас задачи по обработке данных затронули гораздо большее количество людей и идей.
Многие разработчики привыкли работать со статическими объектами и мыслить категориями состояний. В больших данных парадигма другая. Ты должен уметь работать с непрекращающимся потоком данных, и это интересная задача. Она затрагивает все больше и больше областей.
В нашей жизни все больше аппаратных средств и программ начинают генерировать большое количество данных — например, «интернет вещей». Вещи уже сейчас генерируют огромные потоки информации.
Полицейская система «Поток» отправляет со всех камер информацию и позволяет находить машины по этим данным. Все больше входят в моду фитнес-браслеты, GPS-трекеры и другие вещи, обслуживающие задачи человека и бизнеса.


Самое простое определение
Из названия можно предположить, что термин большие данные относится просто к управлению и анализу больших объемов данных.
Согласно отчету McKinsey Institute `Большие данные: новый рубеж для инноваций, конкуренции и производительности ( Big data: The next frontier for innovation, competition and productivity).
Термин большие данные относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации.
И мировые репозитарии данных, безусловно, продолжают расти.
Более сложное определение
Большие данные предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные.
Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы.
Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.
Наилучшее определение
В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.
Консалтинговая компания Forrester дает краткую формулировку: Большие данные
объединяют техники и технологии, которые извлекают смысл из данных на
экстремальном пределе практичности.

Насколько велика разница между бизнес-аналитикой и большими данными?
Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.
Мэтт Слокум из O'Reilly Radar считает, что хотя большие данные и бизнес- аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.

Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.

Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.
Согласно опубликованной компанией Oracle белой книге Информационная архитектура Oracle: руководство архитектора по большим данным (Oracle Information
Architecture: An Architect's Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.
Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год.
При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая.
Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов машинного обучения, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.


Методики анализа больших данных
Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов. Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.
Методы и техники анализа, применимые к большим данным:
 методы
Data Mining:
1) Association rule learning. Поиск ассоциативных правил. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных;
2) Classification. Классификация - методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным
Данные методики позволяют предсказать поведение потребителей в определенном сегменте рынка
(принятие решений о покупке, отток, объем потребления и проч.);
3) Regression Регрессионный анализ;
. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний.
4) Cluster analysis. Кластерный анализ. Статистический метод классификации объектов по группам за счет выявления наперед неизвестных общих признаков.

Краудсорсинг
— (англ. crowdsourcing, от crowd — толпа и sourcing — использование ресурсов) категоризация и обогащение данных силами широкого, неопределённого круга лиц, используя их творческие способности, знания и опытб по типу субподрядной работы на добровольных началах, без вступления в трудовые отношения;

Data fusion and data integration.
Смешение и интеграция данных (англ. data fusion and
integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа
1) в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов;
2) обработка естественного языка (включая тональный анализ);
3) набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Machine learning. Машинное обучение.
Направление в информатике, которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных для получения комплексных прогнозов на основе базовых моделей;
1) Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.
2) Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster
Analysis.
3) Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Искусственные нейронные сети;