Файл: Операции, производимые с данными (Операции над данными в общем смысле).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 11.03.2024

Просмотров: 41

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Содержание:

Введение

Понятие «информация» является достаточно широким и неразрывно связано с понятием данные. Данные — это поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи или обработки.

В современном мире сбор, обработка и анализ данных идет постоянно и непрерывно, а уровень техники и технологии настолько высок, что имеет смысл рассматривать возможные операции с разных уровней, начиная от непосредственного сбора и заканчивая их обработкой на программном уровне, архивацией и защитой. Список операций, которые могут быть выполнены над данными довольно большой и включает в себя операции, производимые над данными на разных уровнях технологического процесса и абстракции.

В данном предмете «Технологии программирования» очень важно дать определения возможным операциям над данными, так как именно технологии определяют эти операции. Тема данной работы является очень широкой, поэтому в силу ограниченности объема в качестве основной цели был установлен обзор существующих решений и процессов. В данной работе будут рассмотрены только основные операции, а связанные с этими операциями основные понятия и определения будут даны в краткой форме и с небольшим количеством примеров.

Основным источником информации для этой работы являются работы известных авторов, таких как Таненбаум Э., Хелд Д., написавших достаточное количество книг и монографий и получивших мировое признание. Также в качестве источников были взяты работы и учебники высших технических заведений, написанные преподавателями и научными работниками и рекомендованные министерством образования.

Операции над данными в общем смысле

Данные — «зарегистрированная информация; представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств» [17]. Данные в общем случае представляют собой зарегистрированные сигналы о материальном мире. Можно говорить, что данные несут информацию о произошедших событиях, однако они не тождественны информации. Понятие «информация» является очень широким, поэтому в каждой дисциплине говорят о «понятии информации». В общем смысле информацию следует понимать, как – «сведения об окружающем мире и протекающих в нем процессах, воспринимаемые человеком или специальным устройством» [8]. Если говорить о связи информации и данных, то стоит отметить, что в таком случае информацию можно понимать, как продукт взаимодействия данных и адекватных им методов [10, с. 18]. Именно так и следует понимать информацию в данном предмете «Технологии программирования».


Данные — это диалектическая составная информации, они представляют собой зарегистрированные сигналы. При этом метод регистрации этих сигналов может быть любым. Это может быть механическое перемещение физических тел, изменение их формы или параметров качества поверхности, изменение электрических, магнитных, оптических характеристик, химического состава и (или) характера химических связей, изменение состояния электронной системы и многое другое. В соответствии с методом регистрации данные могут храниться и транспортироваться на носителях различных видов [10, с. 21]. Бумага является самым простым носителем. Изменяя ее оптические характеристики, например, с помощью карандаша, становится возможно зарегистрировать на ее поверхности некоторые данные. Это самый простой способ регистрации, но сходный же способ используется для регистрации информации на оптических и лазерных дисках CD, DVD, Blue-ray disc. Например, если рассмотреть диск стандарта CD-R (CD-Recordable — записываемый компакт-диск), имеющий поликарбонатную основу и слой золота, между которыми располагается краситель, то регистрация или запись данных на нем осуществляется путем изменения оптических характеристик этого красителя. На начальной стадии слой красителя прозрачен, что дает возможность свету лазера проходить сквозь него и отражаться от слоя золота. При записи информации мощность лазера увеличивается, краситель нагревается, и в результате разрушается химическая связь. Такое изменение молекулярной структуры создает темное пятно. При чтении фотодетектор улавливает разницу между темными пятнами, где краситель был поврежден, и прозрачными областями, где краситель остался нетронутым [12, с. 126]. Также в качестве носителей, использующих изменение магнитных свойств, можно назвать магнитные диски и ленты. Регистрация данных путем изменения химического состава поверхностных веществ носителя широко используется в фотографии. На биохимическом уровне происходит накопление и передача данных в живой природе.

Любой носитель можно характеризовать параметром разрешающей способности (количеством данных, записанных в принятой для носителя единице измерения) и динамическим диапазоном (логарифмическим отношением интенсивности амплитуд максимального и минимального регистрируемых сигналов) [10, с. 22]. Эти свойства носителей определяют другие свойства данных и информации — полноту, доступность и достоверность. Например, если разместить какую-либо объемную базу данных на компакт-диске, то полноту информации будет обеспечить гораздо проще, чем размещая эту же самую базу данных на магнитном диске. Плотность записи на компакт-диске гораздо выше, что позволяет разместить гораздо больший объем информации. Однако, если говорить о доступности информации, то она будет гораздо выше, например, если информация будет размещена в книге, так как далеко не все потребители обладают необходимым оборудованием для чтения компакт-дисков.


В ходе информационного процесса данные преобразуются из одного вида в другой с помощью различных методов. Обработка данных включает в себя большое количество операций [11, с. 6]:

  • Сбор данных — накопление информации с целью обеспечения достаточной полноты для принятия решений;
  • Формализация данных — повышение доступности и понятности данных путем приведения данных, поступающих из разных из разных источников, к одинаковой форме, сделав их сопоставимыми между собой;
  • Фильтрация данных — отсеивание лишних данных. Под лишними данными в данном случае подразумеваются данные, в которых нет необходимости для принятия решений. При этом достоверность информации должна возрастать;
  • Сортировка данных — упорядочивание данных по определенному заданному признаку с целью повышения доступности информации;
  • Архивация данных — организация хранения данных в любой доступной форме с целью снижения затрат на хранение и повышение общей надежности;
  • Преобразование данных — перевод данных из одной формы в другую или из одной структуры в другую;
  • Защита данных — комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных;
  • Транспортировка данных — прием и передача данных между удаленными участниками информационного процесса.

В последующих главах будут рассмотрены основные операции, однако важно понимать, что список операций над данными, приведенный выше является далеко не полным, в то время как задача составления полного списка является очень трудоёмкой или даже невозможной. В окружающем мире над данными постоянно совершается бесчисленное множество операций, каждая из которых имеет свою специфику. Также важно понимать, что основные операции над данными осуществляет в современном мире ЭВМ, однако инструкции для вычислительной машины пишутся программистами, с точки зрения которых операции над данными тоже выглядят особым образом.

Системы счисления

Перед тем как рассматривать дальнейшую обработку данных с помощью различных операций необходимо рассмотреть такое понятие как системы счисления. «Система счисления — это совокупность правил и приемов записи чисел с помощью набора цифровых знаков. Количество цифр, необходимых для записи числа в системе, называют основанием системы счисления» [1].

Любая система исчисления должна позволять человеку и техническому устройству записывать числа, используя минимум места, а также выполнять действия с этими числами, придерживаясь максимально простого набора правил. Системы исчисления обладают следующими свойствами [9, с. 356]:


  • позиционные — непосредственный вес единицы разряда числа зависит от позиции этого разряда;
  • с постоянным основанием — для любого разряда числа количество различных цифр одинаково;
  • с естественным порядком следования весов — система счисления, при которой вес единицы следующего разряда на 1 больше максимального числа, представимого всеми предыдущими разрядами;
  • с естественным представлением цифр в разрядах (не кодированным) — для каждого разряда используется количество цифр, равное основанию системы счисления.

Если система счисления обладает вышеуказанным набором свойств, то арифметические действия, выполняемые в такой системе, будут достаточно просты. Например, m-разрядное число (где di — это обозначение цифры в записи числа) в любой системе счисления связано количеством N, изображаемым этим числом следующей формулой (1) [9, с. 356]:

(1),

Где:

  • B — основание системы исчисления;
  • dm-1, dm-2… d0 — цифры в записи числа.

Так как все операции выполняются на ЭВМ, которая может оперировать числами, точность которых конечна и фиксирована. Любая ЭВМ обладает ограниченным объемом памяти, поэтому может оперирует только теми числами, которые можно представить в фиксированном количестве разрядов. Такие числа называются числами конечной точности [12, c. 708]. В ходе развития ЭВМ наиболее эффективным и выгодным представлением чисел оказалось представление в двоичной системе счисления.

Двоичные числа строятся только из цифр 1 и 0. Двоичный разряд обычно называют битом.

С точки зрения разработчика видов данных много: есть простые и очевидные (например, целые и плавающие для представления чисел), а также данные, предназначенные для представления символов и строк. В зависимости от поставленной задачи программист может комбинировать простые данные, создавая таким образом бесконечное число специфических пользовательских видов данных. [9, с. 49]

А с точки зрения процессора все объекты в памяти представляются совокупностью битов, содержащих 0 и 1, но:

  • разным объектам может соответствовать разное количество битов;
  • даже если количество битов одинаково, эти 0 и 1 для каждого вида данных по замыслу программиста имеют совершенно разный смысл (например, форматы хранения коротких плавающих и целых принципиально разные), поэтому действия процессора должны быть разными.

Возможности процессора по работе с данными разного типа ограничены. Обычно в системе команд процессора имеются низкоуровневые команды для работы с одно-, двух- и четырёхбайтовыми целыми, а также специальные низкоуровневые команды для работы с данными в плавающем формате и команды, которые позволяют обращаться к отдельным разрядам. Поэтому, естественно, существуют правила, позволяющие устанавливать взаимосвязь между двоичным представлением данных и их сущностью [9, с. 49]:


  • для некоторых видов данных эти правила просты (например, для целых);
  • для некоторых правила достаточно сложны, но всю работу по отображению берет на себя компилятор (например, для плавающих);
  • для некоторых (пользовательских типов) соответствие должен установить программист.

Сбор и формализация данных

Сбор данных ­— «процесс получения данных от источников их регистрации, т.е. их фиксирование на носителях данных (документах, машинных носителях и т. п.)» [6]. В данной дисциплине процесс сбора данных уместно рассматривать с точки зрения определенной системы сбора данных. В общем случае система сбора данных — это система, осуществляющая функцию преобразования первичных входных сигналов от одного или нескольких измерительных преобразователей в эквивалентные цифровые сигналы, пригодные для дальнейшей обработки. [3, с. 34]. Применение таких систем очень широко. Их можно использовать для контроля какого-то одного процесса или величины, и в то же время для контроля сотни параметров большой и сложной системы или систем.

Системы сбора данных бывают одноканальные и многоканальные. В составе простейшей одноканальной измерительной системы всегда присутствует измерительный преобразователь, устройство выборки хранения (УВХ) и аналогово-цифровой преобразователь (АЦП). Измерительный преобразователь — это техническое устройство, построенное на определенном физическом принципе действия, выполняющее одно измерительное преобразование [16, с. 14]. УВХ — специальное устройство, предназначенное для уменьшения погрешности в выходном сигнале преобразователя, связанной с возможным быстрым изменением входного сигнала [3, с. 34]. АЦП — устройство, преобразующее входной аналоговый сигнал в дискретный код. По сути, аналогово-цифровое преобразование — это операция, устанавливающая соотношение двух величин [3, с. 19]. Видов АЦП большое множество, однако наиболее распространённые — это АЦП последовательного приближения, обладающие средним и высоким быстродействием [3, с. 29].

Многоканальные системы сбора данных необходимы тогда, когда существует более одного источника входного сигнала. В таком случае более всего распространены 2 подхода: аналоговое мультиплексирование и параллельное преобразование. При аналоговом мультиплексировании специальное устройство мультиплексор по очереди коммутирует сигналы с разных УВХ со входом АЦП. При параллельном способе сбора данных каждый источник данных имеет собственный АЦП для преобразования [3, с. 37-38].