Файл: Разработка информационной системы персонализации новостной ленты на базе платформы Telegram.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 27.03.2024

Просмотров: 27

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Министерство науки и высшего образования Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Московский государственный технический университет
имени Н.Э. Баумана
(национальный исследовательский университет)»
(МГТУ им. Н.Э. Баумана)
ФАКУЛЬТЕТ «Робототехника и комплексная автоматизация» (РК)
КАФЕДРА «Системы автоматизированного проектирования» (РК6)
РАСЧЕТНО-ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
К ВЫПУСКНОЙ КВАЛИФИКАЦИОННОЙ РАБОТЕ
НА ТЕМУ:
«Разработка информационной системы персонализации новостной ленты на базе платформы Telegram»
Студент РК6-82Б _________________ Зиновьева Е. А.
_
(Группа) (Подпись, дата) (И.О.Фамилия)
Руководитель ВКР _________________ Карпенко А. П.
_
(Подпись, дата) (И.О.Фамилия)
Нормоконтролер _________________Грошев С.В.
_
(Подпись, дата) ( И.О.Фамилия)
2022 г.

6
АННОТАЦИЯ
Данная выпускная квалификационная работа посвящена разработке информационной системы, позволяющей пользователям системы выбирать источники получения новостей и фильтровать в потоке новостей допустимые и недопустимые темы. А также система снижает количество уведомлений о новых новостях для пользователя, посредством определения одинаковых новостей в различных источниках.
Работа изложена на 60 странице: состоит из введения, трех глав, заключения. Также включает 16 рисунков, 4 таблиц, 6 листингов программного кода, библиографический список из 11 источников литературы, 3 приложений.
Во введении обосновывается актуальность работы, ставится цель и задачи работы.
В первой части проводятся исследование методов персонализации в системах аналогах, изучение возможностей платформы Telegram, выбор технологий разработки и анализа текста.
Вторая часть посвящена вопросам разработки архитектуры информационной системы, проектированию структуры и атрибутной модели базы данных, разработки сценариев использования и интерфейса и алгоритмов программных модулей.
Третья часть посвящена оценке результатов проделанной работы.
В заключении подводится итог проделанной работы.
Ознакомление с работой будет полезно специалистам, работающим в сфере разработки информационных систем, анализа данных и лингвистического анализа.


7
СОДЕРЖАНИЕ
ВВЕДЕНИЕ .................................................................................................... 9 1.
Обзорная часть ...................................................................................... 13 1.1.
Персонализация новостной ленты в социальных сетях ........... 13 1.2.
Технологические возможности Telegram ................................... 17 1.3.
Выбор технологий серверной разработки .................................. 19 1.3.1.Язык программирования и библиотеки ................................... 19 1.3.2.База данных ................................................................................ 24 1.3.3.Размещение сервера ................................................................... 26 1.4.
Выбор технологии анализа схожести новостей ......................... 27 1.4.1.Сходство Жаккара ...................................................................... 27 1.4.2.Алгоритм шинглов ..................................................................... 28 1.4.3.Расстояние Левенштейна .......................................................... 28 1.4.4.Векторное сходство TF-IDF ..................................................... 28 1.4.5.Нейронная сеть genism.doc2vec ................................................ 29 2.
Расчетно-конструкторская часть ......................................................... 31 2.1.
Проектирование архитектуры системы ...................................... 31 2.1.1.TelegramBot server ...................................................................... 31 2.1.2.База данных ................................................................................ 32 2.1.3.TelegramClient server ................................................................. 32 2.1.4.Модуль анализа схожести новостей ........................................ 33 2.1.5.Модуль фильтрации новостей .................................................. 33 2.2.
Разработка структуры базы данных ............................................ 34 2.2.1.Определение сущностей............................................................ 34 2.2.2.Расширение системы ................................................................. 38 2.2.3.Построение атрибутной модели ............................................... 39 2.2.4.Создание и настройка базы данных ......................................... 40 2.2.5.Создание оболочки взаимодействия ........................................ 41 2.3.
Разработка нейронной сети .......................................................... 43 2.3.1.Обучение нейронной сети ......................................................... 43 2.3.2.Интеграция модуля анализа схожести новостей .................... 44 2.4.
Сценарии использования и интерфейс ....................................... 45

8 2.4.1.Подписка на источники ............................................................. 45 2.4.2.Редактирование фильтров ......................................................... 47 2.4.3.Редактирование каналов ............................................................ 49 3.
Практическая часть ............................................................................... 50 3.1.
Формирование фокус-группы ...................................................... 50 3.2.
Опрос фокус-группы .................................................................... 50 3.3.
Примеры работы модуля анализа схожести новостей .............. 53
ЗАКЛЮЧЕНИЕ ........................................................................................... 58
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ................................. 59
ПРИЛОЖЕНИЕ А. Графическая часть ..................................................... 60
ПРИЛОЖЕНИЕ Б. Исходный код telegram-bot server ............................ 61
ПРИЛОЖЕНИЕ В. Исходный код telegram-bot server ............................ 66


9
ВВЕДЕНИЕ
Интернет является неотъемлемой частью нашей жизни. Мы пользуемся им каждый день и не представляем свою жизнь без глобальной сети. Но интернет привнёс в жизнь человека не только новые удобства и возможности, но и новые проблемы. В ходе дипломной работы меня в первую очередь интересовал аспект влияния негативной информации на здоровье человека. Разберем этот вопрос подробней.
Сейчас появляется все большее количество сервисов, которые обрушивают на пользователей огромные массивы информации. Скорость и объемы публикаций постоянно увеличиваются, что является большой проблемой. Количество информации, создаваемой человеком, каждый год увеличивается в среднем на 30%. Такому лавинообразному нарастанию информации Урсул А. Д. в 1975 году дал определение «информационный взрыв».
Вместе с увеличением объемов производимой информации, увеличивается и количество потребляемой человеком информации. Благодаря появлению мобильных устройств человек всегда имеет доступ к интернету и может постоянно пользоваться им в течении дня. По данным ежегодного отчета «Global
Digital 2021» сегодня средний пользователь проводит в неделю в интернете больше 48 часов, то есть примерно по 7 часов в день. А средний пользователь в
России тратит по 7 часов 52 минуты в день на интернет.
Из этого времени на социальные сети средний пользователь тратит примерно по 2 часа 25 минут в день. А средний россиянин проводит 2 часа 28 минут в социальных сетях.
Также важно отметить, что 70% участников исследования утверждают, что они используют и другие способы поиска информации помимо текстового поиска. При этом 45% обращаются именно к социальным сетям, когда нужно найти информацию о товарах, услугах и даже событиях.

10
Сегодня мы в день проводим время за потреблением информации через интернет столько же, сколько тратим на сон. Но нужна ли эта информация людям в таком объёме? По данным исследования «Digital Universe» агентства IDC, мозг человека на данный момент не способен обрабатывать массивы информации, которые поступают нам из интернета каждый день. Мозг способен обработать лишь 22%, но фактически получается обработать примерно 5%. В таких условиях становится очень важно уметь «фильтровать» поступающие данные: выбирать только нужную информацию, а не запоминать все подряд.
Сегодня человеку приходится обрабатывать такой большой поток информации, что важнейшим навыком становится умение «фильтровать» данные, а не запоминать их. Ведь при неумении фильтровать информацию человек столкнется с проблемой информационной перегрузки.
Информационная перегрузка – это современная проблема с которой сталкивается человек ввиду увеличения объемов поступающей информации. Из- за данного фактора снижается эффективность анализа и обработки информации, но также это имеет психологические и физические последствия для человека.
Уменьшить количество поступающей в интернет информации невозможно, это необратимый процесс. С каждым годом скорость и объемы публикаций будут только увеличиваться. Поэтому у человека остаётся только один способ борьбы с информационной перегрузкой – «фильтровать информацию».
Фильтрация информации на сегодняшний день возможна двумя способами. В первую очередь, через самоконтроль. Каждый для себя должен понимать, сколько времени он готов тратить на просмотр контента в интернете, и ориентируясь на свои внутренние ощущения, ограничивать время использования гаджетов в день.
Также существуют программное обеспечение для противостояния информационной перегрузки. Так, например, во многих телефонах возможно установить таймер на использование определённого приложения. И если вы


11 установите, что за день вы готовы использовать Instagram не больше 1 часа, по истечению этого срока, ваше устройство оповестит вас о том, что время вышло.
Но помимо установки временных ограничений в получении информации, важно еще и подвергать цензуре поступающий поток новостей и фактов. За последние годы было проведено большое количество исследований на тему влияния новостей из СМИ на человека. Ученые доказали, что новости непосредственно влияют на наше состояние, поведение и здоровье. И также, что не мало важно, они формирует наши представления об опасности: расширяется спектр ситуаций, воспринимаемых нами как опасные [1]. Рассмотрим вопрос подробней.
Представления об опасности и безопасности являются базовыми в образе мира человека и в значительной степени помогают ему адаптироваться к окружающей среде. А новостная лента часто транслирует нам опасность там, где ее на самом деле нет.
Рассмотрим эксперимент Матвеевой Лидии Владимировны, доктор психологических наук, профессора психологии МГУ М. В. Ломоносова. Он был посвящен реакции психики человека на информацию, получаемую из новостной ленты. В ходе эксперимента было выяснено, что после просмотра новостей, содержащих информацию об опасных для человека ситуаций, у пользователей повышался уровень ситуативной тревожности. Этот тип тревожности характеризуется напряжением, беспокойством, нервозностью. Высокий ее уровень ведет за собой нарушение внимания и даже тонкой координации.
Новости зачастую освещают сюжеты, на которые мы не можем никак повлиять.
Ежедневное прочтение негативных новостей, на которые мы не можем повлиять, приводит к апатии и пассивности. Со временем человек перестает ощущать себя свободным и способным контролировать даже происходящее в собственной жизни. Попытки что-то изменить кажутся бесполезными, человек перестает верить в свои силы. Это называется синдромом выученной (или приобретенной) беспомощности. Данный термин ввел Мартин Селигман в 1967 году.

12
Человек сталкивается с синдромом выученной беспомощности после нескольких безуспешных попыток повлиять на отрицательные обстоятельства жизни или избежать их. Человек постепенно отказывается от любой деятельности и попыток изменить окружающую недружелюбную среду, даже когда возникает такая возможность.
Новостной фон является сильным стрессовым фактором: хоть они и не угрожают человеку в момент прочтения, но организм включает режим защиты от нападения, тратя драгоценные ресурсы впустую.
Для усиления привлекательности в новостные сообщения часто специально вводят излишний негатив. А в текущей ситуации, когда весь мир охвачен одной глобальной бедой, доля негативной информации, которая встраивается в наш образ мира, растёт с каждым днём.
Сейчас в новостях особенно широко транслируется тревога, так как в сети идёт борьба за просмотры и лайки, ведь они на прямую влияют на доход. А самый простой способ привлечь внимание – через негатив.
Исходя из вышесказанного становится очевидной важность сокращения поступления негативных новостей. К сожалению, самостоятельно качественно фильтровать поступление негативных новостей практически невозможно.
Новостные заголовки могут нести в себе больше негатива, чем сами стати.
Поэтому выход один: создать инструмент, способный анализировать данные и персонализировать их под запросы пользователя. Таким образом мы можем сформировать цель работы.
Создать платформу, на которой пользователь сможет сам устанавливать рамки своего информационного поля с помощью фильтров. Система должна давать возможность подписываться на любые, интересующие пользователя каналы, и выбирать из всех новостей только подходящие пользователю.


13
1. Обзорная часть
В данной главе представлено исследование предметной области, сравнение аналогов, изучение существующих технологий, доступных для реализации системы.
1.1. Персонализация новостной ленты в социальных сетях
Социальные сети, ранее выполнявшие в обществе исключительно коммуникативную функцию, все чаще становятся для пользователей источниками надежной новостной информации. Так, каждый четвертый россиянин в большей степени доверяет именно тем СМИ, которые представлены в социальных сетях. Среди молодежи данная тенденция прослеживается еще более отчетливо.
Новостная лена на сегодняшний день присутствует в том или ином виде во всех крупных социальных сетях. Везде она адаптирована под формат социальной сети.
Одна из самых популярных соцсетей в мире, Instagram, предоставляет ленту публикаций, где в центре внимания, фотографии и видео. Формат не подозревает длинных текстов, что является большим минусом для публикации новостей.
Facebook, крупнейшая социальная сеть в мире, дает возможность получать информацию в формате постов, которые могут включать себя фото, видео, текст по отдельности или одновременно. Это привлекает своей вариативностью. В ВК, самой популярной российской социальной сети, функционал получения новостей аналогичный.
Новая социальная сеть, TikTok, включает в себя только короткие видеоролики, длительностью до 3 минут. Это очень специфичный источник информации, в основном акцент в этой социальной сети идет на развлечение пользователей.

14
Во всех вышеперечисленных социальных сетях новостная лента подстраивается под предпочтения конкретного пользователя. Алгоритмы персонализации основываются на нескольких показателях. Анализируется взаимодействие человека с публикациями: удержание просмотра, лайки, дизлайки, комментарии. Также учитывается, на какие страницы подписан пользователь. И на основании этих данных, предлагаются новые публикации.
Среди вышеперечисленных факторов самый важный – удержание просмотра, то есть то, как долго человек просматривает публикацию. Важно отметить, что это в свою очередь пагубно для пользователя. Так как на негативные новости больше привлекают и удерживают внимание человека. Это следствие, так называемого, «негативного предубеждения» – этот психологический термин обозначает наше коллективное желание слышать и запоминать плохие новости.
Согласно теории Марка Трасслера и Стюарта Сорока, дело не только в злорадстве, но и в эволюции, которая приучила нас быстро реагировать на потенциальную угрозу. Плохие новости могут стать сигналом, что нам необходимо изменить свое поведение во избежание опасности.
Исходя из вышесказанного, мы можем однозначно сделать вывод, что существующий порядок формирования новостной ленты может негативно сказываться на здоровье человека. Такой вывод мы можем сделать, сложив два фактора. Во-первых, основная задача социальной сети – это удержание пользователя. А, во-вторых, человек сам по себе склонен реагировать на все угрожающие факторы, даже если это псевдо-опасность. Таким образом мы попадаем в замкнутый круг, где социальные сети подают нам негативную информацию, а мы не можем пропустить ее, чем подаём условный «сигнал» для демонстрации еще большего количества «плохих» новостей.
Таким образом, для комфортного получения информации через новостную ленту, необходима возможность выбора тем, на которые пользователь не хочет получать новости в данный момент. Но такой функции нет ни в одной из популярных соц. сетей.