Выпуски
2023 96 97        
2022 90 91 92 93 94 95
2021 84 85 86 87 88 89
2020 78 79 80 81 82 83
2019 72 73 74 75 76 77
2018 66 67 68 69 70 71
2017 60 61 62 63 64 65
2016 54 55 56 57 58 59
2015 48 49 50 51 52 53
2014 42 43 44 45 46 47
Новости
Отправить статью
Подписаться на рассылку








Выпуск № 97. Апрель 2023 г.

Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети

Саркисова Анна Юрьевна, Петров Евгений Юрьевич, Дунаева Дарья Олеговна

Саркисова Анна Юрьевна
Кандидат филологических наук, доцент, научный сотрудник, факультет государственного управления, МГУ имени М.В. Ломоносова, Москва, РФ.
E-mail: sarkisova@data.tsu.ru
SPIN-код РИНЦ: 1212-0879
ORCID ID: 0000-0001-5674-0962

Петров Евгений Юрьевич
Техник, суперкомпьютерный центр, Национальный исследовательский Томский государственный университет, Томск, РФ.
E-mail: petrov@data.tsu.ru
SPIN-код РИНЦ: 6469-0644
ORCID ID: 0000-0002-7140-7882

Дунаева Дарья Олеговна
Научный сотрудник, факультет государственного управления, МГУ имени М.В. Ломоносова, Москва, РФ.
E-mail: ddo@data.tsu.ru
SPIN-код РИНЦ: 7164-7368
ORCID ID: 0000-0002-6622-9882

Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров.

Ключевые слова

Лингвистический маркер, большие данные, автоматизированный сбор данных, выгрузка данных, текстовая коллекция, полнотекстовый поиск, социальные сети, «ВКонтакте», открытый API, вакцинация, COVID-19.

DOI: 10.24412/2070-1381-2023-97-70-84

Комментарии:
Любое использование материалов допускается только при наличии гиперссылки на e-journal.spa.msu.ru.
119991, Москва, Ломоносовский проспект, д. 27, корпус 4, А-701; тел.: (495) 930-85-71
Copyright © 2003–2015 ФГУ МГУ
Яндекс.Метрика