|
|
Выпуск № 97. Апрель 2023 г.
Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети
Саркисова Анна Юрьевна, Петров Евгений Юрьевич, Дунаева Дарья Олеговна
Саркисова Анна Юрьевна Кандидат филологических наук, доцент, научный сотрудник, факультет государственного управления, МГУ имени М.В. Ломоносова, Москва, РФ. E-mail: sarkisova@data.tsu.ru SPIN-код РИНЦ: 1212-0879 ORCID ID: 0000-0001-5674-0962
Петров Евгений Юрьевич Техник, суперкомпьютерный центр, Национальный исследовательский Томский государственный университет, Томск, РФ. E-mail: petrov@data.tsu.ru SPIN-код РИНЦ: 6469-0644 ORCID ID: 0000-0002-7140-7882
Дунаева Дарья Олеговна Научный сотрудник, факультет государственного управления, МГУ имени М.В. Ломоносова, Москва, РФ. E-mail: ddo@data.tsu.ru SPIN-код РИНЦ: 7164-7368 ORCID ID: 0000-0002-6622-9882
Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров.
Ключевые слова
Лингвистический маркер, большие данные, автоматизированный сбор данных, выгрузка данных, текстовая коллекция, полнотекстовый поиск, социальные сети, «ВКонтакте», открытый API, вакцинация, COVID-19.
DOI: 10.24412/2070-1381-2023-97-70-84
Любое использование материалов допускается только при наличии гиперссылки на e-journal.spa.msu.ru.
|
|
119991, Москва, Ломоносовский проспект, д. 27, корпус 4, А-701; тел.: (495) 930-85-71
Copyright © 2003–2015 ФГУ МГУ
|