
Рис. 1. Шестнадцать тем, выделенных с помощью техники анализа естественного языка неструктурированных данных BERTopic. Метод обработки подразумевает выделение наиболее часто использованных слов, выражений фраз, в т.ч. с орфографическими ошибками (при их частом повторении), использованием аббревиатур, сокращений
Fig. 1. Sixteen themes identified using the BERTopic natural language analysis technique for unstructured data. The processing method involves highlighting the most frequently used words, expressions, phrases, incl. with spelling errors (if they are repeated frequently), the use of abbreviations and acronyms

Рис. 2. Кластеризация выделенных тем в пространстве
Fig. 2. Clustering of selected topics in space
Актуальность
Минимальное число исследований, проводимых в медицинских организациях России при динамическом наблюдении пациентов с патологией заднего отрезка глаза в соответствии с потребностью, порядком, стандартом оснащения, правилами организации деятельности, составляет более 1,6 млн в год. При этом в настоящее время в нормативно-справочной документации, рекомендуемой к использованию при оказании медицинских услуг на территории нашей страны, отсутствуют единый стандарт и справочник для использования при описании результатов данного исследования. С учетом высокой потребности проведения данной медицинской услуги и темпов цифровизации в медицинских организациях накоплен большой массив неструктурированных текстовых данных, описывающих снимок оптической когерентной томографии (ОКТ). По причине отсутствия единого стандарта описания затруднено использование накопленных в разных медицинских организациях баз медицинских данных для проведения аналитической, клинической и научной работы.
Тематическое моделирование используется в области обработки естественного языка для нахождения скрытых тематик в документах с целью определения принадлежности произвольного документа к той или иной теме или кластеру, модель обучается на неразмеченных данных.
Методы интеллектуального анализа данных использовались H. Li и соавт. для анализа лечения заболеваний роговицы в рецептах традиционной китайской медицины [1].
Современные методы тематического моделирования использовались в исследовании L. Mahmoudi и соавт. для анализа текстов научных исследований в области здравоохранения в нескольких странах [2]. В статье R. RamonGonen и соавт. методы интеллектуального анализа текста и статистические методологии используются для исследования неврологических и нервно-мышечных заболеваний [3]. Иерархический процесс Дирихле, латентное размещение Дирихле (LDA) и метод тематического моделирования BERtopic использовались S. Matsoukas и соавт. для выявления четырех крупных тем в области научных исследований дегенеративной цервикальной миелопатии [4]. В статье S. Guizzardi и соавт. техника BERTopic используется для выделения основных тем и трендов в научных исследованиях в области регенерации костных тканей [5]. Исследователями отмечается большой потенциал накопленных неструктурированных данных не только для решения клинических задач, но и для организации оказания медицинской помощи [6].
Цель
Сформулировать путем обработки естественного языка стандарт описания снимка ОКТ макулярной области сетчатки глаза пациента в норме и при патологии для использования в системах поддержки принятия врачебных решений на основе глубокого машинного обучения и искусственного интеллекта, проверить гипотезу о возможности создания структурированного справочника описания структур глаза путем использования неструктурированных данных, накопленных ранее в медицинских информационных системах.
Материал и методы
Произведен анализ 30 000 неструктурированных текстовых описаний медицинских изображений нормы и патологии макулярной области сетчатой оболочки глаза человека, полученных при проведении ОКТ макулярной области сетчатки у пациентов в Оренбургском филиале ФГАУ «НМИЦ «МНТК «Микрохирургия глаза» им. акад. С.Н. Федорова» за период с 2018 по 2023 г.
Критерии входа в исследование: наличие жалоб, прозрачность оптических сред, позволяющая провести исследование (ОКТ), сформировать протокол исследования, провести визуализацию и описание структур сетчатки глаза. К полученному массиву данных применена техника тематического моделирования BERTopic с моделью эмбеддингов paraphrase-MiniLM-L12-v2 и задан минимальный размер темы min_topic_size=50.
Всего обнаружено 150 тем: совокупных описательных выражений, используемых при обозначении нормы и патологии. Из полученных тем экспертным методом убраны те из них, которые носили общесмысловой характер, выражения о рекомендациях наблюдения, динамики состояния, прочие не имеющие отношения к описанию структур глаза; исправлены стилистические и орфографические опечатки, обусловленные анализом неструктурированного материала. После первичной очистки осталось 123 признака.
К выбранным темам применен метод иерархической кластеризации для объединения их в синдромокомплексы, свидетельствующие об отсутствии или наличии патологического процесса, объединяющего несколько признаков (тем). Полученная клас

Рис. 3. Иерархическая кластеризация выделенных тем
Fig. 3. Hierarchical clustering of selected topics

Таблица Структура соотношения разделов, признаков, синдромокомплексов, полученных при исследовании
Table The structure of the relationship between sections, signs, syndrome complexes obtained during the study
Полученные данные систематизированы в таблицу для использования в практической деятельности.
Результаты
Пятнадцать наиболее популярных тем и 5 ключевых слов представлены на рисунке 1. Результаты объединения выделенных тем в 13 кластеров представлены на рисунке 2. Иерархическая кластеризация выделенных тем показана на рисунке 3.
На основании анализа полученных тем методом отобрано 123 признака нормы и патологии сетчатки, объединенных в 6 групп: общий раздел, витреоретинальный и ретинальный интерфейс, изменения контура сетчатки, толщина сетчатки, структура сетчатки, хориоидея.
Экспертная оценка полученного иерархического анализа показала наличие следующих синдромокомплексов: 1) субретинальная жидкость; 2) интраретинальные кисты; 3) отслойка ретинального пигментного эпителия; 4) субретинальный гиперрефлективный материал; 5) эпиретинальная мембрана; 6) ретинальные друзы; 7) сквозной макулярный разрыв; 8) ламеллярный макулярный разрыв; 9) витреомакулярная тракция; 10) диабетическая ретинопатия; 11) невус; 12) центральная серозная хориоретинопатия; 13) возрастная макулярная дегенерация (ВМД), сухая форма; 14) ВМД, экссудативная форма; 15) солнечная ретинопатия; 16) миопия высокой степени; 17) ретинальные кровоизлияния; 18) отслойка сетчатки; 19) нарушения кровообращения (окклюзия центральной вены сетчатки и центральной артерии сетчатки ); 20) кистозный макулярный отек (Ирвин — Гасса); 21) скрытая субретинальная неоваскулярная мембрана; 22) географическая атрофия сетчатки; 23) стафиломы; 24) хориоретинальные рубцы; 25) ретиношизис.
Двадцать пять синдромокомплексов структурируют описание сетчатки полученными 123 признаками из 6 разделов. Визуализация структуры соотношения разделов, признаков и синдромокомплексов, которые могут быть использованы при описании исследования макулярной области сетчатки, представлены в таблице.
Полный справочник разделов, признаков, синдромокомплексов доступен для скачивания, использования, интеграции в медицинские информационные системы по ссылке https://disk.yandex.ru/i/agKdkWGvYyMfaQ.
В справочнике даны ключевые слова каждого признака, при помощи которых может быть осуществлен поиск признаков в неструктурированных текстовых описаниях для обучения искусственных нейронных сетей.
Заключение
Сформулирован стандарт описания снимка ОКТ макулярной области сетчатки глаза пациента в норме и при патологии для использования в системах поддержки принятия врачебных решений.
Методы обработки естественного языка, анализа большого массива неструктурированных данных, накопленных ранее, позволяют как выделить отдельные признаки, которые могут быть использованы в качестве справочников, так и группировать их для постановки протодиагноза, а также для использования в ежедневной практической работе медицинских работников. Полученный справочник может быть полезен в практической работе создания медицинских информационных систем, систем поддержки принятия врачебных решений на основе нейронных систем, других методов глубокого машинного обучения.
Информация об авторах
Александр Дмитриевич Чупров, д.м.н., профессор, директор Оренбургского филиала ФГАУ «НМИЦ «МНТК «Микрохирургия глаза», nauka@ofmntk.ru, https://orcid.org/0000-0001-7011-4220
Александр Олегович Лосицкий, к.м.н., зам. генерального директора по организационно-методической работе ФГАУ «НМИЦ «МНТК «Микрохирургия глаза», eyedoct@yandex.ru, https://orcid.org/0000-0002-8716-6438
Артур Юрьевич Жигалов, ведущий программист Оренбургского государственного университета, leroy137.artur@gmail.com, https://orcid.org/0000-0003-3208-1629
Елизавета Сергеевна Таскина, к.м.н., доцент, доцент кафедры офтальмологии Читинской государственной медицинской академии, taskins@yandex.ru, http://orcid.org/0000-0002-6223-8888
Information about the authors
Aleksandr D. Chuprov, Doctor of Science in Medicine, Professor, Director of Orenburg branch, nauka@ofmntk.ru, https://orcid.org/0000-0001-7011-4220
Aleksandr O. Lositskiy, PhD in Medicine, Deputy director for organizational and methodological work, eyedoct@yandex.ru, https://orcid.org/0000-0002-8716-6438
Artur Yu. Zhigalov, Programming Supervisor, leroy137.artur@gmail.com, https://orcid.org/0000-0003-3208-1629
Elizaveta S. Taskina, PhD in Medicine, Associate Professor, Associate Professor of Ophthalmology Department, taskins@yandex.ru, http://orcid.org/0000-0002-6223-8888
Вклад авторов в работу:
А.Д. Чупров: существенный вклад в концепцию и дизайн работы, окончательное утверждение версии, подлежащей публикации.
А.О. Лосицкий: сбор, анализ и обработка материала, написание текста.
А.Ю. Жигалов: анализ и обработка материала, статистическая обработка данных.
Е.С. Таскина: анализ и обработка материала.
Финансирование: Работа выполнена в рамках государственного задания на тему: «Совершенствование лечебных подходов и прогнозирования исходов заболеваний переднего и заднего отрезков глазного яблока с использованием мультимодальных диагностических систем и технологий искусственного интеллекта», рег. No124030400005-5.
Согласие пациента на публикацию: Письменного согласия на публикацию этого материала получено не было. Он не содержит никакой личной идентифицирующей информации.
Конфликт интересов: Отсутствует.
Funding: The work was carried out within the framework of the state assignment on the topic: «Improving therapeutic approaches and predicting the outcomes of diseases of the anterior and posterior segments of the eyeball using multimodal diagnostic systems and artificial intelligence technologies», reg. No. 124030400005-5.
Patient consent for publications: No written consent was obtained for the publication of this material. It does not contain any personally identifying information.
Conflict of interest: There is no conflict of interest.
Поступила: 02.09.2024
Переработана: 28.05.2025
Принята к печати: 31.10.2025
Received: 02.09.2024
Revision: 28.05.2025
Accepted: 31.10.2025




















