+7 (495) 374-77-76запись на приём
+7 (495) 374-55-83платные услуги

Анализ текстов описаний КТ-исследований головного мозга с признаками внутричерепных кровоизлияний с помощью алгоритма дерева решений

Анализ текстов описаний КТ-исследований головного мозга с признаками внутричерепных кровоизлияний с помощью алгоритма дерева решений
Хоружая А.Н., Козлов Д.В., Арзамасов К.М., Кремнева Е.И.
Современные технологии в медицине. 2022. Т. 14. № 6. С. 34-41.

Цель исследования — разработать, обучить и протестировать алгоритм анализа текстовых описаний КТ-исследований головного мозга с использованием модели дерева решений для задачи простой бинарной классификации наличия/отсутствия признаков внутричерепного кровоизлияния (ВЧК).

Материалы и методы. Исходные данные представляют собой выгрузку из системы ЕРИС ЕМИАС, содержащей 34 188 исследований, полученных в результате проведения бесконтрастной КТ головного мозга в 56 медицинских организациях стационарной медицинской помощи. Анализ данных, а также их предварительную обработку осуществляли с использованием библиотеки для символьной и статистической обработки естественного языка NLTK (Natural Language Toolkit, v. 3.6.5) и библиотеки для машинного обучения, содержащей инструменты для решения задач классификации scikit-learn. По 14 подобранным ключевым словам, имеющим отношение к ВЧК, а также 33 стоп-фразам, содержащим ключевые слова, наличие которых в тексте описания подразумевало отсутствие ВЧК, выполняли автоматический отбор КТ-исследований и их последующую экспертную верификацию. Получена выборка из 3980 протоколов описаний, из которой сформированы два класса данных: содержащих описание ВЧК и без такового. В качестве модели, с помощью которой решали задачу бинарной классификации, выбран алгоритм решающего дерева. Для оценки производительности модели КТ-исследования были разделены случайным образом на две выборки в соотношении 7:3. Из 3980 протоколов 2786 были отнесены к обучающему набору данных, 1194 — к тестовому.

Результаты. По результатам тестирования чувствительность разработанного и обученного алгоритма при бинарной классификации описаний КТ-исследований «с признаками ВЧК» и «без признаков ВЧК» составила 0,94, специфичность — 0,88, F-мера — 0,83.

Заключение. Разработанный и обученный алгоритм анализа текстовых протоколов КТ-описаний показал высокую точность работы при исследованиях головного мозга с признаками ВЧК. Он может применяться для решения задач бинарной классификации и создания соответствующих наборов данных. Ограничением алгоритма является необходимость ручного пересмотра КТ-исследований с целью обеспечения контроля качества.