Распознавание областей текста с персональными данными на диагностических изображениях

Новик В.П., Кульберг Н.С., Арзамасов К.М., Четвериков С.Ф., Хоружая А.Н., Козлов Д.В., Кремнева Е.И.
Медицинская визуализация. https://doi.org/10.24835/1607-0763-1263

Цель исследования: разработка метода обнаружения областей текста с приватными данными на медицинских диагностических изображениях при помощи модуля Tesseract и модифицированного расстояния Левенштейна.

Материал и методы. Для пороговой фильтрации на начальном этапе определяется яркость точек, принадлежащих символам текста на изображениях. Динамический порог вычисляется по гистограмме яркостей пикселей изображения. Далее для первичного распознавания текста используется модуль Tesseract. На основании значений тэгов из DICOM-файлов формировался набор строк для поиска их в распознанном тексте. Для поиска этих строк использовалось модифицированное расстояние Левенштейна. Для тестирования алгоритма применялся набор DICOM файлов типа “Dose Report” модальности CT. Оценку точности проводили эксперты, размечающие блоки приватной информации на изображениях.

Результаты. Разработан инструмент с набором метрик и оптимальных порогов для выбора решающих правил в нахождении совпадений, позволяющих обнаруживать области текста с приватными данными на медицинских изображениях. Для этого инструмента определена точность локализации областей с личными данными по сравнению с экспертной разметкой, которая составляет 99,86%.

Заключение. Разработанный в рамках настоящего исследования инструмент позволяет выявлять персональные данные на цифровых медицинских изображениях с высокой точностью, что указывает на возможность его практического применения при подготовке наборов данных.

Дата издания: 20.07.2023