Раздел:
Отиатрия
Потенциал многомодальной языковой модели для предварительной оценки отоскопических изображений
М. В. Комаров (1), О. И. Гончаров (2), А. А. Федотова (3)
(1) Санкт-Петербургский научно-исследовательский институт уха, горла, носа и речи, Санкт-Петербург, 190013, Российская Федерация, (1), (3) Северо-Западный государственный медицинский университет имени И. И. Мечникова, Санкт-Петербург, 195067, Российская Федерация, (2) Национальный медицинский исследовательский центр имени В. А. Алмазова, Санкт-Петербург, 197341, Российская Федерация, (1), (2), (3) Городская больница № 26, Санкт-Петербург, 196240, Российская Федерация
УДК: УДК 616.284-072.1:519.766.2
DOI: https://doi.org/10.18692/1810-4800-2025-3-53-62
АННОТАЦИЯ
Реферат. Пилотное исследование оценило возможности универсальной многомодальной LLM ChatGPT o3 для интерпретации отоскопических изображений. В работу включили 38 кадров, разделенных на девять клинических категорий: от нормы и инородных тел до послеоперационных состояний и опухолей среднего уха. Аннотацию «золотого стандарта» обеспечили два эксперта-оториноларинголога (κ > 0,85), при расхождениях — консенсус. Модель обрабатывала каждый кадр в новом сеансе по запросу «Что ты видишь на этой фотографии?» ChatGPT o3 продемонстрировала 100% точности в разделении «норма/патология» (95% CI 90,8–100%), чувствительность и специфичность 100%, PPV/NPV = 100%. Верность формулировки клинического диагноза составила 81,6% (31/38). По пяти ключевым морфологическим признакам (перфорация, экссудат, гиперемия, тимпаносклероз, холестеатома) средний F1-score достиг 0,92, Cohen’s κ = 0,87. Экспертная оценка полезности текстовых описаний по 5-балльной шкале показала M = 4,4 ± 0,6, ICC = 0,82; различий между группами не выявлено (p = 0,24). Spearman’s ρ = 0,72 (p < 0,001) подтвердил связь между числом правильно определенных признаков и оценкой полезности. Среднее время отклика 30–40 с. Результаты указывают на высокий потенциал ChatGPT o3 для предварительного скрининга, стандартизации отчетности и обучения. Для клинического внедрения необходимы масштабная проспективная валидация, структурирование вывода и интеграция количественных инструментов.
Дата публикации:
17.06.2025
Ключевые слова:
отоскопия, многомодальная языковая модель, ChatGPT o3, диагностика среднего уха, морфологический анализ, скрининг, телемедицина, объяснимый ИИ, точность классификации, межэкспертное согласие Для цитирования:
Комаров М. В., Гончаров О. И., Федотова А. А. Потенциал многомодальной языковой модели для предварительной оценки отоскопических изображений. Российская оториноларингология. 2025;24(3):53–62. https://doi.org/10.18692/1810-4800-2025-3-53-62