О недостатках машинного обучения в медицине

Почему будущее здравоохранения не так близко, как может показаться.

Благодаря недавним и быстрым достижениям в области машинного обучения, модели сегодня могут похвастаться большей точностью и запоминаемостью, чем когда-либо. Например, одно исследование показало, что новая модель получила более высокую оценку, чем 72% врачей общей практики, когда им было поручено диагностировать письменные тестовые случаи реальных заболеваний, а другое показало, что ответы ChatGPT на вопросы пациентов из Reddit были оценены значительно выше как по качеству, так и по эмпатии, чем реальные ответы клинициста. [4, 5, 6]

Неудивительно, что люди хотят как можно скорее применить машинное обучение в медицинской сфере:

Объем данных, генерируемых медицинскими устройствами, огромен; данные создаются быстрее, чем могут быть потреблены, а обработка такого объема данных вручную приводит к сильному выгоранию врачей, а также к дополнительным накладным расходам. Почему бы не автоматизировать повторяющиеся и систематические действия?
ИИ обещает большую точность и аккуратность, сокращение человеческих ошибок и способность достигать результатов с минимальным вмешательством человека, если таковое вообще имеется. Частично мы предполагаем, что люди не могут точно предсказать результаты лечения пациентов, поскольку может потребоваться анализ сложных, многомерных клинических данных.
Модели чрезвычайно экономичны. Разработка и поддержка решений машинного обучения обходятся дешевле, чем обучение новых врачей или их привлечение со всего мира.

Однако медицина, как известно, меняется медленно — в конце концов, за наши ошибки мы расплачиваемся разрушенными и потерянными жизнями. Медицинские регулирующие органы во всем мире проявляют осторожность. Возможно, это к лучшему. Готовы ли мы потерять «человеческое прикосновение»? Следующие проблемы обрисовывают самые большие препятствия на пути к этому холодному, расчетливому миру машин, управляющих медициной.

Проблема консенсуса

Почему два врача, которые оба обучались почти десять лет, а может быть, даже учились в одной медицинской школе, и которые оба посвятили свою жизнь специализации в какой-либо области, могут и часто так и делают, расходятся во мнениях относительно диагноза, прогноза и прогноза пациента? и лечение? Потому что, в отличие от таких приложений, как распознавание объектов и таких игр, как шахматы, где четко определены и правила, и условия успеха, врачи не могут видеть мир статичным и ясным. Доцент Марзие Гассеми из Массачусетского технологического института сказала по этому поводу: [1]

«Врачи знают, что значит быть больным, и у нас больше всего данных о людях, когда они болеют больше всего. Но мы не получаем много данных от людей, когда они здоровы, потому что тогда они с меньшей вероятностью обращаются к врачу».

Рассмотрим «Руководство по диагностике и статистике психических расстройств» (DSM), в котором заложены основы психических расстройств и условий их диагностики. DSM обновляется примерно каждые пять лет; условия диагностики переписываются, расстройства добавляются, изменяются или удаляются. Не говоря уже о том, что вокруг этого вопроса ведется множество споров: некоторые называют изменения сомнительными или ссылаются на политику, а не на благополучие пациентов. [7]

Также было отмечено, что в литературе существует пробел, когда дело доходит до сравнения прогнозов моделей и людей в таких областях, как травма, рак, нейрохирургия, депрессия, острое желудочно-кишечное кровотечение, сепсис, острая печеночная недостаточность, ишемический инсульт, термическое повреждение. и сердечно-сосудистые заболевания. Только в медицинской визуализации это хорошо документировано: во-первых, потому что доменное пространство четко определено; во-вторых, потому что рентгенологи обучены анализировать медицинские изображения в большей степени, чем врачи других специальностей; в-третьих, потому что данных больше, чем по другим специальностям. [2]

Проблема качества данных

В науке о данных мы должны быть вдвойне усердны в создании справедливых систем, которые эффективно работают среди групп людей. Можно подумать, что модели машинного обучения основаны на объективности и беспристрастности. Но кто предоставляет данные? Кто это маркирует? Мы лишь отодвигаем проблему на шаг назад; из испорченного набора данных получается искалеченная модель. Проблема не в машинном обучении как таковом, а в людях: люди иногда генерируют неверные данные, которые портят весь урожай.

Предвзятость широко распространена в клинических устройствах, вмешательствах и взаимодействиях. К ним относятся устройства, разработанные без учета пола, пола и цвета кожи; вмешательства, привносящие расовую принадлежность; диагнозы заболеваний, зависящие от пола или этнической принадлежности; и предвзятое взаимодействие между пациентами и медицинскими работниками. [9]

Мы должны помнить, что данные, используемые для обучения моделей, могут способствовать или усугублять существующие предвзятости. Тонкая грань такова: существует системное воздействие, вызванное дискриминацией и социально-экономическим неравенством; и все же существуют непримиримые различия между внимательным обращением с людьми разных рас и обоих полов. Примером ненужного неравенства (которое можно свести к минимуму) является то, что пульсоксиметры калибруются для светлокожих людей и не позволяют точно измерить насыщение кислородом при использовании на более темной коже. — И эти недостатки проявляются наиболее остро, когда уровень кислорода низкий — именно тогда, когда точные показания наиболее актуальны.

Например, во второй категории рак молочной железы поражает женщин гораздо чаще, чем мужчин, хотя он все же может случиться с представителями обоих полов; уровень смертности от рака кожи выше среди чернокожего населения, потому что его труднее обнаружить по уже темному пигменту и поэтому обычно диагностируют позже. Это пример необходимой дискриминации, и, как следствие, мы должны учитывать, что люди разных рас и обоих полов имеют разную предрасположенность к болезням и иногда нуждаются в разных лекарствах. Все это означает, что к людям следует относиться по-разному, чтобы здравоохранение было справедливым, и это трудно передать в моделях. Разработчики моделей должны найти хрупкий баланс между равенством обращения и равенством благосостояния.

Эта проблема только усугубляется сложностью сбора (и, что более важно, обеспечения доступности) больших объемов высококачественных данных. Во-первых, потому что данные о здравоохранении часто носят личный характер, и пациенты не хотели бы раскрывать их, если бы у них был выбор — в ЕС риск нарушения GDPR является достаточным наказанием, чтобы отговорить организации от попыток; во-вторых, потому что трудно получить финансирование и попросить врачей, которые и без того с трудом справляются со своей рабочей нагрузкой, предоставить данные более высокого качества; в-третьих, потому что у компаний, обладающих достаточным количеством данных, нет причин предоставлять исследователям бесплатный доступ, когда другие компании могут заплатить за это миллионы. Это просто недостаточно сильно стимулировано. [1]

Проблема пациентов

Нам решать, являются ли ложноположительные или ложноотрицательные результаты худшим злом — алгоритмы просто пытаются свести к минимуму оба этих показателя в зависимости от нашей команды. С одной стороны, если мы уменьшим количество ложноотрицательных результатов за счет большего количества ложноположительных результатов, то есть сделаем наши модели более строгими, то больше пациентов получат тревожные диагнозы, потенциально больше ненужных тестов и дополнительную порцию беспокойства. Лично я никогда не был поклонником сканирования всего тела именно по этой причине: даже у совершенно здорового человека могут обнаружиться пять или шесть отклонений, которые необходимо исследовать, что увеличивает затраты, истощает ресурсы и оказывает ненужное давление на персонал. С другой стороны, если мы сделаем модели более мягкими за счет большего количества ложноотрицательных результатов, у пациентов будут худшие результаты: больше смертей и диагнозы на более поздних стадиях. В последнее время медицина отдает предпочтение первому: в Великобритании отдельным людям предлагается плановая маммография и колоноскопия для предотвращения случаев рака на поздних стадиях. Это создает небольшую, но постоянную нагрузку на ресурсы системы здравоохранения, но предотвращает рак на поздних стадиях, который в противном случае потребовал бы гораздо больше ресурсов.

Пациенты также могли бы предпочесть более тесное взаимодействие с людьми, даже если бы результаты были лучше, если бы модель работала независимо от вмешательства врача. По той же причине, по которой люди больше боятся самолетов, чем вождения собственного автомобиля, несмотря на более высокий статистический риск. Следует также сказать, что даже если модели обладают большей предсказательной способностью (как по качественным, так и по количественным данным), вмешательство врача, который задает правильные вопросы и направляет пациента к лучшей формулировке его проблемы, более эффективно. Более того, точно так же, как ручной метод измерения артериального давления был «утрачен», когда стандартом стали машины, так и многие навыки могут исчезнуть, если мы пойдем по пути слепого доверия моделям, выполняющим тяжелую работу, ибо зачем радиологу существуют, когда алгоритм быстрее, точнее, не утомляет, не требует перерывов и не требует зарплаты?

Заключение

Медицина, возможно, никогда и во многих отношениях никогда не должна достичь точки, когда модели возьмут на себя роль единственного клинициста. Суть в том, что и ИИ, и люди могут внести уникальный вклад в прогнозирование результатов лечения пациентов, и они должны помогать друг другу в достижении своего рода конвергенции между ними. Если врачи должны верить в ИИ, то он должен быть чем-то большим, чем черный ящик, и должен объяснять, как он пришел к выводу, в большей степени, чем «так захотели данные». Только тогда врач сможет играть роль наставника, а модель станет рабочей лошадкой.

Как только эффективность прогнозирования будет оптимизирована посредством симбиоза человека и искусственного интеллекта, следующим важным шагом станет формулирование клинических рекомендаций, чтобы прогностическая информация была действенной. Это решающий шаг, поскольку сами по себе точные прогнозы не приведут к какому-либо реальному эффекту; скорее, сочетание точных прогнозов и соответствующих мер со стороны врачей будет иметь больший эффект. [2]

Врач без ИИ скоро станет скучным; но ИИ без врача навсегда слеп.