Часть I
Большинство из нас в медицине знакомы с концепцией доказательной медицины (ДМ), которая основана на стандартах, разработанных несколькими международными организациями. По данным Медицины Джона Хопкинса
«Доказательная медицина — это объединение лучших научных данных с клиническим опытом и ценностями пациентов. Доказательная медицина — это междисциплинарный подход, в котором используются методы науки, техники, биостатистики и эпидемиологии, такие как метаанализ, анализ решений, анализ риска и пользы и рандомизированные контролируемые испытания».
Существует иерархия доказательств, из которых мы знаем, например, что корреляция не равна причинно-следственной связи, а обсервационные исследования являются менее надежной формой доказательств, чем рандомизированные контролируемые испытания (РКИ). В течение многих лет существовал набор стандартов для публикации в журналах обсервационных исследований (STROBE), РКИ (CONSORT) и систематических обзоров и метаанализов (PRISMA). Медицинские журналы с более высоким рейтингом требуют соблюдения этих стандартов.
Учитывая скорость, с которой машинное обучение (ML) и искусственный интеллект (AI) появились на сцене, возникает вопрос, принимаем ли мы известные стандарты для ML и AI? Данные свидетельствуют о том, что ответ в настоящее время отрицательный, и это тема этого блога. Я расскажу о некоторых стандартах и о том, о чем сообщалось в недавних литературных статьях.
За последнее десятилетие произошло резкое распространение медицинских прогностических моделей. Поскольку машинное обучение обычно фокусируется на прогнозной аналитике, нам нужно сначала взглянуть на существующие стандарты. Начнем с заявления Прозрачная отчетность многомерной модели прогнозирования для индивидуального прогноза или диагноза (TRIPOD). В рамках этой инициативы был создан контрольный список из 22 пунктов, которому следует следовать в качестве руководства для публикации. Большая часть информации является общей и простой, хотя они определяют, как обрабатываются отсутствующие данные и проверка модели. Систематический обзор диагностических исследований с использованием машинного обучения, опубликованный в марте 2020 года, рассмотрел приверженность TRIPOD для 28 статей, которые они рассмотрели. Ни одна из статей не придерживалась стандартов и не упоминала их. Важно отметить, что TRIPOD-ML и TRIPOD-AI находятся в разработке, поэтому, скорее всего, вскоре появятся более конкретные и строгие рекомендации.
Еще одним ценным набором руководств является Критическая оценка и извлечение данных для систематических обзоров исследований по моделированию прогнозов: Контрольный список CHARMS. Хотя этот контрольный список предназначен для опубликованных систематических обзоров, реальность такова, что контрольный список будет полезен для любой статьи по машинному обучению или искусственному интеллекту. Контрольный список состоит из тридцати пяти пунктов, организованных в одиннадцать разделов. Следует отметить, что в разделах, посвященных разработке, проверке и производительности моделей, содержится подробная информация об оптимальном способе проведения прогнозной аналитики, но по иронии судьбы именно в этих разделах так много статей не соответствуют действительности. Эти и другие детали будут обсуждаться во второй части этой серии.
За последние несколько лет появилось множество статей, в которых предполагалось, что ИИ не только эквивалентен врачам для интерпретации изображений, но иногда превосходит их. К сожалению, эти статьи только сейчас подвергаются критическому осмыслению. Многие из опубликованных исследований ИИ были доказательством концепций и не соответствовали существующим стандартам. Несколько недавних статей ясно показывают, что чрезмерно оптимистичные статьи, опубликованные с 2016 года, содержали существенные недостатки.
Во второй части мы обсудим некоторые особенности того, почему статьи по машинному обучению и искусственному интеллекту не соответствуют доказательной науке о данных.