Медицина - это гуманитарная сфера знаний, где язык обеспечивает ключевые взаимодействия между врачами, исследователями и пациентами. Тем не менее, сегодняшние модели искусственного интеллекта (ИИ) для приложений в медицине в значительной степени не смогли в полной мере использовать язык. Эти модели, хотя и полезны, представляют собой преимущественно однозадачные системы (например, классификация, регрессия, сегментация), которым не хватает выразительности и интерактивных возможностей.
В результате возникает несоответствие между тем, что могут делать современные модели искусственного интеллекта, и тем, что можно ожидать от них в реальных клинических рабочих процессах. Недавние достижения в области больших языковых моделей (LLM) дают возможность переосмыслить системы искусственного интеллекта, используя язык как инструмент для опосредования взаимодействия человека и искусственного интеллекта. LLM - это 'базовые модели', большие предварительно обученные системы искусственного интеллекта, которые могут быть перепрофилированы с минимальными усилиями во множество областей и разнообразных задач. Эти выразительные и интерактивные модели открывают большие перспективы в своей способности извлекать общеполезные представления из знаний, закодированных в медицинских источниках знаний.
Существует несколько интересных потенциальных применений таких моделей в медицине, включая поиск знаний, поддержку принятия клинических решений, обобщение ключевых результатов, решение проблем, связанных с оказанием первичной медицинской помощи пациентам, и многое другое.
Прогресс в области больших языковых моделей (LLM) позволил исследовать возможности систем искусственного интеллекта (ИИ) в медицинской области, которые могут понимать язык и общаться с его помощью, обещая более насыщенное взаимодействие и сотрудничество между человеком и ИИ. В частности, эти модели продемонстрировали впечатляющие возможности в тестах исследований с множественным выбором.
Google Research представил последнюю модель Med-PaLM 2 на ежегодном мероприятии Google Health The Check Up в марте 2023 года. Точность системы Med-PaLM 2 при ответах на вопросы в стиле американского экзамена на получение медицинской лицензии (USMLE) составляет 86,5 %, что на 19 % превышает достижение предыдущей разработки Med-PaLM. По словам врачей, принимавших участие в апробации системы подробные ответы модели на медицинские вопросы значительно улучшились. В ближайшие месяцы Med-PaLM 2 также станет доступен для избранной группы клиентов Google Cloud для ограниченного тестирования, изучения вариантов использования и обмена отзывами, поскольку, чтобы создать безопасные, ответственные и значимые способы использования этой технологии. Это делается для разработки систем оценки, позволяющих исследователям осмысленно измерять прогресс, фиксировать и предупреждать потенциальный вред. Это особенно важно для LLM, поскольку неконтролируемое развитие этих моделей может привести к появлению поколений систем, не соответствующих клиническим и общественным ценностям. Они могут, например, «галлюцинировать» убедительной медицинской дезинформацией или включать предубеждения, которые могут усугубить неравенство в состоянии здоровья.
В предыдущей работе над системой Med-PaLM была продемонстрирована важность комплексного ориентира для медицинских ответы на вопросы, человеческая оценка модельных ответов и стратегии согласования в медицинской области. Был представлен MultiMedQA, разнообразный тест для ответов на медицинские вопросы, охватывающий медицинские осмотры, здоровье пациентов и медицинские исследования. Была добавлена рубрику "экспертная оценка", позволяющую врачам и непрофессионалам проводить детальную оценку типовых ответов.
При сравнении систем ИИ Med-PaLM и Med-PaLM 2 с помощью теста MultiMedQA, Med-PaLM получившей проходной балл по вопросам в стиле USMLE из набора данных MedQA с точностью 67,4%. Med-PaLM 2 еще больше улучшил этот показатель, достигая уровня 86,5%.
Важно отметить, что эта работа выходит за пределы точности множественного выбора, чтобы измерить и улучшить возможности модели при ответах на медицинские вопросы. Подробные ответы нашей модели были проверены по нескольким критериям, включая научную достоверность, точность, медицинский консенсус, аргументацию, предвзятость и вероятность возможного вреда, которые оценивались врачами и неклиницистами из разных стран и с разным опытом. И Med-PaLM, и Med-PaLM 2 продемонстрировали обнадеживающие результаты в трех наборах данных медицинских вопросов. В попарном исследовании ответы Med-PaLM 2 были предпочтительнее ответов врачей по восьми из девяти рассматриваемых осей.
Эти результаты демонстрируют быстрый прогресс, которого добиваются системы ИИ в области ответов на медицинские вопросы на уровне врача. Однако необходима дальнейшая работа по валидации, безопасности и этике, поскольку технология находит все более широкое применение в реальных приложениях. Потребуется тщательная и скрупулезная оценка и доработка в различных контекстах для ответов на медицинские вопросы и реальных рабочих процессов, чтобы гарантировать положительное влияние этой технологии на медицину и здоровье.