Одноразовые тесты не способны уловить подлинное влияние искусственного интеллекта. Гораздо разумнее переходить к методам, в большей степени ориентированным на человека и учитывающим конкретный контекст.
Автор: Анджела Аристиду
На протяжении десятилетий искусственный интеллект оценивали через простой вопрос: способен ли он превзойти человека. От шахмат до высшей математики, от программирования до написания эссе — работу моделей и приложений ИИ сравнивали с тем, как ту или иную задачу выполняет отдельный человек.
Такая постановка вопроса выглядит заманчиво: сравнение искусственного интеллекта и человека при решении отдельных задач, имеющих однозначные правильные или неправильные ответы, легко стандартизировать, сопоставить и оптимизировать. Этот подход позволяет стандартизировать тесты, строить рейтинги и создавать громкие заголовки.
Но здесь возникает проблема: в реальности ИИ почти никогда не используют так, как во время тестов. Да, исследователи и индустрия уже начали совершенствовать методики оценки, переходя от статичных тестов к более динамичным подходам, но эти нововведения решают лишь часть задачи. Причина проста: они по‑прежнему оценивают ИИ вне тех человеческих команд и организационных процессов, в которых он действительно работает и раскрывает свой потенциал.
Пока ИИ проверяют на уровне отдельных задач в стерильном вакууме, в реальной жизни он действует в хаотичных, сложных условиях, взаимодействуя сразу с несколькими людьми. Его эффективность — или её отсутствие — проявляется только в ходе длительного использования. Это расхождение между тем, как ИИ тестируют, и тем, как он применяется, приводит к искажённому пониманию его возможностей, к недооценке системных рисков и к ошибочным выводам о его экономических и социальных последствиях.
Чтобы исправить ситуацию, пора перейти от узких методик к таким бенчмаркам, которые оценивают работу ИИ на длинных временных отрезках — внутри человеческих команд, рабочих процессов и организаций. С 2022 года я изучаю внедрение ИИ в реальных условиях: в малом бизнесе, в сфере здравоохранения, гуманитарных проектах и некоммерческих организациях, в университетах Великобритании, США и Азии, а также в ведущих экосистемах разработки ИИ в Лондоне и Кремниевой долине. На основе этих наблюдений я предлагаю иной подход — HAIC‑бенчмарки (Human–AI, Context-Specific Evaluation), то есть зависимую от контекста оценку взаимодействия человека и ИИ.
Что происходит, когда ИИ даёт сбой
Для правительств и компаний показатели тестов выглядят куда более объективными, чем заявления поставщиков технологий. Они становятся ключевым критерием, позволяющим решить, «достаточно ли хороша» модель ИИ для внедрения в реальную среду. Представьте себе модель, которая демонстрирует впечатляющие технические результаты на самых передовых тестах: 98‑процентную точность, рекордную скорость, убедительные ответы. Опираясь на такие показатели, организации могут решить внедрить эту модель, вложив значительные финансовые и технические ресурсы в её покупку и интеграцию.
Но затем, уже после внедрения, разрыв между бенчмарками и реальной работой становится очевидным почти сразу. Возьмём, к примеру, целый ряд моделей ИИ, одобренных Управление по контролю качества пищевых продуктов и лекарственных средств, которые читают медицинские снимки быстрее и точнее опытных радиологов. В радиологических отделениях — от калифорнийских клиник до лондонских больниц — я наблюдала, как сотрудники работают с высоко оценёнными ИИ‑системами.
И раз за разом оказывалось, что, чтобы сопоставить выводы ИИ с внутренними стандартами отчётности конкретной больницы и с требованиями национальных регуляторов, специалистам требовалось дополнительное время. То, что в условиях лабораторного тестирования выглядело как инструмент, повышающий продуктивность, на практике приводило к задержкам.
Вскоре стало ясно: те бенчмарки, по которым оценивают медицинские модели ИИ, вовсе не отражают того, как на самом деле принимаются клинические решения. В больницах всё держится на междисциплинарных командах — радиологах, онкологах, физиологах, медсёстрах, — которые совместно рассматривают каждого пациента. План лечения почти никогда не сводится к разовому, статичному решению: он меняется по мере появления новой информации — иногда в течение дней, иногда недель.
Решения рождаются в процессе обсуждения, в поиске компромисса между профессиональными стандартами, предпочтениями пациента и общей целью — его долгосрочного благополучия. Неудивительно, что даже высоко оценённые модели ИИ оказываются неспособны показать обещанную эффективность, когда сталкиваются с реальными клиническими процессами — сложными, коллективными, живыми.
Та же картина повторяется и в других сферах, которые я изучала: стоит ИИ оказаться внутри реальной рабочей среды, как даже те модели, что блестяще прошли стандартизированные тесты, перестают работать так, как обещано.
Когда высокие бенчмарк‑показатели не превращаются в реальную эффективность, даже самые «звёздные» модели быстро отправляются туда, что я называю «кладбищем ИИ». Потери при этом огромны: время, усилия и деньги оказываются потраченными впустую. А со временем такие повторяющиеся разочарования подтачивают доверие организаций к ИИ — и, что особенно опасно в критически важных областях вроде медицины, могут подорвать и общественное доверие к технологии в целом.
Когда существующие бенчмарки дают лишь частичный — а порой и вводящий в заблуждение — сигнал о готовности модели ИИ к реальному применению, это создаёт регуляторные слепые зоны: надзор опирается на метрики, которые не отражают действительности. В итоге организациям и государственным структурам приходится самим нести риски испытания ИИ в реальных условиях — зачастую при ограниченных ресурсах и минимальной поддержке.
Как создавать более надёжные тесты
Чтобы сократить разрыв между бенчмарками и реальной эффективностью, нужно учитывать те условия, в которых модели ИИ действительно будут работать. Ключевые вопросы таковы: способен ли ИИ стать продуктивным участником человеческой команды? И может ли он создавать устойчивую, коллективную ценность?
В ходе моего исследования внедрения ИИ в разных секторах я увидела: многие организации уже начинают — осознанно и экспериментально — двигаться в сторону тех самых HAIC‑бенчмарков, которые я предлагаю.
HAIC‑бенчмарки переосмысливают существующие методы оценки в четырёх ключевых направлениях:
- От индивидуальной и однотипной задачи — к работе команды и целого процесса (смена единицы анализа)
- От разового тестирования с правильными/неправильными ответами — к долгосрочным эффектам (расширение временного горизонта)
- От точности и скорости — к организационным результатам, качеству координации и обнаруживаемости ошибок (расширение метрик результата)
- От изолированных ответов — к анализу последствий «до» и «после» точки применения ИИ (системные эффекты)
Во всех организациях, где этот подход начал формироваться и применяться, первым шагом стало изменение самой единицы анализа.
Так, в одной из больничных систем Великобритании в 2021-2024 годах вопрос перестал звучать как «улучшает ли медицинское приложение ИИ точность диагностики» и превратился в более широкий: как присутствие ИИ внутри междисциплинарных команд влияет не только на точность, но и на координацию и процесс обсуждения. Больница специально сравнивала, как работают команды с ИИ и без него.
Несколько заинтересованных сторон — как внутри больницы, так и за её пределами — совместно определили метрики: влияет ли ИИ на коллективное рассуждение, помогает ли поднимать упущенные аспекты, усиливает или ослабляет координацию, меняет ли устоявшиеся практики управления рисками и соблюдения норм.
Этот сдвиг — принципиальный. Он особенно важен в сферах с высокими ставками, где системные эффекты значат больше, чем точность выполнения отдельной задачи. Он важен и для экономики: такой подход помогает скорректировать завышенные ожидания стремительного роста производительности, которые до сих пор опирались главным образом на обещание улучшить выполнение индивидуальных операций.
Когда эта основа заложена, HAIC‑бенчмаркинг может перейти ко второму измерению — времени.
Сегодняшние бенчмарки напоминают школьные экзамены: разовые, стандартизированные проверки точности. Но профессиональную компетентность оценивают иначе. Молодых врачей и юристов проверяют непрерывно, в реальных рабочих процессах, под наблюдением, с обратной связью и системой ответственности. Их квалификация оценивается во времени и в конкретном контексте, потому что компетентность — это всегда отношение, взаимодействие. Если ИИ должен работать бок о бок с профессионалами, то и его влияние нужно оценивать в динамике, отражая то, как его эффективность проявляется в ходе многократных взаимодействий.
Я наблюдала применение этого временного измерения HAIC в одном из гуманитарных проектов, которые изучала. В течение восемнадцати месяцев систему ИИ оценивали прямо внутри реальных рабочих процессов, уделяя особое внимание тому, насколько заметны её ошибки — то есть насколько легко команды могли их обнаружить и исправить. Такой долгосрочный «профиль обнаруживаемости ошибок» позволил организациям разработать и протестировать контекстно-специфические защитные механизмы, которые поддерживали доверие к системе, несмотря на неизбежность отдельных промахов.
Увеличение временного горизонта делает видимыми и системные последствия, которые краткосрочные бенчмарки попросту не фиксируют. Приложение ИИ может превосходить отдельного врача в узкой диагностической задаче — и при этом не улучшать работу междисциплинарной команды.
Хуже того, ИИ может вносить системные искажения: слишком рано «привязывать» команды к правдоподобным, но неполным ответам; увеличивать когнитивную нагрузку на людей; создавать последующие неэффективности, которые сводят на нет любые локальные выгоды в скорости или точности. Эти каскадные эффекты — почти всегда невидимые для нынешних бенчмарков — и есть ключ к пониманию реального воздействия ИИ.
Подход HAIC, конечно, делает оценку сложнее, дороже и труднее для стандартизации. Но если продолжать тестировать ИИ в стерильных условиях, оторванных от реальной работы, мы так и не поймём, что он действительно может — и чего не может — для нас сделать. Чтобы внедрять ИИ ответственно, нужно измерять то, что действительно важно: не только то, на что модель способна сама по себе, но и то, что она позволяет — или мешает — делать людям и командам в реальном мире.
Анджела Аристиду — профессор Университетского колледжа Лондона, а также приглашённый исследователь Стэнфордской лаборатории цифровой экономики и Стэнфордского института человеко‑ориентированного ИИ. Она выступает, пишет и консультирует по вопросам реального внедрения инструментов искусственного интеллекта на благо общества.
Оригинал: MIT Technology Review










