Автор: Захари дель Росарио
Теория вероятностей лежит в основе искусственного интеллекта, криптографии и статистики. Однако, как сказал философ Бертран Рассел, «Вероятность — это важнейшее понятие современной науки, особенно потому, что никто не имеет ни малейшего представления о том, что она означает».
Я преподаю статистику инженерам, поэтому знаю: хотя вероятность и крайне важна, она часто идёт вразрез с человеческой интуицией.
Теория вероятностей — это раздел математики, который описывает случайность. Когда учёные говорят о случайности, они имеют в виду события, происходящие по воле случая — например, подбрасывание монеты, — а не странные или необычные явления вроде человека, одетого в костюм зебры. Хотя у науки нет способа предсказывать такие странные события, вероятность позволяет предсказывать поведение в долгосрочной перспективе — то есть закономерности, которые проявляются при многократном повторении одних и тех же случайных событий.
Моделирование с помощью вероятности
Поскольку теория вероятностей имеет дело с событиями, учёный должен решить, какие именно события он будет изучать. Этот выбор определяет пространство исходов. Например, при подбрасывании монеты событием можно считать то, какой стороной вверх она упадёт.
Монеты почти всегда падают орлом или решкой. Однако возможно — хотя и крайне маловероятно — что монета приземлится на ребро. Поэтому, создавая пространство исходов, у вас есть два варианта: орёл и решка или орёл, решка и ребро. Пока что проигнорируем приземления на ребро и будем использовать в качестве пространства исходов только орла и решку.
Далее нужно назначить событиям вероятности. Вероятность описывает частоту, с которой событие происходит; она принимает значения от 0% до 100%. Например, при честном подбрасывании монета в среднем будет падать орлом в 50% случаев и решкой в 50% случаев.
Однако, чтобы назначить вероятности, нужно внимательно продумать ситуацию. Что, если человек, подбрасывающий монету, — мошенник? Существует хитрый приём, позволяющий подбрасывать монету таким образом, чтобы контролировать результат. Но даже если исключить возможность жульничества, реальные подбрасывания монеты чуть чаще приводят к тому, что она падает той стороной, которой изначально была обращена вверх — то есть если начать подбрасывание с орлом наверху, то с чуть большей вероятностью выпадет орел.
И в случае жульничества, и в случае реального подбрасывания нужно выбрать подходящее пространство исходов: начальная сторона и противоположная сторона. Чтобы получить честный бросок в реальных условиях, требуется дополнительный шаг — случайным образом, с равной вероятностью, выбирать, какой стороной монета будет обращена вверх перед броском, а затем уже подбрасывать её.
Эти допущения быстро накапливаются. Чтобы бросок был честным, нам пришлось игнорировать приземления на ребро, предположить, что никто не жульничает, и считать, что начальная сторона выбирается равновероятно. Вместе эти допущения образуют модель подбрасывания монеты со случайными исходами. Вероятность описывает долгосрочное поведение такой случайной модели. В случае модели монеты вероятность говорит нам о том, сколько монет из большого числа бросков упадут орлом.
Но вместо того чтобы использовать вероятностную модель, почему бы просто не решить задачу подбрасывания монеты с помощью законов физики? На самом деле учёные так и сделали, и физика показывает, что малейшие изменения скорости подбрасывания определяют, выпадет ли орёл или решка. Такая чувствительность делает исход броска непредсказуемым, поэтому наша вероятностная модель оказывается вполне подходящей.
Частота и вероятность
Вероятность отличается от частоты, которая представляет собой долю событий в последовательности. Например, если вы подбросили монету восемь раз и получили два орла, частота выпадения орлов составит 25%. Даже если вероятность увидеть орла при подбрасывании монеты равна 50% в долгосрочной перспективе, каждая короткая серия бросков будет давать разные результаты. Четыре орла и четыре решки — это наиболее вероятный исход из восьми бросков, но могут — и будут — встречаться и другие варианты.
Частота и вероятность совпадают только в одном особом случае: когда число наблюдений стремится к бесконечности. В этом смысле вероятность и описывает поведение в долгосрочной перспективе.
Применения в ИИ, криптографии и статистике
Вероятность полезна не только для предсказания исходов подбрасывания монеты. Она лежит в основе многих современных технологических систем.
Например, системы искусственного интеллекта, такие как большие языковые модели (БЯМ), работают на предсказании следующего слова. По сути, они вычисляют вероятность того, какие слова могут следовать за вашим запросом. Например, на запрос New York модель может предложить City или State, потому что в обучающих данных именно эти слова чаще всего идут после него.
Но поскольку вероятность описывает случайность, выводы БЯМ тоже случайны. Точно так же, как последовательность бросков монеты никогда не гарантирует одинаковый результат, если вы зададите языковой модели один и тот же вопрос несколько раз, вы, скорее всего, получите разные ответы. Фактически каждое следующее слово рассматривается как новый бросок монеты.
Случайность также имеет ключевое значение для криптографии — науки о защите информации. Для обеспечения безопасности данных криптографическая связь использует общий секрет, например пароль. Однако неожиданности самой по себе недостаточно для защиты, поэтому выбор необычного слова — плохой вариант пароля. Общий секрет безопасен только тогда, когда его трудно угадать. Даже если слово кажется неожиданным, настоящие слова легче угадать, чем последовательность символов, выбранных так же случайно, как при подбрасывании монеты для каждой буквы.
Гораздо более надёжный пароль можно создать, используя для случайного выбора символов на клавиатуре вероятность — а ещё лучше пользоваться менеджером паролей.
Наконец, случайность играет ключевую роль в статистике. Статистики отвечают за планирование и анализ исследований, чтобы максимально эффективно использовать ограниченные данные. Эта практика особенно важна при изучении медицинских методов лечения, потому что каждая точка данных представляет собой человеческую жизнь.
Золотым стандартом считается рандомизированное контролируемое исследование. Участников распределяют на получение нового лечения или стандартной терапии с помощью честного подбрасывания монеты. Может показаться странным назначать лечение случайно — словно бросок монеты решает судьбу человека. Однако непредсказуемость играет важную роль: она гарантирует, что ни один фактор — ни возраст, ни пол, ни раса, ни доход, ни что-либо ещё — не влияет на шанс получить лечение. Эта непредсказуемость помогает учёным убедиться, что наблюдаемый эффект вызван именно лечением, а не чем-то другим.
Так что же означает вероятность? Как и любая математическая конструкция, это всего лишь модель, а значит, она не может идеально описать мир. В рассмотренных примерах вероятность полезна для описания долгосрочного поведения и использования непредсказуемости для решения практических задач.
Оригинал: The Conversation











