Наука 27.10.2016

Ключ к победе над раком — информация. Горы информации

Автор: Марк Уоррен

Несколько лет назад Эрик Шадт встретил женщину, у которой был диагностирован рак. Это была агрессивная форма рака толстой кишки, быстро распространявшая метастазы в печень. Она была молодой вдовой погибшего солдата из Миссисипи, матерью твоих девочек, которых растила одна, и имела только медицинскую страховку за погибшего мужа — в перегруженном военном онкогоспитале, самой низкой ступеньке лестницы американского здравоохранения и полярной противоположности ультрасовременной медицине. Для того, чтобы понять эту обстановку с 4 стадией метастатической болезни надо перенестись в прошлое — в мир, где не расшифрован человеческий геном, где представляли что рак толстой кишки должен иметь одну причину, а не миллион разных вариаций, где неправильное лечение означало яд, без разницы где бы вы ни находились — в Оушен Спрингс, Миссисипи или Тимбукту. Мир без «Биг дата», машинного обучения или какой-либо надежды.

Шадт только начал работу в Институте Геномики и Масштабной Биологии в госпитале Маунт Синай, и когда он услышал о женщине из Миссисипи, то просто сказал: «вот такого пациента мы и возьмём». Под «таким пациентом» он понимал тех, для кого текущие стандарты медицины недостаточны, и до которых ещё нескоро доберутся суперкомпьютеры, обрабатывающие массу генетических данных в поисках персонализированных методов лечения.

Шадт не был специалистом по лечению рака или даже врачом. Он — математик и специалист в молекулярной и вычислительной биологии, и в его жизни не было ни одного пациента. В своей новой лаборатории в Синае Шадт сгенерировал терабайт данных о раке этой женщины, в тысячи раз больше чем она могла бы ожидать в обычном медицинском учреждении, в надежде найти новые пути борьбы с болезнью. Ближе к концу Шадт растерянно сидел у её постели. Они стали близки, и учёный, у которого до этого не было пациентов, воочию наблюдал последствия научных крушения своих научных амбиций. Она умерла в прошлом году.

Сидящий за своим столом в Маунт Синай Шадт выглядит обезоруженным. В свои 51 он везде носит рубашки-поло с короткими рукавами, даже если надевает чёрный галстук или за нью-йоркским окном бушует зима, что придаёт ему вид настоящего чудака или футбольного тренера средней школы. Для любого медицинского исследователя проще быть бесстрастным когда ты публикуешь результаты исследований или разрабатываешь лекарства, исключая влияние человеческих чувств на свою работу. Но жить эффектом своей работы и наблюдать как кто-то медленно умирает перед тобой было «самым унизительным чувством которое я испытывал до этого» — сказал Шадт сегодня.

«Мы находимся постоянно на гребне растущей кривой, когда твой мозг естественным образом проецирует перспективы будущего, и ты думаешь: мы почти познали это» — говорит учёный — «в конце-концов мы поймём как действуют все эти клетки, весь механизм. Но самое унизительное, что чем дальше мы продвигаемся, тем больше поражаемся всё возрастающей сложности, что раскрывается перед нами».

Десятилетие мы говорим о потенциале секвенирования генов и персонализированной медицины, о том, как компьютерные мощности позволят нам всё лучше понимать наши индивидуальные геномы и мы вступим в эпоху чудес. Теория гласит, что при достаточном количестве информации нет неизлечимых болезней. Но, как понял Шадт, этого недостаточно чтобы проникнуть в глубины человеческого ДНК. Требуются целые универсумы информации — экзабайты — чтобы обнаружить закономерности в популяции, машинное обучение, поиск сети мутаций, ответственных за болезни и получить какой-то результат лечения. Чем больше у нас данных, тем более точные появляются модели и предикторы.

Проблема заключается в получении этих экзабайт генетических данных. Оказывается вы не можете просто подойти к людям, миллионам людей, и сказать: «предоставьте свои данные пожалуйста». Сначала требуется убедить их в том, что вы хотите только добра и не допустите передачи этих данных в неправильные руки (для всех нас важна наша частная жизнь). Далее вам требуется убедить медицинские центры и генетические компании, которые собирают эти данные, не запасать их исключительно для собственной выгоды а разделить со всем научным сообществом чтобы было возможно достичь критического масштаба данных — это, по мнению Шадта, необходимо для понимания и проектирования новых методов лечения и лекарств.

Прямо сейчас такого объёма данных просто не существует. Но компании — от техногигантов до биомедицинских стартапов — двигаются к решению этой проблемы за счёт масштаба. Как и хочет Шадт.

Вы должны убедить медицинские центры и генетические компании, которые собирают наши данные, не запасать их исключительно для своей собственной выгоды.

«Если биологическую сложность человека сравнить с анимационным мультфильмом, тогда сотню лет назад у нас был всего лишь один пиксель понимания этой сложности. С одним пикселем вы не сможете понять о чём история, но с большим количеством — если их сотни и тысячи, или, скажем, с одним процентом от всего их количества — закономерности и темы начинают проясняться. Становится ясным хотя бы начало нашего повествования».

Именно такие мысли вынудили Шадта перейти работать в Институт Икана в 2011 году после десятилетия работы над лекарствами в компании Merck (в половине лекарств которой есть вклад исследований учёного — препараты по лечению болезней сердца, диабета, ожирения). В условиях широко распространенных представлений, основанных на модели одного гена заболевания и разработки на основе этого лекарственных средств, он пришел к выводу, что гены работали не в одиночку, а с помощью обширных сетей, которые позволяли заболеванию проникать через нашу естественную защиту, и мы могли понять эти сети только через глубокий анализ с помощью биоинформатики. Чтобы исследовать свою комплексную модель, Шадт прибыл в Маунт Синай со 150 миллионами долларов, полученными от филантропа Карла Икана, и построил в подвале суперкомпьютер под названием Minerva чтобы анализировать тысячи геномов, собираемых Маунт Синай каждый год. Он нанял других разработчиков, в том числе Джеффри Хаммербахера, который создавал первую дата-команду фейсбука. По воспоминаниям одного из уважаемых онкологов, “внезапно вокруг появилось множество ботаников-математиков, которые выглядели будто программируют видеоигры”.

Нам требуются 100 таких Маунт Синаев чтобы достичь требуемого масштаба для обнаружения закономерностей в данных пациентов, которые позволят произвести диагностику и выработать лечение.

Шадту понадобилось не слишком много времени чтобы обнаружить, что ему требуется гораздо большая лодка. В 2014 году Институт Икана начал совместный проект с Sage Bionetworks чтобы попытаться найти лечение редких детских заболеваний — муковисцидоза, серповидно-клеточной анемии, Тея-Сакса — всего 170 видов. Они назвали это Проект Resilience, и начали искать представителей популяции, которые обладали вариантами ДНК, обуславливающими данные болезни, но из-за какого-то внутреннего буфера не болели ими. В поиске этих «устойчивых представителей» Шадт и его команда накопила пул генетических данных 600 тыс. человек, совершив самое большое генетическое исследование из тех что когда-либо проводились, с информацией, собранной из десятков источников (таких как 23andMe, институт геномики Пекина, институт Броада, Гарвард и многих других). Но при обработке всех этих данных исследователи обнаружили потенциально устойчивых индивидуумов только для восьми из 170 заболеваний, которые они изучали. Размер исследования оказался слишком мал. Однако подсчитав частоту болезнетворных мутаций в популяции Шадт и его команда пришли к пониманию, что требуемое количество субъектов для них — не 600 тыс., а более 10 миллионов. При всей вычислительной мощности проекта и огромном массиве данных оказалось, что Шадту до сих пор не хватало масштаба информации для взлома генетического кода устойчивости.

«Нам требуются 100 таких Маунт Синаев чтобы достичь требуемого масштаба для обнаружения закономерностей в данных пациентов, которые позволят произвести диагностику и выработать лечение» — говорит Шадт — «за 5 лет, что я нахожусь здесь, я обнаружил, что этого не произойдёт в медицинских центрах. Они слишком изолированы друг от друга, слишком сильно конкурируют и не связаны в сеть, которая позволяет достичь прорывов, которые мы видим почти во всех областях экономики». Поскольку крупные медицинские центры удерживают эффективную монополию на данные своих пациентов и имеют мало экономического стимула сотрудничать друг с другом в критических областях исследований, Шадт утверждает, что «прорыв произойдёт за пределами таких центров».

Поэтому учёный стремится построить свою компанию по сбору генетической информации, Sema4. Компания, расположенная в Нью-Йорке, сфокусируется на приобретении и расширении организаций, которые специализируются на генетическом тестировании – раковых скринингах и неинвазивных пренатальных тестах — чтобы собрать и изучить миллионы индивидуальных наборов данных. С помощью поисковой платформы Sema4 доктора смогут получить немедленный доступ к базе данных геномов чтобы поставить диагноз своим пациентам. Фармацевтические компании будут платить за использование системы для поиска групп пациентов для клинических испытаний. А нынешний аналитический арсенал учёных увеличится за счёт всё более мощных компьютеров и алгоритмов машинного обучения, и в конце концов обеспечит достаточное количество генетических данных для исследований.

Несмотря на то, что некоторые техногиганты вкладывают силы и средства в медицинские исследования (смотри вкладку ниже) а национальные институты здравоохранения привлекают миллионы добровольцев для формирования своей базы биоданных, Шадт верит, что Sema4 и другие стартапы вроде него — вроде Craig Venter’s Human Longevity и Patrick Soon-Shiong’s Nant-Health — скорее достигнут оптимального размера генетических баз данных. В то время как компании будут конкурировать друг с другом для сбора как можно больших массивов высококачественной биоинформации, Sema4 выделится, сделав свои библиотеки доступными и бесплатными для академических медицинских центров и некоммерческих исследователей по всему миру. Если же какому-то из конкурентов Sema4 надо будет получить информацию из данных Шадта, то, по словам учёного, достаточно будет просто заплатить за доступ к поисковой платформе. Или Sema4 и другие компании могут объединить силы чтобы создать ещё большие базы для реализации амбициозных проектов вроде Resilience.

Главные игроки на поле биоинформации

Как четыре техногиганта ведут разработки медицинских технологий. Автор вкладки — Грегори Барбер

Alphabet
Используя машинное обучение для своего исследования Baseline, команда Alphabet Verily Life Sciences работает над обработкой геномических, клинических и визуальных данных от тысяч здоровых волонтёров в надежде лучше понять что делает их здоровыми — знание, которое может помочь сохранить здоровье остальным.

IBM
В 70 годы Всемирная Организация Здравоохранения использовала оборудование IBM для отслеживания последних вспышек натуральной оспы. Сегодня компания сотрудничает с больницами для сбора данных для Watson, своей системы искусственного интеллекта. Целью является предсказание заболеваний, индивидуализация лечения и даже создание виртуальных медицинских ассистентов, которые могут осуществлять и анализировать данные болезней и исследований.

Apple
Используя ResearchKit компании из Купертино учёные могут собирать данные для клинических исследований, а также информацию о здоровье в реальном времени от владельцев айфонов. Весной компания добавила к своим инструментам CareKit, который позволяет пользователям Apple отправлять информацию о здоровье напрямую своим персональным врачам.

Microsoft
Компания разрабатывает крошечные датчики для ношения на коже, которые могут передавать биометрические данные на удалённые медицинские мониторы (и, в потенциале, масштабным агрегаторам данных). Microsoft также анонсировала свой план по использованию машинного обучения и биологических баз данных для «решения» (проблемы) рака.

Тем не менее, утверждает Шадт, проблема не может быть решена просто объединением данных компаний. «Речь идет о получении данных от самих пациентов.» В ходе работы в Маунт Синай он наблюдал увеличение количества людей в последние годы которые верят, что их врач должен знать их генетическую предрасположенность к определённым условиям. Он говорит что когда начал работать в 2011 году, эта больница проводила скрининг нескольких тысяч генетических образцов в год. В этом году они должны преодолеть отметку в 150000, большинство данных собраны от пациентов Нью-Йорка. Что касается Sema4, говорит Шадт, «мы намерены собирать от 500 тыс. до миллиона образцов в год».

Этот рост будет обусловлен покупкой и расширением существующих генетических компаний по всей стране, большинство из которых сейчас независимы друг от друга, но под руководством Sema4 создадут массивную сеть генетической информации, управляемую по единым стандартам безопасности и доступа. Шадт признаёт, что это непростая задача — уговорить человека передать свою биоинформацию анонимной корпорации. Несмотря на миллиарды долларов, потраченные государственным и частным сектором на модернизацию и обеспечение существующих сетей передачи данных, нарушения и утечки остаются фактом жизни. Но в случае с Sema4 пациенты в деталях узнают как их информация будет зашифрована, анонимизирована и лишена всякой идентификации. Даже в случае взлома шанс опознать кого-то окажется чрезвычайно низким.

Существует также проблема информационного согласия — понимания пациентами общей цели исследования — что влияет на качество и количество собираемых данных. «Сегодня есть компании, которые утверждают, что имеют доступ к миллионам данных пациентов» — объясняет Шадт — «но с точки зрения того, что мы намерены делать, они не имеют смысла. Эти данные часто неточны, неполны и не могут быть корректно соединены друг с другом. Плюс к этому, такие данные как правило не включают в себя доступ к ДНК или геномной информации, полученной из их ДНК». Взять к примеру Проект Resilience, это не просто вселенная данных, которая слишком мала — это было также 600 тысяч геномов которые собирались по разным стандартам. Если что-то жизненно-важное будет обнаружено, то с сотнями тысяч участников нельзя будет установить связь, делая эту информацию бессмысленной для практического использования в исследованиях.

На сегодняшний день большинство форм согласия разработаны таким образом, чтобы быть максимально быстрыми и неинформативными, но вместо того, чтобы облегчить работу исследователей по получению данных более высокого качества, такой подход её лишь затрудняет. Исследования демонстрируют, что чем более информированы участники, тем лучше предоставленная информация, потому как пациенты больше настроены участвовать в последующих мероприятиях если они понимают их цели (это также позволяет учёным отслеживать здоровье и общее состояние в течение длительного времени). В Sema4 Шадт внедряет многоступенчатый информационный процесс вместе с обязательным для прохождения тестом, который демонстрирует, что пациенты в полном объёме понимают то, на что соглашаются. Это займёт у пациентов больше времени, но Шадт считает, что чем лучше пациент понимает цели, тем большее количество согласится предоставить генетическую информацию.

С этой цифровой инфраструктурой Шадт надеется, что в будущем всё больше и больше пациентов предоставят не только геномы но и медицинскую информацию, а также данные об образе жизни, собранные с помощью девайсов вроде глюкометров, трекеров кровяного давления и ингаляторов. Есть надежда на то, что, в конечном счете, эти более сложные, все более и более удобные для пациента тесты будут настолько всеобъемлющими, что микробиом пациента будет регулярно секвенироваться, а РНК и клетки крови постоянно проверяться на наличие проблем.

Виртуальная монополия таких медицинских центров как Маунт Синай будет уничтожена, и исследователи наконец получат доступ к массе генетической информации, что обеспечит медицинский прорыв в будущем. «Можем ли мы сделать лучше человеческое существование если информация станет более широко доступна и мы объединим умственный потенциал всей планеты для понимания модели заболеваний?» — вопрошает Шадт — «Абсолютно». Медицина как и математика будет строится не на догадках, а каждое заболевание — даже четвёртая стадия рака — однажды сможет быть вылечено.

Оригинал: Wired

Понравился текст? Поддержите наш проект!

или напрямую на яндекс-кошелёк 410011404335475

Половина взрослых американцев - в полицейских базах данных по распознаванию лиц

Низкотехнологичный путь колонизации Марса

Добавить комментарий Отменить ответ

Присоединяйтесь к нам на Facebook

Информация для правообладателей / Copyright notice

Последние <span>истории</span>

Psyche: как получать удовольствие от своих проблем

Architectural digest: каково это — жить в «самом одиноком доме в мире»

Scientific American: для древних майя солнечные затмения означали столкновение богов

The Atlantic: добро пожаловать обратно в детство

The Verge: нейросеть теперь может вас слышать

Futurism: Ubisoft показала NPC с искусственным интеллектом, который может вдумчиво отвечать игроку

The Atlantic: вот почему Оппенгеймер станет лучшим фильмом года

Mental Floss: 11 страшных городских легенд, которые оказались правдой