Почему Hadoop идеально подходит для секвенирования генома

Видео: Меняет ли коронавирус геном человека? Открытый научный семинар с Константином Севериновым.

Содержание

Настоящее и будущее геномики
Потребности индустрии картирования генома
Что ожидается в решении?
Почему Hadoop - лучшее решение для секвенирования генома
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Что еще может сделать Hadoop?
Возможности для Hadoop
Арбалет: платформа управления данными следующего поколения
Другое программное обеспечение для геномики на основе Hadoop
Заключение

Источник: A3701027 / Dreamstime.com

вынос:

Для секвенирования генома требуются мощные технологические инструменты для обработки всех его данных, и Hadoop справляется с этой задачей.

Клиническая геномика - увлекательный предмет, где люди работают над передовыми технологиями, чтобы обрабатывать быстрые и точные результаты. На рынке доступно много секвенаторов генома, и они производят петабайты данных о последовательностях, и в ближайшем будущем рост секвенирования приведет к эксабайтам данных. Здесь Hadoop является идеальной платформой для обработки сложных рабочих процессов геномики. Hadoop может хранить и сортировать огромные объемы информации, а также проводить содержательный анализ. (Чтобы получить представление о том, сколько данных в действительности это влечет, прочитайте раздел «Понимание битов, байтов и их кратных значений».)

Настоящее и будущее геномики

Сегодня картирование генома достигло своего пика развития. Многие люди, связанные с индустрией геномики, разрываются от любопытства, и, поскольку появляются новые возможности, потребность в более совершенных технологиях. Секвенирование генома является очень повторяющейся и ресурсоемкой задачей. Только в 2013 году было получено около 15 петабайт данных, и только 2000 секвенсоров. Это потрясающее количество включало 300 КБ секвенированных данных генома человека. При такой скорости производства данных можно предположить, что к 2018 году будет произведено около одного эксабайта данных. Это будет связано с ростом количества секвенсоров, которые будут генерировать все больше и больше данных за цикл. Другая причина - появление чрезвычайно мощных и недорогих секвенаторов для генома. С 2008 года цена на эти машины неуклонно снижается. Это из-за мощных машин следующего поколения, которые вышли на рынок.

Потребности индустрии картирования генома

Сложные алгоритмы используются для обработки данных, которые собираются из генома человека. Затем эта информация должна быть сохранена. Это может быть рассмотрено в будущем для сравнения с исходными данными. Задача обработки и хранения 100 ГБ данных не слишком сложна, особенно если вы выполняете ее на мощных машинах, используемых в центрах секвенирования. Исследования показывают, что этот объем данных может быть обработан всего за 1000 часов ЦП, так что это очень просто. При таком уровне технического прогресса становится очевидным, что индустрия генома скоро обработает тысячи гигабайт всего за несколько секунд.

Однако методы управления и хранения данных развиваются не так быстро, из-за чего можно ожидать значительную потерю ценных данных. Это действительно нежелательно, так как это серьезно затруднит прогресс, достигнутый в человеческой геномике. Таким образом, потребность в эффективной технике управления данными, которая может быть легко обновлена, очень высока. Это может быть эффективным, особенно в ближайшем будущем, когда картирование генома перейдет от больших лабораторий с мощными компьютерами к маленьким больницам и лабораториям.

Что ожидается в решении?

Темпы открытия и разработки новых методов геномного секвенирования чрезвычайно высоки. Этот темп может быть очень полезным для медицинской науки в виде мощного шага на пути к ликвидации основных заболеваний. Тем не менее, этот темп может быть очень сложным.

Задача заключается в управлении большими объемами данных, создаваемых проектами секвенирования. Таким образом, необходимо эффективное решение, которое поможет с хранением и обработкой больших данных. Это решение должно быть дешевым и быстрым, а также адаптивным. Анализ, предоставленный этим решением, также должен быть точным и постоянным. Итак, каково решение проблемы? Несомненно, это Hadoop. (Дополнительные сведения об использовании Hadoop см. В разделе 5 «Взгляд на большие данные (Hadoop) как сервис».)

Почему Hadoop - лучшее решение для секвенирования генома

Геномика нуждается в превосходном решении, которое может помочь им эффективно управлять данными, обрабатывать их и хранить для будущего использования. Это решение идеально подходит для программного обеспечения Hadoop. Таким образом, Hadoop можно считать идеальным программным обеспечением для управления большими данными, которое может значительно улучшить современные методы хранения данных в отрасли геномики.

Возможности Hadoop в реальном времени позволяют секвенаторам генома одновременно анализировать и хранить большие объемы данных в реальном времени. Это также позволяет использовать данные в будущем. Hadoop может побить многие устаревшие системы, поскольку он намного быстрее и надежнее их.

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Что еще может сделать Hadoop?

Благодаря Hadoop открылось большое количество возможностей и возможностей в области геномики и секвенирования генов. Hadoop предлагает варианты параллельных вычислений, благодаря которым возможно более быстрое секвенирование. Кроме того, используя функцию MapReduce Hadoop, можно легко отобразить большое количество генов. Из-за этого последовательность с Hadoop действительно станет «следующим поколением» и будет намного менее сложной.

Возможности для Hadoop

У Hadoop есть несколько возможностей в индустрии геномов, но лучшая из них была получена из статьи Линды Чин «Осмысление геномных данных рака» в журнале Genes & Development. В этой статье она обсуждает, как современная геномика открыла новые двери, и это привело ко многим положительным результатам, таким как открытие геномной информации о раке. Благодаря этому мы ближе к открытию лекарства от самого рака. Тем не менее, это требует немного большего внимания и мощного приложения для управления данными для улучшения исследовательских возможностей в этой области. Это может быть лучшей возможностью для Hadoop доказать свою скорость, мощность и точность.

Арбалет: платформа управления данными следующего поколения

Crossbow, программный конвейер, предназначенный для анализа повторного секвенирования генома, является одним из лучших решений. Это было результатом интеграции в Hadoop между быстрым алгоритмом для выравнивания секвенированных данных, который называется Bowtie, и мощным алгоритмом, который сравнивает и анализирует секвенированные данные, то есть генотип с именем SoapSNP. Он построен на Apache Hadoop и основан на реализации инфраструктуры MapReduce. Арбалет является портативным, масштабируемым и также подходит в качестве инструмента облачных вычислений.

Благодаря этой мощной интеграции полный геном может быть исследован всего за один день на локальном кластере, имеющем 10 узлов. С кластером из 40 узлов процесс еще быстрее и завершается всего за три часа с общей стоимостью менее 100 долларов! Исследование, проведенное для проверки точности арбалета, показало, что он может сравнивать каждый геном с точностью 99%. Еще одна полезная особенность арбалета в том, что он работает на облаке. Таким образом, Crossbow позволит тысячам будущих секвенирующих центров, таких как больницы, упорядочивать большие объемы данных генома без необходимости в каких-либо мощных, дорогостоящих компьютерах и технологиях.

Другое программное обеспечение для геномики на основе Hadoop

Многие компании осознали силу Hadoop в изменении мира геномики. Они соответствующим образом модифицировали Hadoop, чтобы использовать его потенциал для расширенного секвенирования генома. Ниже приведены некоторые примеры известных решений для секвенирования генома на основе Hadoop:

Hadoop-BAM: это мощный инструмент управления данными, который использует функцию MapReduce Hadoop для различных действий, связанных с геномикой, таких как генотипирование. Это работает в формате Binary Alignment / Map.
Cloudburst: это решение на основе Hadoop было создано в 2009 году. Оно чрезвычайно эффективно при сравнении последовательностей генома и картировании отдельных генов. Это также одно из первых приложений на основе Hadoop, разработанных для этой цели.

Заключение

Интеграция между большими данными и индустрией геномики в наше время оказывается благом. Эти платформы эффективны в обнаружении лечения нескольких заболеваний, таких как рак. Данные, которые обнаруживаются при картировании генома, могут использоваться для формулирования профилактической информации о таких заболеваниях. Появление больших данных можно рассматривать как поворотный момент в мире геномики, и если информация используется разумно, то, возможно, и в более широкой области здравоохранения. Единственный способ продвинуться в этой области - это использовать надлежащие инструменты управления данными, такие как Hadoop.