Движение вперед: движение за пределы традиционного

вынос: Ведущий Эрик Кавано обсуждает инновации в технологии баз данных с экспертами Дезом Бланчфилдом, Робином Блором и Берт Скальцо.

Вы не вошли в систему. Пожалуйста, войдите или зарегистрируйтесь, чтобы увидеть видео.

Эрик Кавана: Дамы и господа, сегодня среда, в четыре часа по восточному времени. Я в Новом Орлеане, лето наступает, значит, жарко! Настало время для «горячих технологий», да, действительно, да, действительно. Меня зовут Эрик Кавана, я буду вашим хозяином. Я собираюсь отбить мяч назад за Горячие Технологии. Сегодняшняя тема: «Прямой импульс: выход за пределы традиционного». Ребята, сегодня у нас есть три эксперта по базам данных, поэтому любые ваши вопросы, даже самые сложные, не стесняйтесь. Сегодня у нас есть куча хорошего контента. Есть место о твоем правде, достаточно обо мне. Конечно, в этом году жарко. Мы говорим все о горячих технологиях в этом шоу, которое является партнерством с нашими друзьями из Techopedia. И мы идем до самого основания управления информацией сегодня, которое, конечно, является базой данных. Мы поговорим о том, как мы попали сюда, что происходит сегодня и что происходит дальше. Происходит много очень интересных вещей.

Очевидно, у нас есть некоторые серьезные инновации в области базы данных. Какое-то время было тихо; Если вы поговорите с некоторыми аналитиками в бизнесе, я бы сказал, что, вероятно, с 2005 по 2009 год или с 2010 года, похоже, что с точки зрения инноваций не так уж много происходит.И внезапно он только что вспыхнул, как джейлбрейк или что-то в этом роде, и теперь происходит много всего интересного. Многое из-за масштаба сети и всех интересных веб-свойств, которые делают разные интересные вещи. Вот откуда появилась концепция NoSQL. И это означает две разные вещи: это означает отсутствие SQL, поскольку он не поддерживает SQL, это также означает не только SQL. Есть термин «NewSQL», который использовали некоторые люди. Но очевидно, что SQL - язык структурированных запросов - действительно является основой, основой запросов.

И интересно, что все эти движки NoSQL, что случилось? Ну, они вышли, было много волнения об этом, а потом, спустя несколько лет, что мы все начали слышать? О, SQL на Hadoop. Все эти компании начали использовать интерфейсы SQL на своих инструментах NoSQL, и любой, кто находится в мире программирования, знает, что это может привести к некоторым проблемам и трудностям, к некоторым перекрещенным проводам и так далее. Итак, сегодня мы узнаем о многих подобных вещах.

У нас три докладчика: нам звонит Дез Бланчфилд из Сиднея, наш собственный Робин Блур, который находится в Техасе, и Берт Скальцо, он тоже в Техасе. Итак, прежде всего мы услышим от Деза Бланчфилда. Ребята, мы будем чирикать в хэштеге #HotTech, так что не стесняйтесь оставлять свои комментарии, свои вопросы через компонент вопросов и ответов консоли веб-трансляции или даже через окно чата. И с этим, Дез Бланчфилд, забери это.

Дез Бланчфилд: Спасибо, Эрик. Привет всем. Итак, я попытаюсь установить сцену с точки зрения 30 000 футов, вроде того, что произошло за последнее десятилетие, и значительных сдвигов, которые мы наблюдали - или, по крайней мере, полтора десятилетия - системы управления базами данных, а также некоторые воздействия с коммерческой или технической точки зрения, а также некоторые из тенденций, которые мы пережили в последнее время, и ведут нас к разговору, который мы собираемся провести сегодня по этой теме.

Мое изображение на обложке здесь - песчаная дюна, и сверху ее дует ветер с крошечными кусочками песка. И в результате этого песчаная дюна медленно перемещается из одного пространства в другое. И это удивительное явление, когда эти огромные песчаные горы высотой 40 и 50 футов фактически движутся. И они двигаются очень медленно, но они движутся наверняка, и, двигаясь, они меняют ландшафт. И это очень интересно, если вы проводите какое-то время в районе, где песчаные дюны являются естественным явлением. Потому что однажды вы можете посмотреть в окно и понять, что эта огромная песчаная гора, маленькие крошечные зерна, по сути, сами переместились, и что ветер медленно перемещает ее из одного места в другое.

И я думаю, что во многих отношениях это был мир систем баз данных в течение достаточно долгого времени. Еще совсем недавно этот очень маленький сдвиг в виде песчинок переместил гигантскую песчаную гору в виде песчаной дюны. С годами небольшие сдвиги произошли в платформах баз данных, и это была довольно стабильная и надежная среда вокруг систем баз данных и платформ на протяжении мейнфрейма эпохи среднего уровня. Но в последнее время у нас произошли довольно важные вещи с нашими коммерческими потребностями и нашими техническими драйверами. Я собираюсь провести нас через это.

У меня есть мнение, что основная концепция базы данных, какой мы ее знали в течение многих, многих лет, и, как вы, возможно, слышали во время предварительной выставки, наши два эксперта, которые сегодня находятся на связи со мной, прожили всю жизнь в это пространство, и они совершенно правы в том, что разделяют права хвастаться тем, что были там, когда все это началось в начале 80-х. Но мы видели этот огромный сдвиг за последнее десятилетие и немного, и я собираюсь быстро провести нас до того, как передать его доктору Робину Блуру.

Мы прошли через то, что я называю опытом «больше, лучше, быстрее, дешевле». Как я уже сказал, определение базы данных изменилось. Ландшафт, в котором платформы баз данных должны были учитывать производительность, а также технические и коммерческие требования также изменились. Мы наблюдаем рост спроса на решения для решения либо более сложных коммерческих, либо более сложных технических требований. И поэтому очень быстрый взгляд на то, что это на самом деле означает, на мой взгляд, состоит в том, что мы подошли к 90-м годам, и мы увидели технологию баз данных, на которую повлияло появление Интернета, и то, что мы тогда называли Интернетом. масштаб. Мы не просто говорили о людях, сидящих перед терминалами, первоначально подобных терминалам телетайпа со встроенными физическими модулями и 132 колонками, выходящими на бумаге. Тогда рано зеленый экран терминалов, пробивая с клавиатуры.

Но вы знаете, наш мир был терминалами и последовательными кабелями или сетевыми кабелями, которые долго общались с компьютерами. Затем появился Интернет и этот взрывной рост числа подключений, так что вам больше не нужно было подключаться к компьютеру. Чтобы попасть в систему баз данных, вам просто нужен веб-браузер. Таким образом, технологии баз данных должны были кардинально измениться, чтобы иметь дело с масштабом всего, от базовых технологий поисковых систем, которые использовались для индексации мира и хранения индекса информации, на примере масштаба формата базы данных. И такие люди, как Google и другие, предоставили платформу для этого. И все новые типы хранения баз данных и запросов и индексации были произведены. А потом у нас были музыкальные сайты и кино сайты.

А затем, в 2000-х годах, мы увидели бум доткомов, который вызвал еще более драматический взрыв числа людей, использующих системы, которые неизменно питались базой данных некоторой формы. На этом этапе реляционные базы данных по-прежнему справлялись с большей частью нагрузки, мы просто перекладывали их на большие объемы и переходили к очень, очень, очень крупным средним системам, работающим на платформах Unix, от таких людей, как IBM, Sun и так далее. , Бум доткомов только увеличил и ускорил ситуацию с точки зрения аппаратного обеспечения и производительности, и в движках баз данных произошли некоторые существенные изменения, но, к лучшему, это было то же самое, что мы видели в много времени.

И тогда мы получили эту эру web 2.0, как мы на нее ссылаемся. И это был чудовищный сдвиг, потому что внезапно нам понадобились гораздо более простые платформы баз данных, и должен был быть масштаб в горизонтальной форме. И это был настолько значительный сдвиг в том, что мы подошли к идее о том, что такое база данных. Мы все еще действительно догоняем сейчас, на мой взгляд. И теперь мы имеем дело со всем этим трясиной, и я говорю это с позитивным оттенком, а не с негативным оттенком, с этим трясиной, которую мы называем большими данными, и огромным взрывом, и я имею в виду взрыв. Это возмутительное смещение по вертикали на графике количества вариантов, которые мы имеем, когда мы говорим о базе данных, и некоторой форме возможностей реляционных запросов.

И что интересно, лично я считаю, что большие данные - это только верхушка айсберга. Мы, как правило, немного волнуемся о влиянии больших данных и типах вариантов, которые у нас есть сейчас. У нас есть все от движков NoSQL, у нас есть графические движки, у нас есть все эти разные типы платформ, на которые мы можем генерировать данные и что-то с ними делать. Даже до такой степени, что на самом деле одна из самых первых моих бесед с Эриком Кавана, который находится здесь с нами сегодня, была вокруг разговора, касающегося вещи под названием Apache Drill, которая является проектом с открытым исходным кодом, который позволяет вам делать запросы Данные внутри модели различаются по типам данных: от необработанных файлов CSE на жестком диске до файловых систем HDFS в петабайтном масштабе. И вы знаете, это позволяет вам выполнять эти запросы в стиле SQL со структурированными и неструктурированными данными всех видов захватывающих растений.

Мы собираемся сделать так, чтобы «умное здание» стало чем-то особенным, и мы хотели бы думать, что у нас есть умные здания безопасности и управления теплом, но я говорю об умных зданиях, которые знают гораздо больше о том, кто вы есть и где вы находитесь, когда вы входите и делаете все виды аккуратных вещей на этом уровне, вплоть до умных городов - целых экосистем на уровне городов - которые знают, как делать вещи разумно. И кроме того, у нас есть эта невероятная вещь, которую, я не думаю, что кто-либо в мире полностью осознал, и это форма Интернета вещей. За последнее десятилетие произошли все эти различные изменения, и, если мы округлим их, немного, может быть, примерно два десятилетия, которые, на мой взгляд, как-то повлияли на мир того, что мы считаем базами данных.

Было несколько важных вещей, которые сделали это возможным. Стоимость жестких дисков значительно снизилась, и во многих отношениях это позволило использовать некоторые эталонные архитектуры, такие как модель Hadoop, так как мы берем большое количество данных и распределяем их по множеству жестких дисков, и делать умные вещи с ним. И, по сути, то, что стало осколком, на мой взгляд, реляционной базы данных или традиционной модели блоков БД. А оперативная память стала очень, очень дешевой, и это дало нам совершенно новую возможность играть с различными эталонными архитектурами, такими как оперативная память, и выполнять такие вещи, как разделение очень, очень больших кусков данных.

Таким образом, это дало нам маленькую картину, на которую мы сейчас смотрим, - это диаграмма, которая показывает типы платформ, которые доступны, если вы находитесь в среде больших данных. И это очень, очень трудно читать, и причина тому, слишком много информации об этом. Существует так много вариантов изготовления, моделирования и изготовления способов размещения данных в системах баз данных любой формы, запроса и выполнения традиционных операций чтения-записи. И они не все совместимы, на самом деле очень немногие из них даже соответствуют каким-либо базовым стандартам стиля, но они все еще считают себя базой данных. И я собираюсь показать вам пару экранов в секунду, чтобы дать вам некоторое представление о том, что я подразумеваю под переходом от 90-х годов и масштабами интернета к веб-версии 2.0, а затем - с ростом больших данных. Если мы думаем, что этот граф ландшафта с технологией больших данных впечатляет, потому что на нем много опций, давайте просто взглянем на одну ключевую вертикаль.

Давайте посмотрим на маркетинговые технологии. Вот варианты для систем управления базами данных или управления данными внутри только мар-тек пространства, поэтому технологии связаны с маркетингом. Это было в 2011 году, несколько лет назад; пять лет назад так выглядел пейзаж. Если я кратко вернусь на один слайд, это то, как выглядит современный ландшафт данных в различных брендах и предложениях, которые мы получаем в технологиях баз данных. Вот как пять лет назад выглядела одна вертикаль, только в маркетинговой технологии.

Теперь, если я перейду к сегодняшнему взгляду, это то, на что это похоже, и это совершенно непроницаемо. Это просто стена брендов и опций, и это тысячи и тысячи комбинаций программного обеспечения, которое считает себя частью класса базы данных, которое может захватывать, создавать или хранить и извлекать данные в различных формах. И я думаю, что сейчас мы вступаем в очень, очень интересное и смелое время, когда когда-то вы могли знать основные бренды, вы могли знать пять или шесть различных платформ от Oracle и Informix, DB2 и так далее, и быть почти эксперт по всем брендам, которые были доступны около 20 лет назад. Десять лет назад стало немного легче, потому что некоторые бренды обвалились, и не все бренды могли справиться с масштабом бума доткомов, а некоторые компании просто обанкротились.

Сегодня абсолютно невозможно быть экспертом по всем существующим технологиям баз данных, будь то реляционные базы данных или стандартные платформы управления базами данных, которые мы узнали за последние пару десятилетий. Или, скорее всего, дело в более современных двигателях, таких как Neo4j и тех типах. И поэтому я думаю, что мы вступаем в очень смелый мир, где доступно множество вариантов, и у нас теперь есть платформы в горизонтальном масштабе, либо в оперативной памяти, либо на диске. Но я думаю, что это сложное время для тех, кто принимает решения в области технологий и бизнеса, потому что им нужно принимать очень важные решения по технологическим стекам, которые в некоторых случаях существовали всего лишь несколько месяцев. Восемнадцать месяцев - не страшное число для некоторых из самых захватывающих и новых платформ баз данных с открытым исходным кодом. И они начинают объединять платформы и становятся еще более новыми и захватывающими.

Я думаю, что сегодня у нас будет отличный разговор о том, как все это повлияло на традиционные платформы баз данных и как они реагируют на это, а также о типах технологий, которые используются при этом. И с учетом этого я сейчас перейду к доктору Робину Блуру и узнаю его мнение. Робин, к тебе.

Робин Блур: Хорошо, спасибо за это. Да, это слишком большая тема. Я имею в виду, если бы вы просто взяли одну из иллюстраций, которые только что показала вам Дез, вы могли бы долго поговорить об одной из них. Но вы знаете, вы можете обращаться к базе данных - я смотрел базы данных, я не знаю, с 1980-х годов, и вы можете смотреть на базу данных по-разному. И одна из вещей, которые я рассчитывал сделать, просто добавив сегодня разговор, - это рассказать о причине, по которой разрушительные вещи произошли на уровне аппаратного обеспечения. И вы должны иметь в виду, что на уровне программного обеспечения действительно произошло очень много разрушительных вещей, так что это не полная картина чего-либо, это просто аппаратная вещь.

Я не собирался говорить слишком долго, я просто хотел дать вам аппаратную картину. База данных представляла собой возможности поиска данных, охватывающие процессор, память и диск, и это резко меняется. И причина, по которой я это сказал, заключалась в том, что я научился понимать базу данных с точки зрения того, что вы на самом деле сделали. Вы знаете, что существует разница в задержке между данными, фактически находящимися в ЦП, и данными, извлекаемыми в ЦП из памяти, и данными, извлекаемыми с диска в память и через ЦП. И старые архитектуры баз данных просто пытались сбалансировать это. Вы знаете, они просто говорили: «Ну, это идет очень медленно, мы будем кэшировать данные на диске, чтобы они были в памяти. Мы постараемся сделать это очень точно, чтобы действительно хорошая часть запрашиваемых нами данных уже находилась в памяти. И мы перенесем данные на процессор так быстро, как сможем ».

И базы данных были написаны в старые времена, машины написаны для небольших кластеров. А теперь для невежественных параллелей. Потому что, если вы хотите получить некоторую производительность от кластера, вам придется параллельно выполнять различные действия. Параллелизм - это часть игры, совсем не такая, как сейчас. Я просто пройдусь по тому, что произошло.

Прежде всего, диск. Ну, диск окончен, правда. Это в значительной степени закончилось в отношении баз данных. Я думаю, что есть много минусов в архивировании данных, и даже на очень больших озерах данных, работающих на Hadoop, худший вращающийся диск, вероятно, жизнеспособен в настоящее время. Действительно, проблема с вращающимся диском заключалась в том, что скорость чтения не сильно улучшалась. И когда процессор увеличивал скорость закона Мура, на порядок выше, каждые шесть лет. И память как бы следовала за ней, затем эти двое разумно шли в ногу друг с другом, это было не совсем гладко, но они это сделали.

Но случайное чтение на диск, где голова летит вокруг диска, я имею в виду, кроме всего прочего, это физическое движение. И если вы делаете случайное чтение с диска, это невероятно медленно по сравнению с чтением из памяти, это примерно в 100 000 раз медленнее. И сравнительно недавно, большинство архитектур баз данных, которые я рассматривал в любой глубине, на самом деле просто последовательно читали с дисков. Вы действительно хотите, так или иначе, просто кэшировать как можно больше с диска, вынуть его из этого медленного устройства и поместить его в быстрое устройство. И есть много умных вещей, которые вы можете сделать с этим, но с этим покончено.

И твердотельные диски, или флэш-накопители, действительно, то, что они есть, очень быстро заменяет вращающийся диск. И это снова полностью меняется, потому что способ организации данных на диске организован в соответствии с тем, как работает диск. На самом деле речь идет о головке, движущейся по вращающейся поверхности, фактически о нескольких головках, движущихся по нескольким вращающимся поверхностям, и собирающих данные по мере их движения. Твердотельный накопитель - это просто блок материала, который вы можете прочитать. Я имею в виду, во-первых, все традиционные базы данных были спроектированы для вращающегося диска, и теперь они перестраиваются для SSD. Новые базы данных, вероятно, могут - любой, кто сейчас пишет новую базу данных, может игнорировать вращающийся диск, даже не думать об этом. Но Samsung, крупнейший производитель твердотельных накопителей, говорит нам, что твердотельные накопители на самом деле находятся на кривой закона Мура.

Я думаю, что они уже были в три-четыре раза быстрее вращающегося диска, но теперь они будут работать намного быстрее каждые 18 месяцев. Удвоить скорость и увеличить ее в 10 раз примерно до шести лет. Однако, если бы это было именно так, это не так, как я скажу вам через минуту. Конечно, вращающийся диск становится средой архивации.

О памяти. Перво-наперво, оперативная память. Соотношение ЦП между ОЗУ на ЦП все время увеличивается. И это, конечно, в некотором смысле обеспечивает намного большую скорость, потому что акры памяти, которые вы можете иметь сейчас, могут хранить намного больше. На самом деле это уменьшает нагрузку на приложения типа MLTP или приложения для случайного чтения, потому что их легче обслуживать, потому что теперь у вас много памяти, и таким образом вы можете кэшировать все, что скорее всего, будет прочитано в память. Но вы сталкиваетесь с проблемами с большей кучей данных, поэтому большие данные на самом деле не так просто, на самом деле.

Кроме того, у нас есть Intel с 3D Xpoint и IBM с так называемой PCM, то есть памятью с фазовым переходом, которые предлагают то, во что они верят - ну, как минимум, в 10 раз быстрее, чем современные твердотельные накопители, и они верят, что получат очень близко к той же скорости, что и ОЗУ. И, конечно, это дешевле. Раньше у вас была структура базы данных ЦП, памяти и диска, и теперь мы движемся к структуре, которая имеет четыре уровня. У него есть ЦП, память или ОЗУ, а затем этот тип памяти быстрее SSD, который на самом деле является энергонезависимым, а затем SSD. И эти новые технологии энергонезависимы.

И есть мемристор HP, которого еще нет, вы знаете, потому что он был анонсирован около семи лет назад, но еще не появился. Но я слышал, что HP собирается немного изменить игру с помощью мемристора, так что у вас просто новая ситуация с памятью. Это не значит, что у нас есть более быстрые вещи, это похоже на то, что у нас есть целый новый слой. А потом мы получили тот факт, что доступ к SSD, вы можете читать его параллельно. Вы не можете читать вращающиеся диски параллельно, за исключением того, что у вас есть много разных вращающихся дисков. Но блок SSD вы можете читать параллельно. И поскольку вы можете читать это параллельно, он идет намного быстрее, чем его простые скорости чтения, если вы фактически настроили несколько процессов в разных процессах на одном процессоре и просто подключились к SSD.

Предполагается, что вы можете получить почти до скорости оперативной памяти, делая это. И все, что это говорит, будущее архитектуры памяти неясно. Я имею в виду, что реальность такова, что различные доминирующие поставщики, кем бы они ни оказались, вероятно, будут определять направление аппаратного обеспечения. Но никто не знает, куда он идет в данный момент. Я поговорил с некоторыми инженерами баз данных, которые говорят: «Я не боюсь того, что происходит», но они не знают, как оптимизировать его с самого начала. И ты всегда так делал, так что это интересно.

И затем есть процессор. Ну, многоядерные процессоры - это не просто многоядерные процессоры. У нас также есть значительные объемы кэш-памяти L1, L2 и L3, в частности L3, размер которого, я не знаю, составляет десятки мегабайт. Вы можете многое там поставить, вы знаете. И, следовательно, вы можете использовать чип в качестве средства кэширования. Так что это изменило игру. И, конечно же, многие поставщики сделали векторную обработку и сжатие данных, перетаскивая эти данные на ЦП, чтобы все это работало намного быстрее на ЦП. Тогда вы получаете тот факт, что процессоры с графическими процессорами действительно хороши в ускорении аналитики. И они действительно довольно хороши в определенных видах запросов, это зависит только от того, какой у вас запрос.

Вы можете создавать платы с процессорами и графическими процессорами, или, как сейчас делает AMD, вы производите нечто, называемое APU, что является своего рода сочетанием процессора и графического процессора; у него есть оба вида способностей. Так что это другой тип процессора. А потом недавнее объявление Intel о том, что они собираются поставить FPGA на чип, что-то вроде меня задело. Я подумал: «Как, черт возьми, это произойдет?» Потому что, если у вас есть возможность CPU, GPU, и у вас есть возможность CPU, FPGA - и, между прочим, если вы действительно хотите, на одной плате вы можете разместить CPU, и GPU, и FPGA. Я понятия не имею, как бы вы на самом деле работали таким образом, но я знаю о компаниях, которые делают подобные вещи, и они получают очень и очень быстрые ответы на запросы. Это не то, что будет игнорироваться, это то, что будет использоваться установленными поставщиками, и, возможно, появятся новые поставщики. СУБД всегда были параллельны, но теперь параллельные возможности просто взорвались, потому что это позволяет вам распараллеливать это с этим, с этим, с этим по-разному.

Наконец, чтобы увеличить или уменьшить масштаб? Масштабирование - действительно лучшее решение, но с одной стороны. Вы получите гораздо лучшую производительность узла, если просто сможете полностью оптимизировать производительность процессора и памяти на диске на одном узле. И вы будете использовать меньше узлов, так что это будет дешевле, верно? И им будет легче управлять. К сожалению, это аппаратно-зависимый дизайн, и по мере изменения аппаратного обеспечения это становится все менее и менее возможным, если только ваши инженеры не смогут работать так же быстро, как меняется оборудование. И у вас действительно возникают проблемы с рабочей нагрузкой, потому что, когда вы увеличиваете масштаб, вы делаете различные предположения о том, что будет делать рабочая нагрузка.

Если вы масштабируете, то есть если ваша архитектура подчеркивает масштабирование до масштабирования - на самом деле вы должны сделать их оба, просто вы подчеркиваете один. Тогда вы получите лучшую производительность сети, потому что архитектура будет иметь дело с этим. Это будет дороже с точки зрения аппаратного обеспечения, потому что будет больше узлов, но будет меньше проблем с рабочей нагрузкой и будет более гибкий дизайн.

И я просто подумал, что добавлю это, потому что если вы на самом деле думаете обо всех аппаратных изменениях, на которые я просто указал пальцем, а затем вы подумали, как вы собираетесь увеличивать и уменьшать масштаб этого материала? Тогда вы понимаете, что инженеры баз данных, по крайней мере, на мой взгляд, плохо оплачиваются. Так что, если вы просто рассматриваете аппаратный уровень, проблемы с базой данных очевидны. Теперь я передаю это Берту, который заставит нас всех чувствовать себя образованными.

Эрик Кавана: Это оно! Берт?

Берт Скальцо: Большое спасибо. Позвольте мне сразу перейти к этим слайдам. Мне нужно просмотреть много слайдов, поэтому на некоторых из них я могу пройти довольно быстро. Мы будем говорить об этом «Движущемся импульсе: движение за пределы традиционного». Это больше не база данных вашего отца. Ситуация изменилась, и, как сказал более ранний оратор, за последние шесть-семь лет ландшафт радикально изменился.

Я сам занимаюсь базами данных с середины 80-х годов. Я написал книги по Oracle, SQL Server, бенчмаркингу и многим другим вещам. «Мир очень быстро меняется. Большое больше не побьет маленькое. Это будет быстрое избиение медленного ». Я добавил« адаптироваться ». Это было от Руперта Мердока. Я действительно верю, что это будет правдой. Вы не сможете работать с базами данных так, как 10, 15, 20 лет назад. Вам придется делать это так, как этого хочет бизнес.

Я постараюсь остаться немного общим в том, что я представляю, но большинство функций, о которых я говорю, вы найдете в Oracle, вы найдете в SQL Server, MySQL, MariaDB и некоторых других крупных игроки. Революция в реляционной базе данных, я снова согласен с предыдущими ораторами. Если вы посмотрите прямо в 2010 году, мы перешли от красной гоночной машины к желтой гоночной машине. Произошли существенные изменения, и к 2020 году, я думаю, вы увидите еще одно радикальное изменение. Мы в очень интересном времени.

Теперь этот слайд является ключевым, поэтому я поставил там ключ. Все эти изменения происходят, и с левой стороны у меня есть технологии, а с правой стороны у меня есть бизнес. И вопрос в том, кто что вызывает, а кто что поддерживает? У нас есть все эти аппаратные изменения: диски уменьшаются, размер диска увеличивается, новые типы дисков, так что это было рассмотрено предыдущими ораторами. Цена памяти падает, все эти новые версии баз данных. Но с правой стороны у нас есть защита и соответствие данных, хранение данных, бизнес-аналитика, аналитика, обязательное хранение данных. Обе стороны уравнения являются движущими, и обе стороны уравнения будут использовать все эти новые функции.

Во-первых, у нас есть типичный вращающийся диск SAS, теперь он имеет до 10 терабайт. Если вы еще не видели, Western Digital, у HGST есть то, что они называют своим гелиевым накопителем, который сейчас достигает примерно 10 терабайт. Затраты на вращающиеся диски становятся довольно низкими. Как упоминалось ранее, вы можете получить твердотельные диски объемом до двух терабайт, но в скором времени у Samsung появится 20-терабайтный блок. Затраты становятся разумными. Одна вещь, которую я собираюсь рассказать о других, которых не было, это концепция флеш-дисков. PCIe, то есть PCI Express, в отличие от NVMe, вы, возможно, слышали или не слышали об этом энергонезависимом экспрессе памяти. По сути, NVMe станет заменой SAS и SATA, и это действительно больше коммуникационный протокол, чем что-либо еще. Но эти диски до трех терабайт сейчас.

Вы также, возможно, видели, что некоторые диски SAS теперь поставляются с разъемами U.2, которые в некотором роде отличаются от разъемов SAS или SATA, которые поддерживают NVMe со стандартным диском - диск, конечно же, должен его поддерживать. А потом SATA с разъемами M.2, и те начинают получать NVMe. Фактически, есть производители ноутбуков, которые сейчас продают ноутбуки с флэш-диском NVMe, и эти вещи будут кричать по сравнению с технологией, которую вы использовали ранее.

Многие люди не знают, что это за вспышки. Если вы посмотрите в правом нижнем углу, это пример M.2. Вы можете сказать: «Ну и дела, это очень похоже на накопитель mSATA слева от него». Но, как вы можете видеть, у него есть два зазора по сравнению с одним, и он немного больше. А также, M.2 может быть трех разных размеров.

Затем флэш-память PCI Express и флэш-память NVMe. Теперь флэш-память NVMe также является PCI Express, но PCI Express обычно по-прежнему является алгоритмом контроллера типа SAS или SATA, который был написан для вращающегося диска, а NVMe - это алгоритмы или методы, которые были написаны специально для флэш-памяти. И снова вы увидите все это.

NVMe предлагает немало вещей. Я думаю, что два самых больших улучшения, в правом верхнем углу, задержка уменьшается на целых 70 процентов. Я действительно видел даже выше, чем это. Кроме того, если вы посмотрите в правый нижний угол, когда ваша операционная система обращается к диску NVMe, она проходит через гораздо меньше уровней программного обеспечения. По сути, вы проходите через драйвер NVMe, который теперь включен в операционную систему, и он напрямую обращается к носителю. Существует множество причин, по которым эта технология радикально изменит мир баз данных.

И много раз люди говорили: «Ну, как быстро NVMe?». Вы знаете, в старые добрые времена, в 2004 году и раньше, мы были взволнованы, если бы у нас был Ultra-320 SCSI, 300 мегабайт в секунду. Сегодняшние скорости, многие из вас, вероятно, используют оптоволокно или InfiniBand, и все это на пределе. NVMe там справа, начинается там, где заканчиваются современные технологии. Я имею в виду, что PCI Express 3.0 с восьмиполосным каналом начинается с почти 8000, и он будет расти по мере того, как мы получим более новые версии PCI Express, версии четыре и так далее. NVMe идти некуда, кроме как вверх.

Теперь, что меняется в базе данных? Теперь в верхнем правом углу моих слайдов я изложил причины, по которым, я думаю, появилась технология. В этом случае из-за хранилищ данных и нормативных причин обязательного хранения данных базы данных начинают предлагать сжатие в них. Теперь некоторые базы данных предлагают сжатие в качестве дополнения, некоторые предлагают его как встроенный в стандарт, скажем, корпоративную редакцию своей базы данных, и все же некоторые базы данных, как в Oracle, могут даже иметь еще лучшую версию сжатия, которая скажем, в их платформе Exadata, поэтому они на самом деле создали оборудование, которое может поддерживать очень специализированное сжатие, а это, например, в Exadata, имеет степень сжатия 40x, и это очень важно. И я думаю, что это обязательное хранение данных, людям просто нужны данные дольше. Предприятиям для аналитики и бизнес-аналитики необходимы данные за последние 5, 10, 15 лет.

Теперь появилась еще одна функция, которая начала появляться примерно в том же периоде 2008 и 2009 годов, - это разделение. Опять же, вы найдете это в базах данных, таких как Oracle, SQL Server, и в обеих из них вам придется заплатить за это. В Oracle вы должны купить опцию разделения, а в SQL Server вы должны быть в редакции центра обработки данных. Это ваша традиционная техника «разделяй и властвуй», и у вас там есть концепция большой логической таблицы вверху, а когда она помещается на диск, она фактически разбивается на сегменты. И вы можете видеть, что эти сегменты организованы по некоторым критериям для разделения, обычно ссылаются или называются вашей функцией разделения, а затем аналогичным образом вы можете также подразделить на некоторых платформах баз данных, и вы можете пойти еще дальше.

Опять же, я думаю, что и хранилище данных, и обязательное хранение данных подтолкнули это, и в некоторых из этих баз данных вы можете иметь до 64 000 разделов, и я считаю, что в некоторых других базах данных даже до 64 000 подразделов. Это позволяет вам разбить ваши данные на управляемые части. Вы также разделите индексы; это вариант, вам не нужно, но вы также можете разделить свои индексы. Одной из причин этого может быть то, что у вас есть скользящее окно данных. Вы хотите сохранить данные за 10 лет, но чтобы отбросить индексы для выполнения пакетной загрузки сегодня вечером, вам не нужно отбрасывать индексы для каждой отдельной строки, только для строк, находящихся в текущем сегменте. Разбиение на самом деле является очень хорошим административным инструментом, хотя большинство людей считает, что его большое преимущество заключается в отказе от удаления разделов в ваших планах и, следовательно, ускорении запросов. Это действительно своего рода глазурь на торте.

Теперь вы, наверное, слышали о шардинге и, возможно, думаете: «Ну, зачем вы разместили этот слайд здесь?» Это один из тех NoSQL - это одна из тех сред типа Hadoop. Oracle 12c выпустил два, которые еще не G8, но которые показываются или демонстрируются, на самом деле имеют шарды. У вас будет традиционная система баз данных, такая как Oracle, и вы сможете осколковать, как в модели Hadoop, и поэтому у вас будет еще один метод «разделяй и властвуй», который разделит ваш построчно разбивайте таблицы на группы по узлам, и это будет так же, как то, что вы видите в некоторых ваших базах данных NoSQL. И на самом деле MySQL, вы можете сделать это в значительной степени, используя один из методов кластеризации, но он подходит к традиционной базе данных, и я предполагаю, что Microsoft не захочет отставать. Эти двое постоянно играют друг с другом, поэтому я ожидаю увидеть шардинг в следующей версии SQL Server.

Управление жизненным циклом данных, опять же обязательное хранение данных, но также для бизнес-аналитики и аналитики. Действительно, это метод «разделяй и властвуй», и, как правило, администраторы баз данных делают это вручную, а именно: «Я собираюсь сохранить данные этого года на быстрых дисках, данные прошлого года на немного более медленных дисках, возможно, я собираюсь сохранить последние два года до этого на еще более медленных дисках, и тогда у меня будет какой-то архивный метод ». Как правило, он больше не записывается на пленку, обычно - у вас есть какое-то сетевое хранилище или какое-то устройство, которое имеет много хранения и, вы знаете, экономически выгодно, но это все еще крутящийся диск.

И теперь вы можете - как в Oracle, так и в SQL Server - вы можете приобрести опцию, в которой вы определяете правила, и это просто происходит автоматически в фоновом режиме. Вам больше не нужно писать сценарии, вам не нужно ничего делать. И если вы видели SQL Server 2016, который только что вышел в июне, есть новая функция, которая называется «Растянуть базы данных», которая в основном позволяет вам - в правом нижнем углу - вы можете перемещаться из нескольких слоев прямо в облако и опять же, это функция, которая встроена в базу данных, вы просто говорите что-то вроде: «Если данные старше 365 дней, пожалуйста, переместите их в облако и, вы знаете, сделайте это автоматически для меня».

Это будет действительно крутая функция, на самом деле я думаю, что это может быть тем, что мы увидим в будущем, то есть у вас будут гибридные базы данных, где вы будете хранить некоторые локальные а некоторые в облаке. До этого люди думали: «О, я или собираюсь делать на месте, или я собираюсь делать в облаке». Теперь мы наблюдаем объединение двух технологий таким гибридным способом. Я думаю, что это будет довольно большим, и Microsoft попала туда первой.

Редакция, это связано с защитой данных и соблюдением. Теперь, в старые добрые времена, мы могли бы сказать: «Эй, разработчик приложений, когда вы отображаете это в отчете, когда вы отображаете это на экране, вот некоторые вещи, которые нужно проверить, и, пожалуйста, вы знаете, только показывайте данные они должны видеть или маскировать или редактировать данные, которые они не должны видеть ». Ну, как обычно, когда вы отправляете их в приложение, это делается не в одном месте, поэтому это делается иначе или не сделано в некоторых местах. И теперь у вас есть такая возможность в ваших системах баз данных.

Теперь, в SQL Server 2016, эта функция встроена, так что я считаю, что это не дополнительная статья затрат, которая должна быть добавлена в центр обработки данных; а в Oracle 12 вы должны купить их надстройку для управления жизненным циклом, но это что-то новое, и опять-таки это зависит от бизнеса. И особенно потому, что вы сейчас храните так много данных, и вы занимаетесь интеллектуальным анализом данных, поэтому BI и аналитики должны знать, кто имеет доступ к каким данным, и убедиться, что им разрешено видеть только то, что им разрешено видеть

Кроме того, еще раз посмотрите на это, защита данных и соответствие. Вы обнаружите, что многие системы баз данных в настоящее время создают сжатие или, извините, шифрование непосредственно в базе данных и что важно в этом шифровании, если вы посмотрите на стрелку вниз и стрелку вверх на диаграмме, на которой она записана. до зашифрованного диска, а затем читает его обратно в память и расшифровывает. Это фактически одна модель, есть другая модель, которая, вы знаете, фактически делает это только тогда, когда она передает эти данные по сети реальному клиентскому приложению.

В этом случае он даже будет храниться на сервере базы данных в памяти, он может быть зашифрован и дешифрован только при отправке клиентскому приложению. Здесь есть две разные модели, и вы найдете их в базах данных, и фактически одна из баз данных, которая недавно добавила это, была MariaDB в их версии 10.X; Я считаю, что они на 10,1 или 10,2 сейчас. И я на самом деле провел некоторые тесты для этого шифрования, и для того, чтобы получить это шифрование, я испытал только примерно 8-процентное снижение пропускной способности или скорости. В бенчмаркинговом тесте шифрование не вызывало так много, и поэтому это очень полезная функция.

Теперь мы уже упоминали ранее о флэш-памяти и SSD и подобных вещах. Многие из функций, которые есть в Oracle и SQL Server, о которых многие даже не подозревают, - вы можете использовать флэш-память или твердотельный накопитель на своем сервере базы данных и сказать базе данных: «Используйте это так, как если бы это была память. Относитесь к ОЗУ как к предпочтительному, но притворяйтесь, будто это медленная память, и используйте ее как расширенный кеш ». Теперь в SQL Server 2014 это вышло и называлось« Расширение буферного пула », оно бесплатно. В Oracle он вышел в 11g R2 и назывался «Database Flash Cache», и он также был там бесплатным.

Однако мой совет - тщательно протестировать эту функцию. Каждый раз, когда вы увеличиваете кеш, когда вы делаете поиск, это занимает больше времени. Если вы поместите флеш-карту объемом три терабайта и скажете базе данных: «Добавьте это в свою память», вы на самом деле можете обнаружить, что что-то замедлилось из-за того, что время заглянуть внутрь и увидеть, находится ли оно во флэш-памяти, грязное или чистый? Есть точка убывающей отдачи. Мой совет: снова протестируйте этот диск, посмотрите, что работает для вас, но опять же, он находится в вашей базе данных, а в случае Oracle, как в SQL Server, так и в Oracle, он существует уже пару лет.

И затем это приводит нас к дедушке, который был базами данных в памяти, и это потому, что цены на базы данных упали. Другая причина, по которой вы, вероятно, думаете, что это произошло, заключается в том, что многие аналитики требуют, чтобы данные были очень быстро доступны, и поэтому они должны находиться в памяти. Обратите внимание, что алгоритмы, используемые базами данных для доступа к этим данным, их сжатия, шифрования, хранения, вы знаете, в некоторых случаях некоторые базы данных могут продолжать хранить в памяти в виде строки.

В некоторых случаях некоторые базы данных могут разбить это на ориентированные на столбцы, и причина, по которой они это делают, заключается в том, что они получают гораздо более высокий уровень сжатия, где-то в диапазоне от 11 до 12Х, сохраняя его в порядке столбцов по сравнению с порядком строк. Впервые он обнаружился в SQL Server 2014, он назывался «Hekaton». Он был радикально расширен в SQL Server 2016, они увидят, что на него ссылаются некоторые другие имена, и он появился в Oracle 12c; Я говорю второй релиз здесь, а не R2. Было два разных выпуска Oracle 12c, 12.1.0.1 и 12.1.0.2. Это второй выпуск версии базы данных R1.

И способ, которым вы его определяете, объект в памяти похож в обеих базах данных. Здесь вы можете видеть в правом верхнем углу, я создаю SQL Server, и вы можете видеть, что он говорит с оптимизированной памятью и долговечностью, являющейся только схемой. Я не буду вдаваться в подробности всех этих синтаксических значений, а в Oracle это на самом деле даже проще: вы просто изменяете таблицу и говорите в памяти или нет, и вы можете изменить это. Сегодня я могу сказать, что это в памяти, а завтра - нет, и поэтому он очень гибкий.

Я провел несколько тестов на Oracle с таблицами в памяти, у меня было несколько тестов, которые заняли почти 40 минут, в верхней строке. Теперь важно то, что к тому времени, когда я добрался до двух нижних строк, я увеличил время выполнения или уменьшил его, я бы сказал, примерно до пяти минут, а когда я посмотрел на коэффициент сжатия, данные в памяти фактически составляли 3,6. в 4,6 раза меньше. Это важно, потому что в этом случае я использовал формат, ориентированный на столбцы, и это сжатие. И так, угадайте, что? Я фактически помещал в мою память почти в четыре-пять раз больше данных. Я получил не только преимущество в памяти, преимущество ориентированного на столбцы, но и преимущество гораздо большего объема данных - до пятикратного увеличения объема данных в кэш-памяти, так что это довольно мощный метод. Опять же, Oracle и SQL Server, вы хотите посмотреть на них, это действительно классные функции. И с этим, я думаю, я открою это для вопросов.

Эрик Кавана: Ну, Берт, во-первых, ты был очень самоотверженным во всем этом замечательном образовании. Не могли бы вы немного поговорить о том, что вы, ребята, делаете? Потому что у вас есть несколько поддерживающих технологий, которые могут облегчить то, о чем вы говорили. Просто поговорите минутку о том, что вы, ребята, делаете, а затем позвольте привести Деза и Робина в уравнение здесь.

Берт Скальцо: Да, я работаю в компании под названием IDERA. Мы находимся в Техасе, у нас штаб-квартира в Хьюстоне, и я сейчас сижу в Остине, но я живу в Далласе. Мы создаем инструменты базы данных и инструменты базы данных, чтобы помочь вам решить проблемы. Эта проблема может быть такой же простой, как производительность, и в этом случае у нас есть инструмент DBArtisan, который позволяет вам выполнять административные задачи вашей базы данных, и один инструмент, который позволяет вам управлять 12 различными платформами баз данных. Я могу управлять SQL Server, я могу управлять Oracle, я могу управлять MySQL, DB2, Postgres, и я использую один инструмент, один исполняемый файл, один дизайн графического интерфейса пользователя и один согласованный набор рабочих процессов. Мы также создаем инструменты для обеспечения соответствия, у нас есть инструмент под названием SQL Compliance Manager, который поможет вам удовлетворить ваши требования соответствия. Еще один инструмент под названием SQL Security, поэтому мы пытаемся создать инструменты, которые помогут вам быть эффективными и действенными, и что действительно приятно, если вы зайдете на наш сайт, у нас есть целая куча бесплатных программ, так что, если ничего другого, идите скачать - Я думаю, что у нас есть около 20 или 25 бесплатных программ. Есть несколько действительно хороших бесплатных программ, таких как SQL Server и Windows Help Check, которые просто в основном посмотрят на то, что у вас есть, и скажут вам, есть ли у вас проблемы или вещи, и это совершенно бесплатно.

Эрик Кавана: И ты действительно ...

Берт Скальцо: Определенно первый материал

Эрик Кавана: Вы говорите о неоднородности на рынке сегодня, когда-то существовало некое универсальное уравнение, которое, на самом деле, я помню, когда брал интервью у доктора Майкла Стоунбрейкера еще в 2005 году, когда он активно продвигался вперед. он говорил о вердикте в отношении движения баз данных, ориентированного на столбцы, и он говорил о том, как многолетняя реляционная модель «один размер подходит всем» доминировала, и он предсказывал, что все изменится, и он был прав в этом. Теперь у нас есть действительно разнообразная и интересная среда с множеством различных вариантов и возможностей, но вам действительно нужен кто-то, кто бы справился со всем этим, и мне кажется, что ваша компания довольно остро сосредоточена на решении математических задач, таким образом, являясь инструментом поддержки заголовок неоднородности, верно?

Берт Скальцо: Абсолютно. Я имею в виду, что всегда будут администраторы баз данных, которые скажут: «Я не хочу использовать инструмент с графическим интерфейсом, я все делаю со скриптами», вы знаете? Они думают, что это администратор типа «супермен», и это хорошо, но для большинства из нас, людей, мы просто хотим сделать работу и - вы знаете, я использую Microsoft Word для написания своих документов. Я использую Microsoft Outlook, чтобы сделать мой. Я имею в виду, у меня есть инструменты для выполнения задач. Мы создаем такую же концепцию, мы создаем инструменты для администраторов баз данных и разработчиков, чтобы помочь им сосредоточиться на том, что они хотят сделать, а не на том, как они должны это делать.

Эрик Кавана: Это имеет смысл, но позвольте мне передать вас нашим экспертам, и люди могут свободно погружаться. У нас есть пара комментариев от аудитории. Может быть, Дез, пару вопросов, а Робин пару вопросов?

Дез Бланчфилд: Конечно. Один из первых вопросов, которые я хочу задать вам, учитывая огромный опыт, который вы получили, видите ли вы момент времени, когда все это замедлится? Или вы думаете, что мы действительно находимся на начальном этапе этой непрерывной линии роста? Я думаю, что одна из самых больших проблем, с которыми сталкиваются компании, а затем неизменно люди, пытающиеся поддержать технологию, предоставляемую этим компаниям для управления их бизнесом, заключается в том, что скорость изменений настолько драматична, что они просто не могут идти в ногу со всеми различные функции, и программное обеспечение, и системы, и платформы, и архитектуры, и новый код, и затем аппаратное обеспечение под ним, видите ли вы, что текущая скорость изменений вообще замедляется? Я имею в виду, вы имеете дело с таким широким спектром платформ со всем пакетом IDERA, мы собираемся замедлиться в скором времени или мы уже как-то на этом сумасшедшем безудержном грузовом поезде?

Берт Скальцо: Я думаю, что мы находимся на первых 20 процентах этой кривой роста, и нам предстоит пройти долгий путь, и есть две вещи, которые его подталкивают. Технология продолжает развиваться. Вы упомянули некоторые из новых типов памяти, которые будут выходить, это будет фантастически. У Samsung скоро будет 20-терабайтная флешка. Это изменит вещи. У нас есть все эти NoSQL и облачные базы данных, и это будет продолжаться. Единственная забавная вещь - когда я смотрю на базы данных, такие как Oracle и SQL Server и некоторые другие, они больше не являются реляционными базами данных. Я могу поместить неструктурированные данные в Oracle и при этом поддерживать соответствие ACID. Если бы вы сказали мне это 20 лет назад, я бы просто сказал, что принимал наркотики.

Дез Бланчфилд: Да, да, они классные. Ну, даже сейчас те двигатели, которые имеют довольно хорошие нишевые вертикали, такие как ГИС, просто лучше, чем собственные возможности сейчас. Вы сделали несколько замечательных комментариев о проблемах, с которыми сталкиваются администраторы баз данных, и о разном времени администраторов баз данных, которые мы надеемся увидеть повсюду, но как выглядит мир с таким уровнем бизнеса, с которым вы сталкиваетесь? Я имею в виду, что это люди, которые используют разные платформы от вашего менеджера по диагностике до инструментов инвентаризации и вплоть до кричащей дефрагментации, как администраторы баз данных справляются с этими изменениями и как они вроде - вы знаете, Что они делают с вашими инструментами, чтобы справиться с этим значительным изменением в их ландшафте?

Берт Скальцо: Что ж, я собираюсь вернуться почти 20 лет назад, а затем я скажу, что администраторы баз данных играют очень специфическую роль в организации. Они обычно работают с одной платформой баз данных, может быть, двумя, и они управляют относительно небольшим количеством баз данных. Теперь перенесемся на сегодня и администратор базы данных, он на самом деле собирается познакомиться с 10 платформами баз данных. Он управляет, и это не шутка, в некоторых случаях тысячи баз данных; это больше о мире SQL Server или мире MySQL. Но все же в мире Oracle они могут управлять сотнями баз данных. И поэтому у них есть все эти новые функции, у них есть все эти новые платформы, и у них есть все эти базы данных, за которые они несут ответственность. Они ищут инструменты, которые позволят им повысить производительность и научиться чему-то.

И я приведу вам пример - если я хочу разбить таблицу на части, это довольно туманный синтаксис, и если я хочу разбить его на части, синтаксис становится еще сложнее. Я знаю, что я хочу сделать, я хочу создавать ведра. Если у меня есть такой инструмент, как DBArtisan, который говорит: «Эй, вот хороший экран, который позволяет вам сконцентрироваться на том, что вы пытаетесь сделать, а не на том, как вы пытаетесь это сделать, и, кстати, нажмите Когда закончите, покажите кнопку SQL, и мы покажем вам, каким был SQL, чтобы вы могли по-настоящему изучить и освоить это ».

Администраторы баз данных находят, что инструменты, которые помогают им выполнять свою работу, но также помогают обучать их всем этим новым вещам, которые они используют, и то же самое будет правдой - скажем, я парень из Oracle, и я перехожу к MySQL и говорю: «Хорошо, создайте базу данных, DBArtisan. Теперь покажите мне SQL, потому что мне интересно, каково это создавать базу данных на MySQL, и я только что научился синтаксису ». И поэтому мы не только помогаем им работать с базами данных, мы также обучаем их всем базам данных.

Дез Бланчфилд: Это становится еще более интересным, когда вы переходите к некоторым из более современных - или не более современных - это нечестно сказать - но когда-то база данных была базой данных. В эти дни я вижу все, о чем вы говорите, с дополнительным вызовом, который технология ставит перед нами, как мы обычно видим от поставщиков, и вы вроде как с открытым исходным кодом, и что они хорошие. Вы не только имеете дело с механизмами баз данных и языками запросов, но они также имеют дело с типами данных, структурированными и неструктурированными, понимаете, с проблемой необходимости иметь дело со всем от дальнего конца спектра многопетабайтной HDFS окружение для маленьких крошечных контейнеров, а также файлы пакетов и различные форматы файлов журналов.

И я думаю, что это то, что мы видим сейчас, когда просто нет человека, независимо от того, какой из суперменов, сверхчеловек, какими бы они ни считали себя физически, они просто не могут мысленно справиться с такой скоростью перемен и шкала вариаций. Я думаю, что набор инструментов, которые вы предлагаете сейчас, достигнет точки, в которой они почти во многих отношениях будут использовать набор по умолчанию, так что мы не сможем запустить среды баз данных, которые мы получили без них, потому что мы просто физически не могу бросить столько тел в них. Мне очень понравилась ваша презентация. Я собираюсь передать слово доктору Робину Блуру, я уверен, что у него тоже есть много вопросов, которые можно задать вам.

Робин Блур: Хорошо. Ну, у меня, конечно, есть вопросы. Берт, я не знаю, куда ты идешь - у меня был очень интересный разговор пару дней назад, когда кто-то начал рассказывать мне о новейшей защите данных DU, и мне показалось, что это было невероятно суровый с точки зрения вещей, на которых они настаивали. Интересно, вы на самом деле смотрели на это? это то, с чем вы знакомы?

Берт Скальцо: Абсолютно. Да уж.

Робин Блур: 2016, хорошо, расскажите нам об этом.

Берт Скальцо: И я на самом деле ...

Робин Блур: Глубоко интересно

Берт Скальцо: На самом деле я некоторое время работал на поставщика флэш-памяти, занимаясь их базой данных, помогая им создавать флэш-продукты для баз данных, и я могу вам сказать, что драконианец идет полным ходом. Я имею в виду, что если вы помните мой один слайд, я сказал, что в некоторых базах данных он выполняет шифрование, но он помещает его в память сервера, а в некоторых базах данных шифрование - он все еще шифруется в памяти сервера, он расшифровывается только тогда, когда оно отправляется клиенту. Хорошо, что вы также обнаружите, что некоторые из этих государственных стандартов, особенно Министерства обороны или военных здесь, в США, они также проходят вплоть до уровня флэш-памяти, и они хотят знать не только, что вы поддерживаете шифрование и дешифрование в ваше оборудование, но если кто-то украл чипы, которые - вы знаете, вытащили их из вещи, из вашего сервера, то, что там зашифровано, и поэтому, даже если у них есть хранилище, это не может быть, и они будут вплоть до реальной - не до самой флеш-части, а до отдельных чипов. Они хотели знать, что чип за чипом, все было зашифровано.

Робин Блур: Ух ты. Я имею в виду, что есть много вещей, которые - вы знаете, я думаю, что вы упомянули об этом только один или два слайда, но это был сценарий, который, на мой взгляд, действительно интересен. Например, редактирование информации должно быть немного умнее, чем просто маскировать различные поля, потому что в настоящее время, особенно с машинным обучением, вы можете делать дедуктивные вещи, которые позволяют вам раскрывать информацию, которую вы не могли ранее увидеть.

Если вы пытаетесь защитить, скажем, медицинскую информацию, то в США это очень и очень суровые правила в отношении медицинской информации, но вы можете, фактически, используя различные методы машинного обучения, вы часто можете определить, чья это медицинская информация. на самом деле Мне просто интересно, есть ли у вас что-нибудь сказать по этому поводу, потому что все они думают, что это интересная область.

Берт Скальцо: Да, конечно, и я просто использую это в качестве примера, я не пытаюсь сказать, что одна база данных лучше другой, но это очень хороший пример того, что вы только что спросили. В Oracle, если мне не разрешено видеть ряд данных, например, мне не разрешают просматривать медицинскую карту Джона Смита. В Oracle, если я скажу: «Выберите эту запись», я буду заблокирован, или мне будет разрешено увидеть то, что мне разрешено видеть, и она будет отредактирована. И если я скажу: «Выберите звезду аккаунта из таблицы, где стоит Джон Смит», я получу ноль.

В SQL Server он может выполнять редактирование, но в нем есть некоторые дыры. Если я скажу: «Выберите звезду учетной записи из таблицы, где она равна Джону Смиту», я фактически получу одну, поэтому я знаю, что есть Джон Смит. Один более безопасен, чем другой. Теперь я ожидаю, что они это исправят, они всегда играют в прыгунов друг с другом. И опять же, я не пытаюсь провести различие между базами данных, кроме как показать пример - посмотрите на то, о чем мы сейчас говорим, что-то столь же простое, как выбор учетной записи, также должно быть урезано редактированием, хотя технически говоря, нет ничего редактируемого кроме существования ряда.

Робин Блур: Да правильно. Это довольно интересно. Я имею в виду, еще один общий вопрос, потому что у меня не так много времени, на самом деле просто об улучшениях.Я имею в виду, что вы были там, где я знаю, что вы демонстрировали нам примеры различных результатов тестирования, которые вы выполняли - вы думаете, что традиционные базы данных, давайте назовем их доминирующими базами данных, SQL Server и Oracle, думаете, что они собираются остаться до завершения? Или вы думаете, что на самом деле их поймают те или иные сбои на рынке, которые им действительно нужны? Каково ваше мнение?

Берт Скальцо: У меня есть мнение, и оно - вы знаете, я снова скажу, что это мое мнение, - например, Microsoft в эпоху после Баллмера просто впечатляет меня живым адом. Я имею в виду эту растянутую базу данных с SQL Server в Linux, с .NET в Linux, с PowerShell в Linux; Я не думаю, что традиционные поставщики баз данных останутся позади. Я думаю, что они решили: «Эй, пусть новые парни, стартапы что-то определяют. Пусть они выяснят, что такое шардинг и как его следует усовершенствовать, и после того, как они выполнили все исследования и разработки, мы точно знаем, чего хотят пользователи, теперь давайте добавим шардинг в Oracle ». Я думаю, они просто становятся умными и говоря: «Эй, быть вторым или третьим неплохо, когда ты доминирующий игрок, потому что тогда люди не уйдут от тебя».

Робин Блур: Да, я имею в виду, что это стратегия, которая была использована. Я имею в виду, что раньше IBM делала это и весь ... для всей линейки своих продуктов, и она достаточно неплохо оценивается, пока кто-то не придумает что-то совершенно за пределами стены, о котором никто никогда не думал, но вы не можете планировать против этого в любом случае.

Вопросы из зала, Эрик?

Эрик Кавана: Да, но у тебя есть время, я думаю, что, может быть, только для одного, и я знаю, что Берт должен бежать Здесь было что-то, о чем - хорошо, архитектура шардинга в Oracle 12c - это признак - или, по вашему мнению, это признак того, что, по вашему мнению, происходит там?

Берт Скальцо: Что ж, Oracle поглощает и / и предлагает все, что есть у всех других поставщиков баз данных. Например, я могу поместить неструктурированные данные в Oracle. Я не знаю, как вы можете поместить неструктурированные данные и затем назвать их реляционной базой данных, так что это не имеет никакого смысла, но вы можете. И теперь Oracle добавляет шардинг, поэтому Oracle говорит: «Знаете что? Что бы ни захотел рынок, мы сделаем предложение для нашей базы данных, потому что рынок хочет того, чего хочет рынок, и мы хотим предоставить решение, мы хотим, чтобы они остались с нами ».

Я думаю, что вы собираетесь увидеть дополнительные предметы. Я не удивлюсь, если Hadoop-подобная кластеризация узлов базы данных будет не в стойке Oracle или в реальном кластере приложений, а в основном в более традиционной кластеризации Hadoop-типа, выполняющей такое разделение. И поэтому я думаю, что вы сможете развернуть базу данных, такую как Oracle, как Hadoop, и такие тенденции будут продолжаться. Эти крупные поставщики баз данных зарабатывают миллиарды долларов и не хотят терять свой рынок, поэтому они готовы адаптироваться к чему-либо или принять что-либо.

Эрик Кавана: Ну, вы знаете, это забавно, потому что я довольно долго следил за вендорами с открытым исходным кодом и все время удивлялся, как сильно это отразится на традиционных технологиях закрытых дверей, и какое-то время я чувствовал, что поставщики программного обеспечения с открытым исходным кодом добились серьезных успехов, и теперь, когда я смотрю на рынок, я вижу, что вы говорите, что большие парни сделали свою математику, заточили свои карандаши и выяснили, как они могут плести много такого в их архитектуру. Будь то IBM, Oracle или SAP - я был на конференции SapphireNow в прошлом месяце, и Стив Лукас, возглавляющий половину этой компании, похвастался, что SAP теперь включает в свою облачную платформу HANA больше компонентов с открытым исходным кодом, чем любой из их конкуренты. Если вы посчитаете это, это довольно внушительное утверждение, и оно говорит мне, что большие парни никуда не денутся в ближайшее время.

Берт Скальцо: Нет, я бы поставил свои деньги на оба. Я имею в виду, если вы посмотрите, акции Microsoft недавно были на уровне около 50 долларов, и, знаете, всего несколько лет назад они были на уровне 25. Вы не удваиваете свою цену за короткий период, если вы не делаете хорошие вещи, и вы знаете, начиная от того, чтобы сделать Windows 10 бесплатной в течение первого года, до всех других умных вещей, которые они делают, эта функция растягивающейся базы данных, я думаю, просто феноменальна. Я думаю, что произойдет, когда многие люди окажутся в Azure, а не напрямую, не так, как они сказали: «Давайте перенесем мою базу данных в Azure». Она будет перемещаться туда волшебным образом, потому что она будет заархивирована. там с использованием этой новой функции базы данных растяжения и поэтому принятие Azure будет просто стремительно расти.

Эрик Кавана: Ну, это одна из тенденций на рынке, которую даже я вижу, даже на вашем Mac. Когда вы зайдете на свой Mac, чтобы сохранить некоторые документы, они теперь - и новые Mac просто следуют через облако, верно? Я имею в виду, что в этой стратегии есть большой смысл, и я также смотрю на нее и говорю: «Хорошо, ребята, вы пытаетесь заманить меня по кусочкам в свою облачную среду, а потом, когда я захочу посмотреть какой-нибудь фильм, если срок действия моей кредитной карты истек, у меня будут проблемы.

Берт Скальцо: Да, но ты делаешь это дальше.

Эрик Кавана: Да уж. Это правда.

Берт Скальцо: Вы все надеваете.

Эрик Кавана: Ну, не совсем все.

Берт Скальцо: Нет, я имею в виду

Эрик Кавана: Да, продолжай.

Берт Скальцо: Эти социальные тенденции проникают в бизнес. Теперь у бизнеса все еще есть много других дел, которые они должны сделать, но они видят эти тенденции и делают то же самое. Я не вижу, чтобы Oracle или Microsoft уходили. На самом деле, я собираюсь покупать акции в обоих случаях каждый раз, когда происходит падение.

Эрик Кавана: Да, в самом деле. Ну, ребята, перейдите на idera.com, I-D-E-R-A точка ком. Как сказал Берт, у них есть целая куча бесплатных вещей, и это одна из новых тенденций на рынке - дать вам бесплатные вещи, с которыми можно поиграть, зацепить вас, а затем вы идете покупать реальные вещи.

Ребята, это была еще одна горячая технология. Спасибо за ваше время сегодня, конечно, Берт, Дез и Робин. Мы поговорим с вами на следующей неделе, ребята, много чего происходит. Если у вас есть какие-либо идеи, не стесняйтесь по-настоящему. Мы поговорим с вами в следующий раз, будьте осторожны. Пока-пока.