Использование Firehose: получение бизнес-ценности от потоковой аналитики: стенограмма вебинара

вынос: Ведущая Rebecca Jozwiak обсуждает потоковую аналитику с ведущими экспертами отрасли.

Вы не вошли в систему. Пожалуйста, войдите или зарегистрируйтесь, чтобы увидеть видео.

Ребекка Йозвиак: Дамы и господа, привет и добро пожаловать в Hot Technologies 2016 года! Сегодняшнее название - «Использование пожарного рукава: извлечение выгоды для бизнеса из потоковой аналитики». Это Ребекка Йозвиак. Я являюсь вторым командиром в ведении веб-трансляции, когда наш дорогой Эрик Кавана не может быть здесь, поэтому приятно видеть так много вас сегодня.

Этот эпизод немного отличается от наших других. Мы как бы говорили о том, что жарко и, конечно, в этом году жарко. Последние несколько лет были жаркими. Всегда есть что-то новое. Сегодня мы говорим о потоковой аналитике. Потоковая аналитика сама по себе является чем-то новым. Конечно, потоковые данные, центральные данные, данные RFID не обязательно являются новыми. Но в области архитектуры данных мы были так сосредоточены на данных в состоянии покоя в течение десятилетий. Базы данных, файловые системы, хранилища данных - все это в основном для пакетной обработки. Но теперь с переходом к созданию ценности из потоковых данных, эмоций данных, некоторые называют это живыми потоками, им действительно требуется архитектура на основе потоков, а не архитектуры данных в состоянии покоя, к которым мы привыкли, и они должны быть способны к обработка быстрого приема, в реальном времени или почти в реальном времени. Он должен быть в состоянии обслуживать не только Интернет вещей, но Интернет всего.

Конечно, в идеале было бы неплохо, чтобы две архитектуры жили бок о бок, одна рука моет другую, так сказать. Несмотря на то, что данные за прошедшие сутки, данные за недели, данные за многие годы, конечно, все еще имеют ценность, историческая аналитика, анализ тенденций, именно живые данные в наши дни движут живым интеллектом, и поэтому потоковая аналитика стала настолько важной.

Я говорю об этом больше сегодня. У нас есть наш специалист по данным Дез Бланчфилд, звонящий из Австралии. Сейчас для него раннее утро. У нас есть наш главный аналитик, доктор Робин Блур. К нам присоединился Ананд Венугопал, руководитель по продукту StreamAnalytix в Impetus Technologies. Они действительно сосредоточены на аспекте потоковой аналитики этого пространства.

С этим я собираюсь пойти дальше и передать его Дезу.

Дез Бланчфилд: Спасибо. Мне нужно захватить контроль над экраном здесь и выскочить вперед.

Ребекка Йозвиак: Ну вот.

Дез Бланчфилд: Пока мы берем слайды, позвольте мне затронуть основную тему.

Я собираюсь держать его на достаточно высоком уровне и держу его примерно до 10 минут. Это очень большая тема. Я участвовал в мероприятии, на котором мы потратили два-три дня, чтобы подробно узнать, что такое потоковая обработка и текущие структуры, которые мы разрабатываем, и что должно означать выполнение аналитики в этих объемных потоках.

Мы собираемся просто уточнить, что мы подразумеваем под потоковой аналитикой, а затем углубиться в выяснение того, можно ли получить бизнес-ценность, потому что это именно то, что ищут компании. Они хотят, чтобы люди объяснили им очень быстро и лаконично, где я могу получить ценность, применяя некоторую форму аналитики к нашим потоковым данным?

Что такое потоковая аналитика?

Потоковая аналитика дает организациям возможность извлекать выгоду из объемных и высокоскоростных данных, которые они получают через бизнес в различных формах в движении. Существенным отличием здесь является то, что у нас была долгая история разработки аналитики и объективов и представлений о данных, которые мы обрабатывали в состоянии покоя в течение десятилетий с момента изобретения мэйнфрейма. Огромный сдвиг парадигмы, который мы наблюдали за последние три-пять лет в том, что мы называем «масштабом сети», затрагивает потоки данных, поступающих в нас в реальном времени или почти в реальном времени, а не просто обрабатывает и ищет корреляцию событий или события запускаются, но выполняют действительно детальную, глубокую аналитику по этим потокам. Это существенный сдвиг в том, что мы делали раньше: сбор данных, их размещение в каком-то хранилище, традиционные большие базы данных, платформы больших данных, такие как платформа Hadoop, и обработка этих данных в пакетном режиме и получение какое-то понимание.

Мы очень хорошо справились с этим очень быстро и попробовали много тяжелого железа, но мы все еще действительно собираем данные, храним и затем смотрим на них и получаем какие-то идеи или аналитику. Переход к выполнению этой аналитики в процессе потоковой передачи данных стал очень новой и захватывающей областью роста для типов вещей, происходящих вокруг больших данных. Требуется совершенно другой подход, чтобы просто захватывать, хранить, обрабатывать и выполнять аналитику.

Одним из ключевых факторов сдвига и ориентации на выполнение аналитики в потоке является то, что вы можете получить значительную выгоду для бизнеса, получая эти идеи быстрее и с большей готовностью по мере того, как данные поступают к вам, когда информация становится доступной для бизнеса. Идея обработки в конце дня больше не актуальна в определенных отраслях. Мы хотим быть в состоянии сделать аналитику на лету. К концу дня мы уже знаем, что произошло, как это произошло, вместо того, чтобы дойти до конца дня и выполнить 24-часовую пакетную работу и получить эти идеи.

Потоковая аналитика предназначена для непосредственного подключения к этому потоку, в то время как потоки данных обычно представляют собой множественные потоки очень больших объемов данных, и данные очень быстро приходят к нам в движение и дают представление или аналитику по этим потокам, когда они приходят к нам, а не наоборот. чтобы позволить этому выйти в покое и выполнить аналитику на них.

Как я уже говорил, у нас были десятилетия и десятилетия выполнения того, что я называю пакетной аналитикой. Я поместил здесь действительно классную картину. Это изображение джентльмена, стоящего перед макетом компьютера, который был создан RAND Corporation много лет назад, и именно так они смотрели на компьютер в доме, чтобы выглядеть. Что интересно, даже тогда у них была эта концепция всех этих маленьких циферблатов, и эти циферблаты представляли информацию, поступающую из дома и обрабатываемую в режиме реального времени, и сообщающую вам, что происходит. Простым примером является набор атмосферного давления и температуры, которые мы можем видеть, где мы видим, что происходит в режиме реального времени. Но я полагаю, что даже тогда, когда корпорация RAND собрала этот маленький макет, они уже думали об обработке данных и проведении их аналитики в том виде, в каком они поступают в потоковом формате. Я не совсем уверен, почему они поставили руль на компьютер, но это круто.

С момента изобретения этой модели мы собирали данные и выполняли пакетную аналитику. Как я уже говорил с большим изменением, и мы увидели это от таких игроков, как веб-разработчики, которых мы все знаем, они все являются бытовыми брендами, такими как LinkedIn, для интерактивного поведения, которое мы имеем с этими социальными платформами, требуется они не просто собирают, хранят и затем обрабатывают в пакетном режиме, но на самом деле они захватывают и управляют аналитикой на лету из поступающих потоков данных. Когда я чирикаю что-то, им нужно не только собирать, хранить и что-то делать позже, но и уметь немедленно возвращать это в мой поток и делиться ими с другими людьми, которые следуют за мной. Это модель пакетной обработки.

Зачем нам идти по этому пути? Зачем организациям вкладывать время, усилия и деньги, даже если они рассматривают задачу продвижения по пути потоковой аналитики? Организации стремятся получить прирост производительности по сравнению со своими конкурентами в тех отраслях, в которых они находятся, и этот прирост производительности можно быстро реализовать с помощью простой потоковой аналитики, и это может начаться с простого отслеживания данных в реальном времени, которые мы уже имеем. знаком с. Я получил небольшой скриншот Google Analytics. Вероятно, это один из первых случаев, когда мы действительно получили практическую аналитику потребительского уровня. Так как люди посещали ваш сайт, и вы получаете эти показатели, с крошечным кусочком JavaScript в нижней части вашей веб-страницы в HTML-коде, встроенным в ваш сайт, эти маленькие коды создавались в реальном времени обратно в Google, и они выполнять аналитику потоков данных, поступающих со всех страниц вашего веб-сайта, каждого объекта на вашем веб-сайте в режиме реального времени, и возвращать их вам на этой действительно симпатичной маленькой веб-странице в виде панели графиков в реальном времени, симпатичных маленьких гистограмм и линий график, показывающий X количество людей, которые посещали вашу страницу исторически, но вот сколько их сейчас.

Как вы можете видеть на этом скриншоте, сейчас написано 25. Сейчас на этой странице было 25 человек. Это первый реальный шанс, который мы сыграли на инструменте аналитики потребительского уровня. Я думаю, что многие люди действительно получили это. Они просто понимали силу знания того, что происходит и как они могут на это реагировать. Когда мы думаем о масштабах авионики, где летают самолеты, в одних только США происходит примерно 18 700 внутренних рейсов в день. Некоторое время назад я читал статью, где-то шесть или семь лет назад, что объем данных, создаваемых этими самолетами, составлял от 200 до 300 мегабайт в старой инженерной модели. В современных конструкциях самолетов эти самолеты производят около 500 гигабайт данных или около половины терабайта данных за полет.

Когда вы очень быстро выполняете математику, то только 18 700 внутренних рейсов каждые 24 часа в одном воздушном пространстве США, если все современные самолеты производят около половины терабайта, это 43–37 петабайт данных, поступающих через это происходит, когда самолеты находятся в воздухе. Это происходит, когда они приземляются и делают дампы данных. Именно тогда они идут в магазин и получают полную информацию от инженерных команд, чтобы посмотреть, что происходит в подшипниках, колесах и внутри двигателей. Некоторые из этих данных должны обрабатываться в режиме реального времени, чтобы они могли принимать решения о наличии реальной проблемы, когда самолет находился в воздухе или находился на земле. Вы просто не можете сделать это в пакетном режиме. В других отраслях, которые мы видим в сфере финансов, здравоохранения, производства и машиностроения, они также смотрят на то, как они могут получить это новое понимание того, что происходит в режиме реального времени, в отличие от того, что просто хранится в базах данных на срок.

Существует также концепция работы с данными как то, что я называю скоропортящимся товаром или скоропортящимся товаром, - что многие данные со временем теряют свою ценность. Это в большей степени относится к мобильным приложениям и инструментам социальных сетей, потому что то, что говорят люди и что сейчас в тренде, - это то, на что вы хотите ответить. Когда вы думаете о других частях нашей жизни, связанных с логистикой и доставкой продуктов питания, мы понимаем концепцию скоропортящихся продуктов в этом смысле. Но подумайте о данных, проходящих через вашу организацию, и о ценности, которую они имеют. Если кто-то ведет с вами какие-то дела прямо сейчас, и вы можете взаимодействовать с ним в режиме реального времени, вы не хотите ждать час, чтобы данные могли быть собраны и помещены в такую систему, как Hadoop, а затем нажмите эту кнопку. Вы не сможете справиться с этим прямо сейчас, и вы захотите сделать это по требованию клиента немедленно. Сейчас часто появляется всплывающий термин, в котором люди говорят о наличии потока данных в режиме реального времени, который может дать вам персонализацию, и о том, как настроить систему персонализации в вашей системе. Поэтому, когда вы обращаетесь к такому инструменту, как, например, инструмент поиска Google, если я делаю запрос, а вы делаете один и тот же запрос, неизменно мы не получаем точно такие же данные. По сути, мы получаем то, что я называю опытом знаменитостей. Я лечу один раз. Я получил свою личную версию того, что происходит в этих системах, основываясь на профилях и данных, которые они собрали для меня, и я смог проводить аналитику в реальном времени в потоке.

Эта идея о том, что данные являются скоропортящимся товаром, на данный момент реальна, и ценность данных, которые со временем уменьшаются, - это то, с чем нам приходится иметь дело сегодня. Это не вчерашняя вещь. Мне нравится эта картина, когда медведь хватает лосося, выпрыгивающего из реки, потому что он действительно рисует именно то, что я вижу в потоковой аналитике. Это огромная река данных, идущая к нам, пожарный шланг, если хотите, и медведь сидит посреди ручья. Он собирается выполнять аналитику в реальном времени о том, что происходит вокруг него, так что он действительно может спроектировать способность ловить эту рыбу в воздухе. Это не то же самое, что просто окунуться в ручей и схватить его. Эта вещь прыгает в воздухе, и она должна быть в нужном месте в нужное время, чтобы поймать эту рыбу. В противном случае он не получит завтрак или обед.

Организация хочет сделать то же самое со своими данными. Они хотят извлечь ценность из того, что сейчас представляет собой огромные объемы данных в движении. Они хотят выполнять аналитику на этих данных и данных с высокой скоростью, так что это не просто объем данных, которые поступают к нам, а скорость, с которой они поступают. Например, в области безопасности - это все ваши маршрутизаторы, коммутаторы, серверы, брандмауэры и все события, исходящие от этих и десятков тысяч, если не сотен тысяч устройств, в некоторых случаях это скоропортящиеся данные. Когда мы думаем об этом в Интернете вещей и в промышленном Интернете, мы в конечном итоге говорим о миллионах, если не миллиардах датчиков, и по мере поступления данных, которые выполняют аналитику, мы сейчас смотрим на обработку сложных событий. по порядку величины и скорости, которых мы никогда раньше не видели, и нам приходится иметь дело с этим сегодня. Мы должны создавать инструменты и системы для этого. Это реальная проблема для организаций, потому что, с одной стороны, у нас есть очень крупные бренды, которые делают DIY, выпекайте его сами, когда у них есть возможность сделать это, набор навыков и инженерия. Но для средней организации это не так. У них нет навыков. У них нет ни возможности, ни времени, ни даже денег, чтобы инвестировать в это. Все они стремятся к этой концепции принятия решений почти в реальном времени.

Случаи использования, с которыми я сталкивался, и они охватывают каждый широкий спектр каждого сектора, который вы можете себе представить, люди сидят и обращают внимание и спрашивают, как мы применяем некоторую аналитику к нашим потоковым данным? Мы говорим о веб-сервисах онлайн. Существуют традиционные платформы социальных сетей, интернет-магазины и приложения для розничной торговли, например приложения. Они все пытаются дать нам этот опыт знаменитостей в реальном времени. Но когда мы переходим к большему количеству сервисов технологических стеков, телефонных услуг, голосовой связи и видео, я вижу, как люди ходят, делая FaceTime на телефонах. Это просто взрыв. Меня поражает, что люди держат телефон перед собой и разговаривают с видеопотоком друга, а не подносят его к уху. Но они знают, что могут это сделать, и они адаптировались, и им понравился этот опыт. Разработка этих приложений и платформ, которые их поставляют, должны выполнять аналитику в реальном времени этого трафика и профилей трафика, чтобы они могли выполнять простые вещи, такие как идеальная маршрутизация видео, чтобы качество голоса в видео, которое вы получаете, является адекватным, чтобы получить хороший опыт. Вы не можете пакетно обрабатывать такие данные. Это не сделает видеопоток в реальном времени функциональной услугой.

В финансовых транзакциях возникает проблема управления. Нехорошо дойти до конца дня и узнать, что вы нарушили закон, перемещая личные данные по всему месту. В Австралии у нас есть очень интересная задача, когда переносить данные, связанные с конфиденциальностью, в оффшор - нет-нет. Вы не можете взять мой PID, мои личные идентификационные данные в оффшоре. В Австралии есть законы, чтобы это не происходило. Поставщики финансовых услуг, в частности, государственные службы и агентства, должны вместе со мной проводить аналитику своих потоков данных и инструкций в реальном времени, чтобы убедиться, что то, что они мне предоставляют, не покидает берегов. Все вещи должны оставаться на месте. Они должны сделать это в режиме реального времени. Они не могут нарушать закон и просить прощения позже. Обнаружение мошенничества - это довольно очевидное явление, о котором мы слышим при транзакциях по кредитным картам. Но так как типы транзакций, которые мы совершаем в финансовых услугах, меняются очень и очень быстро, есть некоторые вещи, которые PayPal делает в первую очередь при обнаружении мошенничества в реальном времени, когда деньги не переходят от одного к другому, а финансовая сделка между системами. Платформы Ebay, обнаружение мошенничества должно осуществляться в режиме реального времени в потоковом офисе.

Сейчас наблюдается тенденция к выполнению извлечения и преобразования нагрузки в потоках, поэтому мы не хотим фиксировать все, что идет в поток. Мы не можем этого сделать. Люди узнали, что данные очень быстро разбиваются, если мы все фиксируем. Теперь хитрость заключается в том, чтобы выполнять аналитику в этих потоках и выполнять ETL для нее и просто собирать то, что вам нужно, потенциально метаданные, а затем проводить аналитическую аналитику, где мы на самом деле можем затем рассказать, что произойдет немного дальше по пути, по которому мы Я только что видел в потоке на основе аналитики, которую мы провели на этом.

Поставщики энергии и коммунальных услуг испытывают это огромное желание потребителей устанавливать цены по требованию. Я мог бы решить, что я хочу покупать зеленую энергию в одно конкретное время дня, потому что я просто дома один, и я не использую много устройств. Но если у меня будет званый обед, я, возможно, захочу, чтобы все мои устройства были включены, и я не хочу покупать дешевую электроэнергию и ждать, пока она будет доставлена, но хочу платить за большую стоимость, чтобы получить эту энергию. Это требование цены, особенно в коммунальном и энергетическом пространстве, уже произошло. Uber, например, является классическим примером того, что вы можете делать каждый день, и все это зависит от цены спроса. Есть несколько классических примеров, когда люди в Австралии получали билеты на 10 000 долларов из-за большого спроса в канун Нового года. Я уверен, что они справились с этой проблемой, но потоковая аналитика выполняется в режиме реального времени, пока в машине говорят вам, сколько я должен заплатить.

Интернет вещей и сенсорные потоки - мы только что об этом поцарапали, и у нас на самом деле только что состоялся базовый разговор об этом, но мы увидим интересный сдвиг в том, как технологии справляются с этим, потому что когда вы говорите, не всего около тысяч или десятков тысяч, но сотен тысяч и, возможно, миллиардов устройств, передаваемых на вас, почти ни один из технологических стеков, которые мы имеем сейчас, не спроектирован, чтобы справиться с этим.

Здесь есть несколько действительно горячих тем, таких как безопасность и кибер-риск. Это очень реальные проблемы для нас. В Интернете есть действительно удобный инструмент под названием «Север», где вы можете сидеть и смотреть на веб-странице различные кибератаки, происходящие в режиме реального времени. Когда вы смотрите на это, вы думаете: «О, это милая маленькая веб-страница», но примерно через пять минут вы понимаете объем данных, которые система выполняет аналитику по всем различным потокам всех различных устройств по всему миру. которые кормят их. Он начинает поражать разумом того, как они выполняют это на самом краю этой записи и предоставляет вам этот простой маленький экран, который говорит вам, что или что-то еще атакует его в реальном времени и какие типы атак. Но это действительно изящный небольшой способ просто получить представление о том, что потенциально может сделать аналитика потоков для вас в режиме реального времени, просто просмотрев эту страницу и почувствовав объем и задачи, связанные с получением потоков и обработкой запросов аналитики. их и представляющих это в режиме реального времени.

Я думаю, что разговор, который я веду до конца сессии, будет посвящен всем этим типам вещей с одной интересной точки зрения, с моей точки зрения, и это проблема DIY, испечь его самому, подходит некоторым из классические единороги, которые могут позволить себе создавать такие вещи. У них есть миллиарды долларов, чтобы построить эти инженерные команды и построить свои центры обработки данных. Но для 99,9% организаций, которые хотят повысить ценность своего бизнеса в области потоковой аналитики, им необходимо получить готовый сервис. Им нужно купить продукт «из коробки», и им, как правило, требуются некоторые консультационные услуги и профессиональные услуги, чтобы помочь им реализовать его, и они возвращают эту ценность обратно в бизнес и продают его обратно в бизнес в качестве рабочего решения.

После этого я вернусь к вам, Ребекка, потому что я верю, что это то, что мы собираемся подробно рассмотреть сейчас.

Ребекка Йозвиак: Отлично. Большое вам спасибо, Дез. Это отличная презентация.

Теперь я передам мяч Робину. Унеси это.

Робин Блур: Хорошо. Из-за того, что Дез увлекся мелкой обработкой потоков, мне, казалось, не имело смысла повторять это снова. Так что я просто собираюсь принять совершенно стратегический взгляд.Взгляд с почти очень высокого уровня на то, что, черт возьми, происходит, и его позиционирование, потому что я думаю, что это могло бы помочь людям, особенно нам, людям, которые раньше не занимались обработкой потоков на большой глубине.

Обработка потоков существует давно. Мы привыкли называть это CEP. До этого были системы реального времени. Оригинальные системы управления процессами фактически обрабатывали потоки информации - конечно, ничто не шло так далеко, как сейчас. Это изображение, которое вы видите на слайде здесь; на самом деле он указывает на многие вещи, но он указывает на то, что помимо всего прочего - тот факт, что здесь есть спектр задержек, которые появляются в разных цветах. То, что произошло на самом деле с момента изобретения вычислительных или коммерческих компьютеров, появившегося примерно в 1960 году, заключается в том, что все становится все быстрее и быстрее. Мы привыкли зависеть от того, как это происходит на самом деле, если вам нравится волнами, потому что это то, как это выглядит. Это на самом деле зависит от этого. Поскольку все это основывалось на законе Мура, а закон Мураса позволил бы нам увеличить скорость примерно в десять раз в течение примерно шести лет. Затем, когда мы действительно добрались до 2013 года, все это сломалось, и мы неожиданно начали ускоряться с такой скоростью, которой у нас никогда не было, что странно беспрецедентно. Мы получили коэффициент около десяти с точки зрения увеличения скорости и, следовательно, снижения задержки примерно каждые шесть лет. За шесть лет, примерно с 2010 года, мы получили кратное число, по крайней мере, тысячу. Три порядка, а не один.

Вот что происходит, и поэтому индустрия так или иначе движется с фантастической скоростью - потому что это так. Просто пройдясь по смыслу этой конкретной графики, время отклика на самом деле, кстати, в алгоритмическом масштабе вниз по вертикальной оси. В режиме реального времени скорость компьютера выше, чем у людей. Интерактивные времена оранжевые. Именно тогда, когда вы взаимодействуете с компьютером, вам действительно нужно время ожидания от одной десятой до одной секунды. Выше есть транзакция, где мы на самом деле думаем о том, что вы делаете на компьютере, но если это произойдет примерно через пятнадцать секунд, это станет невыносимым. Люди на самом деле просто не будут ждать компьютера. Все было сделано в пакетном режиме. Многое, что было сделано в пакетном режиме, теперь идет прямо в транзакционное пространство, прямо в интерактивное пространство или даже в пространство реального времени. В то время как ранее, волнистые с очень маленькими объемами данных мы могли делать некоторые из них, теперь мы можем делать с очень большими объемами данных, используя чрезвычайно масштабируемую среду.

В общем, все это говорит о том, что на самом деле транзакции и интерактивные человеческие отклики. Очень много того, что сейчас делается с потоками, - это информировать людей о вещах. Некоторые из них идут быстрее, и это хорошо информирует, так что это в режиме реального времени. Затем мы берем лицензию, чтобы просто упасть, как камень, делая мгновенную аналитику выполнимой и, между прочим, вполне доступной. Это не только скорость, но и вершина рухнула. Вероятно, самое большое влияние во всех этих приложениях среди всех этих приложений - это аналитическая аналитика. Я скажу вам почему через минуту.

Это просто хозяйственный магазин. У вас есть параллельное программное обеспечение. Мы говорим об этом в 2004 году. Архитектура масштабирования, многоядерные чипы, увеличение памяти, конфигурируемый процессор. SSD теперь работают намного быстрее, чем вращающиеся диски. Вы можете в значительной степени волновать вращающийся диск до свидания. Твердотельные накопители также состоят из нескольких ядер, так что опять все быстрее и быстрее. Вскоре появится мемристор от HP. Мы получили 3D XPoint от Intel и Micron. Их обещание состоит в том, что это все равно будет все быстрее и быстрее. Когда вы на самом деле задумываетесь о двух новых технологиях памяти, каждая из которых сделает основную небольшую часть, отдельная печатная плата будет работать намного быстрее, мы даже не увидели конца этого.

Технология Streams, которая на самом деле является следующей, останется здесь. Должна быть новая архитектура. Я имею в виду, что Дез как бы упоминал об этом в нескольких пунктах своей презентации. В течение десятилетий мы рассматривали архитектуру как комбинацию куч данных и каналов данных. Мы имели тенденцию обрабатывать кучи, и мы имели тенденцию передавать данные между кучами. Сейчас мы в основном движемся к тому, что мы называем архитектурой данных Lambda, которая сочетает в себе обработку потоков данных с кучами данных. Когда вы фактически обрабатываете поток событий, приходящих на исторические данные, как поток данных или кучу данных, это то, что я имею в виду под архитектурой Lambda. Это в зачаточном состоянии. Это только часть картины. Если вы считаете что-то столь же сложным, как «Интернет всего», о котором также упоминал Дез, вы на самом деле поймете, что существуют всевозможные проблемы с расположением данных - решения относительно того, что вы должны обрабатывать в потоке.

То, что я на самом деле говорю, это то, что когда мы обрабатывали в пакетном режиме, мы фактически обрабатывали потоки. Мы просто не могли сделать это по одному. Мы просто ждем, пока не появится большая куча материала, а затем обрабатываем все сразу. Мы переходим к ситуации, когда мы можем обрабатывать вещи в потоке. Если мы сможем обрабатывать вещи в потоке, то кучи данных, которые мы храним, будут статическими данными, на которые мы должны ссылаться для обработки данных в потоке.

Это подводит нас к этой конкретной вещи. Я упоминал об этом раньше в какой-то презентации с биологической аналогией. То, о чем я хотел бы, чтобы вы подумали, это то, что мы люди. У нас есть три различные сети для прогнозирующей обработки в реальном времени. Их называют соматическими, вегетативными и кишечными. Кишечнорастворимый это ваш желудок. Вегетативная нервная система ухаживает за дракой и бегами. Это на самом деле заботится о быстрой реакции на окружающую среду. Соматика, которая следит за движением тела. Это системы реального времени. Интересная вещь об этом - или я думаю, что это довольно интересно - многие из них более предсказуемы, чем вы могли бы себе представить. Как будто вы на самом деле смотрите на экран примерно в 18 дюймах от вашего лица. Все, что вы можете ясно видеть, все, что ваше тело способно ясно видеть, на самом деле представляет собой прямоугольник 8 × 10. Все, что находится за пределами этого, на самом деле размыто для вашего тела, но ваш разум на самом деле заполняет пробелы и делает их не размытыми. Вы не видите размытия вообще. Вы видите это ясно. Ваш разум на самом деле делает прогнозирующий метод потока данных, чтобы вы могли видеть эту ясность. Это довольно любопытно, но на самом деле вы можете посмотреть на то, как работает нервная система, и на то, как нам удается обойтись и вести себя разумно - по крайней мере, некоторые из нас - достаточно разумно и не сталкиваться с вещами все время.

Все это делается с помощью ряда нейронных аналитических масштабов внутри. То, что должно произойти, это то, что организации будут иметь такие же вещи и будут строить такие же вещи, и это будет обработка потоков, включая внутренние потоки организации - вещи, которые происходят внутри это, то, что происходит вне этого, мгновенные ответы, которые действительно должны быть сделаны, конечно, подпитывают человека, чтобы принимать решения, чтобы все это происходило. Вот куда мы идем, насколько я вижу.

Следствием этого является то, что уровень потокового приложения идет хорошо. Будет намного больше, чем мы видим сейчас. Прямо сейчас мы выбираем низко висящий плод выполнения очевидных вещей.

Так или иначе, это заключение здесь. Потоковая аналитика когда-то была нишей, но она становится господствующей тенденцией и скоро будет принята в целом.

С этим я передам это Ребекке.

Ребекка Йозвиак: Большое вам спасибо, Робин. Отличная презентация как обычно.

Ананд, ты следующий. Вам слово.

Ананд Венугопал: Фантастика. Спасибо.

Меня зовут Ананд Венугопал, и я являюсь руководителем продукта для StreamAnalytix. Это продукт, предлагаемый Impetus Technologies из Лос-Гатос, Калифорния.

Компания Impetus на самом деле имеет большую историю в качестве поставщика решений для больших данных для крупных предприятий. Таким образом, мы фактически реализовали несколько реализаций потоковой аналитики в качестве сервисной компании и извлекли много уроков. В последние пару лет мы также изменили положение, став компанией-производителем продуктов и компанией, ориентированной на решения, и потоковая аналитика возглавляет процесс превращения Impetus в компанию, основанную преимущественно на продуктах. Есть несколько важных, очень, очень важных активов, которые Impetus очистил благодаря нашему контакту с предприятиями, и StreamAnalytix является одним из них.

Мы находимся в бизнесе более 20 лет, и огромное разнообразие продуктов и услуг делает нас огромным преимуществом. И StreamAnalytix родился из всех уроков, извлеченных из наших первых пяти или шести реализаций потоковой передачи.

Я коснусь нескольких вещей, но аналитики, Дез и Робин, проделали фантастическую работу по освещению всего пространства, поэтому я собираюсь пропустить много контента, который частично совпадает. Я, наверное, пойду быстро. Мы видим, кроме настоящих потоковых случаев, использующих много просто пакетного ускорения, где на предприятиях буквально очень и очень важны пакетные процессы. Как вы можете видеть, весь этот цикл восприятия события, анализа и воздействия на него может на самом деле занимать недели на крупных предприятиях, и все они пытаются сократить его до минут, а иногда секунд и миллисекунд. Таким образом, все, что быстрее всех этих пакетных процессов, является кандидатом на приобретение бизнеса, и очень хорошо, что ценность данных резко уменьшается с возрастом, поэтому чем больше значение в начальной части в секундах, которое это только что произошло. В идеале, если бы вы могли предсказать, что должно было произойти, это самое высокое значение. Однако это зависит от точности. Следующее наивысшее значение - это когда оно прямо там, когда это происходит, вы можете проанализировать его и ответить. Конечно, после этого ценность резко снижается, что является основным ограничивающим BI, в котором мы находимся.

Это интересно. Вы можете ожидать какой-то кардинально научный ответ, почему потоковая аналитика. Во многих случаях мы видим это потому, что теперь это возможно, и потому что все знают, что партия старая, партия скучная, а партия не крутая. Теперь у нас достаточно знаний о том, что потоковое вещание возможно, и у всех есть Hadoop. Теперь в дистрибутивы Hadoop встроена потоковая технология, будь то потоковая передача Storm или Spark и, конечно, очереди, такие как Kafka и т. Д.

Предприятия, которые мы видим, прыгают в это и начинают экспериментировать с этими случаями, и мы видим две широкие категории. Один из них имеет отношение к анализу клиента и его опыту, а второй - к операционному интеллекту. Я подробнее расскажу об этом чуть позже. Весь аспект обслуживания клиентов и качества обслуживания клиентов, и мы в Impetus StreamAnalytix сделали это по-разному - все это на самом деле, действительно захватывая многоканальное вовлечение потребителей в режиме реального времени и предоставляя им очень, очень конфиденциальный опыт которые не распространены сегодня. Если вы просматриваете веб-страницы, веб-сайт Банка Америки, изучаете некоторые продукты и просто звоните в колл-центр. Они скажут: «Привет, Джо, я знаю, что ты исследовал некоторые банковские продукты, хочешь, чтобы я заполнил тебя?» Ты не ожидаешь этого сегодня, но такой опыт действительно возможен при потоковой аналитике. Во многих случаях это имеет огромное значение, особенно если клиент начал искать способы расторгнуть свой договор с вами, посмотрев на своем веб-сайте условия досрочного расторжения или условия досрочного расторжения, а затем позвоните, и вы сможете не прямо опровергните их об этом, но просто косвенно сделайте предложение о каком-то первом продвижении, потому что система знает, что этот человек рассматривает возможность досрочного расторжения, и вы делаете это предложение в тот момент, вы могли бы очень хорошо защитить этого растущего клиента и защитить этот актив ,

Это был бы один пример, плюс множество услуг для клиентов - все это очень хорошие примеры. Мы внедряем сегодня, снижает стоимость в колл-центр, а также обеспечивает впечатляющие впечатления клиентов. Дез проделал большую работу, суммировав некоторые варианты использования. Вы можете посмотреть на этот график в течение нескольких минут. Я классифицировал его как вертикальные, горизонтальные и комбо-зоны, IoT, мобильное приложение и колл-центр. Все они вертикали и горизонтали. Это зависит от того, как вы на это смотрите. В итоге мы видим множество горизонтальных применений, которые довольно распространены в отраслевых вертикалях, и есть конкретные случаи использования, включая финансовые услуги, здравоохранение, телекоммуникации, производство и т. Д. Если вы действительно задаете себе вопрос или говорите себе что, «о, я не знаю, какие есть варианты использования. Я не уверен, есть ли какая-то ценность для бизнеса в потоковой аналитике для моей компании или для нашего предприятия », - подумайте, подумайте дважды. Поговорите с большим количеством людей, потому что есть случаи, которые в вашей компании актуальны сегодня. Я расскажу о ценности бизнеса, как именно она определяется.

Здесь, в нижней части пирамиды, у вас есть интеллектуальное обслуживание, безопасность, защита от оттока и т. Д. Такие варианты использования представляют собой защиту доходов и активов. Если Target защитит свои нарушения безопасности, которые произошли в течение нескольких часов и недель, ИТ-директор мог бы сохранить свою работу. Это может сэкономить десятки или сотни миллионов долларов и т. Д. Потоковая аналитика в реальном времени действительно помогает защитить эти активы и защитить убытки. Это прямая добавленная стоимость бизнеса прямо здесь.

Следующая категория становится более прибыльной, снижая ваши затраты и получая больше доходов от текущей деятельности. Это эффективность нынешнего предприятия. Это все категории использования, которые мы называем оперативной аналитикой в реальном времени, когда вы получаете глубокое понимание того, как ведет себя сеть, как ведут себя операции с вашими клиентами, как ведут себя ваши бизнес-процессы, и вы можете настроить все это в режиме реального времени, потому что вы получаете обратную связь, вы получаете оповещения. Вы получаете отклонения, отклонения в режиме реального времени, и вы можете быстро действовать и отделять процесс, выходящий за пределы.

Вы также можете сэкономить много денег на дорогостоящих капитальных модернизациях и вещах, которые, по вашему мнению, необходимы, которые могут не понадобиться, если вы оптимизировали сетевой сервис. Мы слышали о случае, когда крупная телекоммуникационная компания отложила модернизацию своей сетевой инфраструктуры на 40 миллионов долларов, поскольку обнаружила, что у них достаточно ресурсов для управления текущим трафиком, то есть путем оптимизации и более эффективной интеллектуальной маршрутизации своего трафика и тому подобных вещей. Все это возможно только с некоторой аналитикой в реальном времени и механизмом действия, который воздействует на эти идеи в реальном времени.

Следующий уровень добавленной стоимости - это распродажа, перекрестная продажа, где есть возможность получить больше доходов и прибыли от текущих предложений. Это классический пример, который многие из нас знают о том, что они пережили, когда вы думаете о своей жизни, когда вы действительно хотите купить продукт, который вам не предлагается. Во многих случаях это действительно происходит. В вашем уме есть вещи, которые вы хотели бы купить, которые, как вы знаете, хотите купить, что у вас есть список дел или что-то такое, что вам сказала ваша жена, или если у вас нет жены, но вы действительно хотели купить и вы ходите по магазинам на веб-сайте или взаимодействуете в розничном магазине, у витрины просто нет мошенничества, нет интеллекта для вычисления того, что вам может понадобиться. Следовательно, они не получают свой бизнес в безопасности. Если потоковая аналитика может быть развернута, чтобы действительно делать точные прогнозы, и которые действительно возможны в отношении того, что больше всего подойдет этому конкретному клиенту, у этого клиента в это время в этом месте, есть много ап-продаж и кросс-продаж, и это опять-таки исходит от потоковая аналитика - возможность принять решение о том, что этот клиент, скорее всего, купит или отреагирует в тот момент истины, когда есть такая возможность. Вот почему я люблю эту картину, которую Дез показал с медведем, собирающимся съесть эту рыбу. Вот и все.

Мы также считаем, что существует большая категория существенных трансформационных изменений на предприятии, предлагающих совершенно новые продукты и услуги, просто основанные на наблюдении за поведением клиентов, и все они основаны на наблюдении за поведением другого предприятия. Если, скажем, телекоммуникационная компания или кабельная компания действительно наблюдают за моделями использования клиентов в том сегменте рынка, который он просматривает, какую программу, в какое время и т. Д., То они фактически заканчивают тем, что создают продукты и услуги, о которых почти ничего не говорят. в некотором роде. Таким образом, вся концепция мультиэкранного поведения прямо сейчас, когда мы почти принимаем это как должное, заключается в том, что мы можем видеть ТВ или кабельный контент в наших мобильных приложениях. Некоторые из этих примеров взяты из тех новых продуктов и услуг, которые предлагаются нам.

Я расскажу: «Каковы архитектурные соображения потоковой аналитики?» В конечном итоге это то, что мы пытаемся сделать. Это архитектура Lambda, в которой вы смешиваете исторические данные и данные в реальном времени и видите их одновременно. Это то, что позволяет Сигма. У всех нас есть пакетная архитектура и корпоративная картина сегодня. Мы подбираем некоторый вид стека BI и стека использования, а также добавляем архитектуру Lambda. Как слой скорости, или потребность, так и лямбда - это все, что объединяет эти две идеи и объединяет их в богатой форме, которая объединяет обе идеи.

Предлагается еще одна парадигма, называемая архитектурой Каппа, в которой предполагается, что скоростной слой является единственным механизмом ввода, который будет сохраняться в долгосрочной перспективе. Все пройдет через этот скоростной слой. Там даже не будет автономного механизма ETL. Все ETL произойдет. Очистка, очистка данных, качество ETL - все это будет происходить по проводам, поскольку имейте в виду, что все данные были получены в режиме реального времени. В какой-то момент это было в реальном времени. Мы настолько привыкли ставить это на озерах, реках и океанах, а затем делать это на статическом анализе, что мы забыли, что данные были получены в определенный момент в реальном времени.Все данные на самом деле рождаются как события в реальном времени, которые произошли в определенный момент времени, и большая часть данных сегодня на озере была просто помещена в базу данных для последующего анализа, и теперь у нас есть преимущество в архитектуре Lambda и Kappa по видеть его, анализировать, предварительно обрабатывать и реагировать на него по мере его поступления. Это то, что обеспечивается этими технологиями. Когда вы смотрите на это как на общую картину, это выглядит примерно так: внутри Hadoop, MPP и хранилища данных, которые у вас уже есть.

Мы поднимаем это, потому что важно не просто говорить о новых технологиях на острове. Они должны интегрироваться. Они должны иметь смысл в нынешних корпоративных условиях, и как поставщики решений, которые обслуживают предприятия, мы очень чувствительны к этому. Мы помогаем предприятиям интегрировать все это. С левой стороны расположены источники данных, которые подаются как на уровни Hadoop, так и на уровни хранилища данных, а также на уровень в реальном времени сверху, и каждый из этих объектов, как вы можете видеть, представляют собой стандартные компьютеры, а уровень потребления данных находится справа. сторона. Прилагаются постоянные усилия для того, чтобы перенести большую часть соответствия, управления, безопасности, управления жизненным циклом и т. Д., Которые доступны сегодня, - все они накоплены в этой новой технологии.

Одна из вещей, которую пытается сделать потоковая аналитика, если вы посмотрите на ландшафт сегодня, в области потоковых технологий происходит много вещей, и с точки зрения корпоративных клиентов есть так много, что нужно понять. Есть так много, чтобы не отставать. С левой стороны расположены механизмы сбора данных - NiFi, Logstash, Flume, Sqoop. Очевидно, я выдвинул заявление об отказе от ответственности, сказав, что оно не является исчерпывающим. Вход в очереди, а затем в потоковые движки с открытым исходным кодом - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron, вероятно, еще не с открытым исходным кодом. Я не уверен, если это, с. Затем эти потоковые механизмы приводят или поддерживают аналитический прикладной компонент настройки, такой как сложная обработка событий, машинное обучение, прогнозная аналитика, модуль оповещения, потоковый ETL, фильтры статистических операций по обогащению. Это все, что мы называем сейчас операторами. Набор этих операторов, если они связаны друг с другом, потенциально может также привести к выводу, что в некоторых случаях пользовательский интерфейс, в значительной степени завершенный, становится потоковым приложением, работающим на потоковом движке.

В рамках этой цепочки компонентов вам также необходимо хранить и индексировать данные в вашей любимой базе данных, вашем любимом индексе. Возможно, вам также придется распределить кеш и снова, что приведет к уровню визуализации данных с правой стороны в верхней части для коммерческих продуктов или продуктов с открытым исходным кодом, но в конечном итоге вам понадобится какой-то продукт для визуализации этих данных в режиме реального времени. Кроме того, вам иногда нужно изобразить другие приложения. Мы все видели, что значения получаются только из действия, которое вы выполняете, чтобы понять, что это действие будет триггером из аналитического стека в другой стек приложений, который может быть изменен, что-то на стороне IVR, или вызовет колл-центр исходящий звонок или что-то в этом роде. Нам нужно интегрировать эти системы и какой-то механизм для вашего потокового кластера, чтобы запускать другие приложения обработки данных в нисходящем направлении.

Это общий стек, идущий слева направо. Затем у вас есть сервисные уровни, средний мониторинг, общий уровень безопасности и т. Д. В связи с тем, какие продукты в корпоративном пространстве присутствуют у клиентов, такие как дистрибутивы Hadoop, у всех есть потоковая передача, как я сказал, и есть коммерческая или единичная. -вендоры решений, которые явно есть у наших конкурентов. В ландшафте есть и много других, которые мы, возможно, здесь не упомянули.

То, что вы видите там, широко видят корпоративные пользователи. Как видите, сложный и быстро развивающийся технологический ландшафт для обработки потоков. Мы получили возможность упростить выбор и удобство использования. Мы считаем, что предприятия действительно нуждаются в функциональной абстракции всего этого в едином, простом в использовании интерфейсе, объединяющем все эти технологии, который делает его действительно простым в использовании и не раскрывающем все движущиеся части. и проблемы деградации и проблемы производительности и проблемы обслуживания жизненного цикла для предприятия.

Функциональная абстракция одна. Вторая часть - потоковая абстракция движка. Потоковые движки и домены с открытым исходным кодом появляются каждые три, четыре или шесть месяцев. Шторм был долгое время. Самза подошла, и теперь это Spark Streaming. Флинк поднимает голову, начинает привлекать внимание. Даже в дорожной карте Spark Streaming они создают потенциальную возможность использовать другой механизм для чистой обработки событий, поскольку они также понимают, что Spark был разработан для пакетной обработки, и они прокладывают путь в своей архитектуре и своей дорожной карте, чтобы потенциально иметь другую движок для обработки потоков в дополнение к текущему шаблону микропакета в Spark Streaming.

Это реальность, с которой вы должны бороться, что будет много эволюции. Вы действительно должны защитить себя от этого технологического потока. Потому что по умолчанию вам придется выбрать один, а затем жить с ним, что не является оптимальным. Если вы смотрите на это по-другому, вы боретесь между: «Хорошо, я должен купить проприетарную платформу, где нет блокировки, нет рычага с открытым исходным кодом, может быть очень высокая стоимость и ограниченность гибкость по сравнению со всеми этими стеками с открытым исходным кодом, где вы должны сделать это сами ». Опять же, как я уже сказал, это очень затратно и задерживает выход на рынок. Мы говорим о том, что StreamAnalytix - это один из примеров великолепной платформы, которая объединяет корпоративный класс, надежного единого поставщика, поддерживаемые профессиональные услуги - все, что вам действительно нужно как предприятие, и мощь гибкости экосистемы с открытым исходным кодом. где единая платформа объединяет их - Ingest, CEP, аналитика, визуализация и все такое.

Это также делает очень, очень уникальную вещь, которая объединяет множество различных технологических движков под одним пользователем. Мы действительно думаем, что будущее за возможностью использования нескольких потоковых движков, потому что разные варианты использования действительно требуют разных потоковых архитектур. Как сказал Робин, существует целый спектр задержек. Если вы действительно говорите об уровне задержки в миллисекундах, десятках или даже сотнях миллисекунд, вам действительно нужен Storm в это время, пока не появится еще один столь же зрелый продукт для меньшего снисхождения или меньших временных рамок и задержек, возможно, через пару секунд, три, четыре, пять секунд, этот диапазон, затем вы можете использовать Spark Streaming. Потенциально, есть другие двигатели, которые могут сделать оба. В итоге, на крупном предприятии, будут случаи использования всех видов. Вы действительно хотите, чтобы доступ и общность имели несколько механизмов с одним пользовательским интерфейсом, и это то, что мы пытаемся создать в StreamAnalytix.

Просто быстрый взгляд на архитектуру. Мы собираемся немного доработать это, но по сути, есть несколько источников данных, поступающих с левой стороны - Kafka, RabbitMQ, Kinesis, ActiveMQ, все эти источники данных и очереди, поступающие на платформу потоковой обработки, где вы собрать приложение, где вы можете перетаскивать из операторов, таких как ETL, все то, о чем мы говорили. Внизу есть несколько двигателей. Прямо сейчас у нас есть Storm и Spark Streaming - единственная в отрасли и первая потоковая платформа корпоративного класса с поддержкой нескольких ядер. Это уникальная гибкость, которую мы предлагаем, помимо всей другой гибкости наличия панелей мониторинга в реальном времени. CET двигатель встроен. У нас есть бесшовная интеграция с индексами Hadoop и NoSQL, индексами Solr и Apache. Вы можете получить доступ к своей любимой базе данных независимо от того, что это такое, и создавать приложения очень быстро, быстро выходить на рынок и оставаться на будущее. Это вся наша мантра в StreamAnalytix.

На этом, я думаю, я завершу свои замечания. Не стесняйтесь обращаться к нам за дополнительными вопросами. Я хотел бы оставить слово открытым для вопросов и ответов и панельной дискуссии.

Ребекка, к тебе.

Ребекка Йозвиак: Отлично, хорошо. Огромное спасибо. Дез и Робин, у вас есть вопросы, прежде чем мы передадим их в аудиторию?

Робин Блур: У меня есть вопрос. Я снова надену наушники, чтобы вы меня слышали. Одна из интересных вещей, если вы любезно скажете мне это, многое из того, что я видел в открытом пространстве, выглядит так, как я бы сказал, незрелым для меня. В некотором смысле, да, вы можете делать разные вещи. Но похоже, что мы смотрим на программное обеспечение в его первом или втором выпуске в реальности, и мне было просто интересно с вашим опытом как организации, насколько вы считаете незрелость среды Hadoop проблематичной или это то, что не ' не создает слишком много проблем?

Ананд Венугопал: Это реальность, Робин. Вы совершенно правы. Незрелость не обязательно связана с просто функциональной стабильностью и прочим, но, возможно, в некоторых случаях это тоже. Но незрелость больше в готовности к использованию. Продукты с открытым исходным кодом по мере их появления и даже в том случае, когда они предлагаются дистрибутивом Hadoop, все они представляют собой множество различных способных продуктов, компонентов, просто соединенных вместе. Они не работают вместе без проблем и не предназначены для бесперебойной работы пользователей, которые, как и Bank of America, Verizon или AT & T, могут развернуть приложение потоковой аналитики в течение нескольких недель. Они не предназначены для этого точно. Вот почему мы вступаем. Мы собираем это вместе и делаем его действительно простым для понимания, развертывания и т. Д.

Функциональная зрелость этого, я думаю, в значительной степени, есть. Сегодня многие крупные предприятия используют, например, Storm. Многие крупные предприятия сегодня играют с Spark Streaming. У каждого из этих двигателей есть свои ограничения в том, что они могут делать, поэтому важно знать, что вы можете и чего не можете делать с каждым двигателем, и нет смысла ломать голову о стену и говорить: «Смотри, я Я выбрал Spark Streaming, и он не работает для меня в этой конкретной отрасли ». Это не сработает. Будут случаи, когда Spark Streaming будет лучшим вариантом, и будут случаи, когда Spark Streaming может вообще не работать для вас. Вот почему вам действительно нужно несколько вариантов.

Робин Блур: Ну, для этого вам нужны экспертные команды. Я имею в виду, что даже не знаю, с чего начать. Разумное сотрудничество опытных людей. Мне интересно, как вы вовлекаетесь и как это происходит. Это потому, что какая-то конкретная компания преследует конкретную заявку или вы видите то, что я бы назвал стратегическим принятием, когда они хотят, чтобы целая платформа делала много вещей.

Ананд Венугопал: Мы видим примеры обоих, Робин. Некоторые из десяти ведущих брендов, которые все знают, относятся к этому очень стратегически. Они знают, что у них будет множество вариантов использования, поэтому они оценивают платформы, которые удовлетворят эту потребность, то есть различные варианты использования мультитенантным образом, которые будут развернуты на предприятии. Есть также истории с одним вариантом использования, которые также начинаются. В ипотечной компании, над которой мы работаем, есть конкретный вариант использования типа мониторинга деловой активности, который вы не могли бы представить в качестве первого варианта использования, но это было бизнес-решение или вариант использования, которые они придумали, а затем мы подключили точки к потоковой передаче. , Мы сказали: «Знаете что? Это отличный случай для потоковой аналитики, и именно так мы можем ее реализовать ». Так она начиналась. Затем, в этом процессе, они получают образование и говорят: «Ух ты, если мы можем сделать это, и если это общая платформа, то мы можем разделить приложение, разделить их на платформы и построить много различных приложений на этом Платформа."

Робин Блур: Дез, у тебя есть вопросы?

Ананд Венугопал: Дез, вероятно, отключен.

Дез Бланчфилд: Извинения, немой. Я только что имел хороший разговор сам. Просто следуя первоначальному наблюдению за Робином, вы абсолютно правы. Я думаю, что проблема сейчас заключается в том, что у предприятий есть экосистема и культурная и поведенческая среда, где бесплатное программное обеспечение с открытым исходным кодом - это то, что им известно, и они могут использовать такие инструменты, как Firefox в качестве браузера, и у него есть достойное время жизни, пока оно не станет стабильным и безопасным. Но некоторые из этих очень больших платформ, которые они используют, являются проприетарными платформами корпоративного уровня. Поэтому принятие того, что я считаю платформами с открытым исходным кодом, не всегда легко для них в культурном или эмоциональном плане. Я видел это только благодаря принятию небольших программ, которые были локальными проектами, которые просто играли с большими данными и аналитикой в качестве фундаментальной концепции. Я думаю, что одна из ключевых проблем, я уверен, что вы видели их сейчас во всех организациях, это их желание добиться результата, но в то же время они застряли одной ногой в старой банке, где они могли бы просто купить это у «Вставить большой бренд» Oracle, IBM и Microsoft. Эти новые и известные бренды появляются на платформах Hadoop и даже больше. Появляются более интересные бренды, использующие передовые технологии, такие как stream.

Какие у вас были разговоры такого рода, которые вы проходили или проходили через это? Я знаю, что сегодня утром у нас много посетителей, и я уверен, что у всех на уме одна мысль: «Как мне пробиться сквозь весь этот сложный слой от правления до уровня управления, о его слишком открытый исходный код и слишком кровоточащий край? «Как идут ваши разговоры с клиентами и как вы переходите к тому моменту, когда вы как бы смягчаете страхи такого типа, чтобы подумать о принятии подобных StreamAnalytix?

Ананд Венугопал: На самом деле нам очень легко продавать наше ценное предложение, потому что клиенты естественным образом переходят на открытый исходный код в качестве предпочтительного варианта. Им нелегко просто сдаться и сказать: «Хорошо, теперь я пойду с открытым исходным кодом». Они на самом деле проходят очень тщательную оценку основного продукта, скажем, IBM или типичного продукта, потому что у них есть эти отношения с поставщиками. Они не будут относиться к нам или движку с открытым исходным кодом против этого продукта. Они пройдут от шести до восьми до двенадцати недель оценки. Они убедят себя в том, что здесь нужна определенная производительность и стабильность, а затем решают сказать: «Ух ты, знаешь что, я действительно могу это сделать».

Например, сегодня у нас есть телекоммуникационная компания первого уровня, у которой потоковая аналитика запущена в производство на вершине большого стека, и они оценивают это по отношению к другому очень, очень крупному известному поставщику, и они были убеждены только после того, как мы доказали все производительность, стабильность и все эти вещи. Они не принимают это как должное. Они выяснили, что open source компетентен в своих оценках, и они понимают, что в худшем случае: «Возможно, есть два варианта использования, которые я, возможно, не смогу сделать, но большинство из моих сценариев использования ускорения бизнеса сегодня в высшей степени возможны с открытым исходным кодом. стек ». И мы разрешаем его использование. Так что это большое сладкое место прямо здесь. Они хотели с открытым исходным кодом. Они действительно хотят выйти из ситуации, в которой они были привязаны к поставщикам, к которой они привыкли много-много лет. Затем мы приходим и говорим: «Знаете, мы сделаем открытый исходный код намного проще и удобнее в использовании».

Дез Бланчфилд: Я думаю, что другая проблема, с которой сталкиваются предприятия, заключается в том, что, когда они привносят традиционную силу, они зачастую отстают от некоторых из самых крутых идей, о которых мы здесь говорим, и я не имею в виду это как минус. Просто реальность такова, что у них есть поколение и путь, чтобы пройти через то, что они считают стабильными платформами, циклы разработки и интеграции UATN, тестирование и документирование, а также маркетинг и продажи. Принимая во внимание тот тип, которым вы занимаетесь, я думаю, что мне интересно подумать о том, что, глядя на некоторые из ваших последних релизов прошлой ночью, проводя какую-то исследовательскую работу, вы получили этот микс сейчас, где вы получили компетентность с точки зрения первоначального консультирования и реализации, но у вас также есть стек, который вы можете развернуть. Я думаю, что именно здесь сотрудники будут бороться в течение некоторого времени. Мы видели многих из них, как я видел на рынке. Они часто находятся в том, что я называю узлами догоняющего типа, тогда как из того, что вы говорите нам, когда вы проводите эти разговоры и вы там реализуете.

Можете ли вы дать нам несколько примеров некоторых вертикалей границ, которые вы видели усыновлением? Например, существует действительно нишевая среда, такая как ракетостроение и размещение спутников в космосе и сбор данных с Марса. Есть только горстка людей, делающих это на планете. Но есть такие большие вертикали, как, например, здравоохранение, в аэронавтике, судоходстве и логистике, в производстве и машиностроении. Вот несколько примеров более крупных и широких отраслей промышленности, в которых вы были настолько далеко, что вы видели действительно хорошие принятие в?

Ананд Венугопал: Telco - большой пример.

Я просто собираюсь быстро исправить мои слайды здесь. Можете ли вы увидеть слайд здесь, пример 4?

Это случай, когда большие операторы принимают данные телеприставки и делают с ней несколько вещей. Они смотрят на то, что на самом деле делают клиенты в режиме реального времени. Они смотрят на то, где ошибки происходят в реальном времени в телевизионных приставках. Они пытаются проинформировать колл-центр о том, что, если этот клиент звонит прямо сейчас, информацию о кодовой ссылке из телеприставки этого клиента, информацию о билете на обслуживание быстро коррелируют, есть ли у данного конкретного телеприставки проблема или даже раньше клиент говорит слово. Каждая кабельная компания, каждая крупная телекоммуникационная компания пытается это сделать. Они принимают данные телеприставок, проводят аналитику в реальном времени, аналитику кампаний, чтобы они могли размещать свои объявления. Там огромный случай использования.

Как я уже сказал, есть эта ипотечная компания, которая снова является общей моделью, в которой большие системы участвуют в обработке данных. Данные, которые передаются через систему A в систему B в систему C, и это регулируемые предприятия, и все должно быть согласованным.Часто системы не синхронизируются друг с другом, одна система говорит: «Я обрабатываю сто кредитов на общую сумму 10 миллионов долларов». Система говорит: «Нет, я обрабатываю 110 кредитов некоторых других другое число ». Они должны решить это очень быстро, потому что на самом деле они обрабатывают одни и те же данные и делают разные интерпретации.

Будь то кредитная карта, обработка ссуды, бизнес-процесс или бизнес-процесс с ипотекой или что-то еще, мы помогаем им выполнять корреляцию и сверку в реальном времени, чтобы обеспечить синхронизацию этих бизнес-процессов. Это еще один интересный пример использования. Существует один крупный правительственный подрядчик США, который просматривает DNS-трафик для обнаружения аномалий. Они создали автономную модель обучения, и они оценивают ее на основе трафика в реальном времени. Некоторые из этих интересных вариантов использования. Существует крупная авиакомпания, которая просматривает очереди безопасности, и они пытаются предоставить вам такую информацию: «Эй, это ваши ворота для вашего самолета для вашего полета. Сегодня очередь TSA составляет около 45 минут, а не два часа, а что-то еще ». Вы получаете это обновление заранее. Они все еще работают над этим. Интересный пример использования IoT, но отличный пример потоковой аналитики, направленной на взаимодействие с клиентами.

Ребекка Йозвиак: Это Ребекка. В то время, как вы обсуждаете варианты использования, один из участников аудитории задается вопросом: «Являются ли эти примеры из практики, эти инициативы основаны на аналитической стороне информационной системы или они в большей степени ориентированы на бизнес, который имеет конкретные вопросы или потребности? »

Ананд Венугопал: Я думаю, что мы видим около 60 процентов, от 50 до 55 процентов, в основном очень инициативных, увлеченных технологическими инициативами, которые знают, которые оказались достаточно опытными и понимают определенные бизнес-требования, и у них, вероятно, есть один спонсор, которого они определили, но они Готовятся ли технологические группы к натиску бизнес-прецедентов, а затем, когда они создают возможности, они знают, что могут это сделать, а затем идут в бизнес и настойчиво продают это. В 30-40% случаев мы видим, что в бизнесе уже есть конкретный пример использования, который требует возможности потоковой аналитики.

Ребекка Йозвиак: Это имеет смысл. У меня есть еще один более технический вопрос от члена аудитории. Он задается вопросом, поддерживают ли эти системы как структурированные, так и неструктурированные потоки данных, такие как отложения потоков или сообщений в режиме реального времени, или это необходимо предварительно отфильтровать?

Ананд Венугопал: Продукты и технологии, о которых мы говорим, очень скоро поддерживают как структурированные, так и неструктурированные данные. Они могут быть настроены. Все данные имеют какую-то структуру, будь то XML, или что-то вообще. Существует некоторая структура с точки зрения подачи метки времени. Возможно, есть еще один большой двоичный объект, который нужно проанализировать, чтобы вы могли добавить анализ в поток для анализа структур данных. Если он структурирован, то мы просто сообщаем системе: «Хорошо, если есть значения, разделенные запятыми, и первое - это строка, второе - это дата». Таким образом, мы можем внедрить этот анализ при разборе в верхние слои экрана и легко обрабатывать как структурированные, так и неструктурированные данные.

Ребекка Йозвиак: У меня есть еще один вопрос из зала. Я знаю, что мы пробежали немного больше часа. Этот участник хочет знать, кажется, что потоковые приложения в реальном времени могут развить как потребность, так и возможность для интеграции обратно в транзакционные системы, например системы предотвращения мошенничества, которые они используют. В таком случае, нужно ли настраивать транзакционные системы, чтобы они соответствовали этому?

Ананд Венугопал: Это слияние, верно? Это слияние транзакционных систем. Иногда они становятся источником данных, где мы анализируем транзакции в режиме реального времени, а во многих случаях, например, когда есть поток приложений, и здесь я пытаюсь показать сайт поиска статических данных, а затем в нашем случае, когда происходит потоковая передача данных. и вы ищите статическую базу данных, такую как HBase или RDBMS, чтобы объединить потоковые данные и статические данные вместе, чтобы принять решение или аналитическую информацию.

Есть еще одна крупная отраслевая тенденция, которую мы также наблюдаем - конвергенция OLAP и OLTP - и поэтому у вас есть базы данных, такие как базы данных Kudu, и базы данных в памяти, поддерживающие как транзакции, так и аналитическую обработку одновременно. Слой потоковой обработки будет полностью в памяти, и мы будем рассматривать или взаимодействовать с некоторыми из этих транзакционных баз данных.

Ребекка Йозвиак: Я думаю, смешанная нагрузка была одним из последних препятствий для прыжка. Дез, Робин, у вас есть еще вопросы?

Дез Бланчфилд: Я собираюсь перейти к последнему вопросу и подвести итог, если вы не возражаете. Первая проблема, с которой организации, с которыми я сталкивался в течение последнего десятилетия или около того, привела к этой захватывающей задаче потоковой аналитики, первое, что они склонны ставить на стол, когда мы начинали разговор вокруг этой всей проблемы, - это где мы получили набор навыков? Как мы переобучим набор навыков и как мы получим эту способность внутренне? Наличие Импульса, входящего и поддерживающего нас, проведет нас через путешествие, а затем осуществит как отличный первый шаг, и в этом есть большой смысл делать это.

Но для средних и крупных организаций, какие вещи вы видите в данный момент, чтобы подготовиться к этому, создать эту способность внутренне, получить что-нибудь из простого словарного запаса вокруг нее и что они могут сделать с организация вокруг перехода к такого рода фреймворкам и переоснащение их существующего технического персонала от ИТ от генерального директора, чтобы они могли сами управлять этим, как только вы создадите и внедрите его? Просто очень кратко, какие проблемы и как они решают, клиенты, с которыми вы сталкиваетесь, типы проблем, которые они обнаружили, и как они проходят, решая эту переподготовку и возвращая опыт и знания, чтобы подготовиться к этому и быть в состоянии обойтись оперативно?

Ананд Венугопал: Часто небольшая группа людей, которые пытаются выйти и купить платформу потоковой аналитики, уже достаточно умны в том, что они осведомлены о Hadoop, они уже приобрели свои навыки в Hadoop MapReduce и потому, что они тесно сотрудничают с поставщиком дистрибуции Hadoop, они либо знакомы. Например, все получает Кафка. Они что-то делают с этим, и потоковая передача Storm или Spark находится в их области с открытым исходным кодом. Определенно, люди знакомы с этим или строят навыки вокруг него. Но это начинается с небольшой группы людей, которые достаточно опытны и достаточно умны. Они посещают конференции. Они учатся и задают интеллектуальные вопросы продавцам, а в некоторых случаях они учатся у продавцов. Поскольку поставщики приходят и представляют на первом собрании, они, возможно, не знают ничего, но они совместно читают, а затем начинают играть с ним.

Эта небольшая группа людей является ядром, и затем она начинает расти, и теперь все понимают, что первый бизнес-сценарий используется. Начинается волна, и на прошлой неделе на саммите Spark мы увидели, что такое крупное предприятие, как Capital One, было в полном составе. Они выбирали Спарк. Они говорили об этом. Они обучают много своих людей в Spark, потому что они вносят свой вклад в это также во многих случаях как пользователь. То же самое мы видим на многих крупных предприятиях. Это начинается с нескольких небольших очень умных людей, а затем начинается волна общего образования, и люди знают, что однажды старший вице-президент или старший директор согласны, и они хотят сделать ставку на это, и слово приходит в себя и все они начинают приобретать эти навыки.

Дез Бланчфилд: Я уверен, что вы отлично проведете время, создавая этих чемпионов.

Ананд Венугопал: Да. Мы много обучаемся, работая с первыми чемпионами, и проводим обучающие курсы, и многие, многие для наших крупных клиентов, мы вернулись назад и провели много тренингов, чтобы привлечь многих пользователей к основной фазе использования, особенно на сайте Hadoop MapReduce. Мы обнаружили, что в крупной компании, выпускающей кредитные карты, которая является нашим клиентом, мы разработали по меньшей мере от пяти до восьми различных учебных программ. У нас также есть бесплатные общественные выпуски всех этих продуктов, включая наши, песочницы, которые люди могут загружать, привыкать и обучать себя таким же образом.

Дез Бланчфилд: Это все, что у меня есть для тебя сегодня утром. Большое спасибо. Мне невероятно интересно видеть типы моделей и варианты использования, которые вы получили для нас сегодня. Спасибо.

Ананд Венугопал: Отлично. Спасибо большое, ребята.

Ребекка Йозвиак: Спасибо всем, кто присоединился к нам в этой веб-трансляции Hot Technologies. Было восхитительно слышать от Деза Бланчфилда, доктора Робина Блура и от Impetus Technologies, Ананда Венугопала. Спасибо, докладчики. Спасибо ораторам и аудитории. В следующем месяце у нас есть еще одна «Горячая технология», так что ищите. Вы всегда можете найти наш контент в архиве на Insideanalysis.com. Мы также разместили много контента на SlideShare и некоторые интересные фрагменты на YouTube.

Это все, ребята. Еще раз спасибо и хорошего дня. Пока-пока.