Должность: инженер данных

Видео: Основные ОТЛИЧИЯ DATA ENGINEER, DATA SCIENTIST и DATA ANALYST

Содержание

Конкретная роль уточнения данных
Инженеры данных и меняющийся ландшафт больших данных
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Инженеры данных: уточнение данных
Хранение данных
Инженеры данных как сваты

Источник: Паулюс Русянто / Dreamstime.com

вынос:

Инженеры данных часто путают с учеными, но в этих двух ролях есть существенные различия.

В наши дни инженеры по обработке данных очень востребованы, но у слишком многих руководителей и других возникают большие вопросы о том, что делают эти профессионалы.

Существует существенная путаница между разницей между разработчиками программного обеспечения и разработчиками данных, а также вопросами о том, как ученые данных работают вместе. Примите во внимание все виды новых проектов в области больших данных, включая инструменты машинного обучения и бизнес-анализа, и у вас возникнет некоторая путаница в отношении роли инженера данных и того, из чего может состоять их повседневная работа.

Читать: 6 ключевых понятий науки о данных, которые вы можете освоить с помощью онлайн-обучения

Конкретная роль уточнения данных

Говоря в целом, инженер данных отвечает за работу с системами данных и уточнение данных, чтобы вписаться в те системы, где ученый играет немного другую роль в работе непосредственно с очисткой и организацией больших наборов данных.

Если бы был один простой способ отличить то, что обычно делают ученые, и то, что обычно делают инженеры, вы могли бы сказать, что ученый будет смотреть на данные. сквозь объектив в то время как инженер данных будет смотреть на данные глазами базы данных или большой системы обработки данных.

«Инженеры данных… специализируются на переводе работы ученых данных в надежные, управляемые данными программные решения для бизнеса», - говорит Нима Негахбан, технический директор и основатель Kinetica, описывая, почему инженеры данных будут пользоваться высоким спросом в ближайшие годы. «Это включает в себя создание глубоких процессов разработки ИИ, тестирования, разработки и аудита, которые позволяют компании внедрять ИИ и конвейеры данных в масштабе всего предприятия. Эта работа по созданию этих жестких и управляемых данными программных решений является основной частью того, что касается инженеров данных в современном предприятии ».

Это разграничение - идея, что инженеры данных работают напрямую с большими данными системы, является ключевым способом понять, что инженер данных предлагает работодателю.

Инженеры данных и меняющийся ландшафт больших данных

Как разработчики больших систем данных и установок баз данных, инженеры данных часто будут знакомы с конкретными технологиями, такими как Apache Hadoop.

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Но они также будут много знать о том, как развивались эти большие системы обработки данных и какие претенденты набирают популярность в современном корпоративном мире.

Всего несколько лет назад Apache Hadoop был золотым стандартом обработки больших данных. Инженеры по обработке данных связали Hadoop с такими инструментами, как YARN и MapReduce, и создали кластерные структурированные системы обработки данных.

Теперь Hadoop, похоже, проигрывает другим типам систем.

В статье, опубликованной всего несколько месяцев назад в The New Stack под названием «Потопит ли Kubernetes корабль Hadoop?», Писатель Ярон Хавив отмечает, что конкуренты Cloudera и Hortonworks теперь объединились, и что новые инструменты Apache, такие как Spark, подталкивают Hadoop к некоему устареванию ,

Кроме того, у поставщиков облачных решений есть свои собственные системы обработки больших данных, которые могут также обратиться к рабочему процессу инженера данных.

Третье и очень большое движение к виртуализации контейнеров. При настройке контейнера различные контейнеры данных совместно используют основную операционную систему и представляют тонкие поверхности атаки, при этом максимально повышая эффективность всей платформы. Контейнерные технологии, такие как Kubernetes, переняли многие проекты, которые раньше выполнялись на Hadoop, а до этого - на простых серверах реляционных баз данных.

«Одним из величайших преимуществ Kubernetes является его мобильность, - пишет Хавив, - позволяя пользователям создавать кластеры, которые охватывают несколько облаков или распределены по местам. Портативность также облегчает разработку или тестирование микросервисов в облаке и автоматическое развертывание в одном или нескольких периферийных местах ».

Инженеры данных: уточнение данных

Инженеры по обработке данных также играют ключевую роль в получении необработанных данных и их структурировании. Ученые, работающие с данными, тоже могут это делать; однако, опять же, инженеры данных, как правило, обращают внимание на уточнение необработанных данных и их фильтрацию в конкретной системе баз данных. Вы можете думать о них как о «операторах системы» или «владельцах системы» в процессе уточнения данных - они часто думают об очистке данных в условиях конкретной среды. (Подробнее о специалистах по данным см. «Роль работы: специалист по данным».)

На DataScienceGraduatePrograms.com информационный вводный ресурс освещает эту часть природы инженерии данных:

Специалисты по обработке данных фокусируются на приложениях и сборе больших данных. Их роль не включает в себя большой анализ или экспериментальный дизайн. Вместо этого они находятся там, где резина встречается с дорогой… создавая интерфейсы и механизмы для потока и доступа к информации.

Хранение данных

Компании также имеют бесчисленное множество вариантов хранения данных. Инженер данных может быть ответственным за оценку этих типов выбора.Например, может быть более полезным использовать службы хранения поставщиков от Amazon или других поставщиков. Модель хранилища объектов Amazon S3 предоставляет новые способы обработки хранимой информации, внедряемые в традиционных избыточных массивах систем с независимыми дисками (RAID), которые были нормой всего несколько лет назад.

Инженеры данных как сваты

Как и в случае с другими видами ролей, инженеры по обработке данных также должны играть роли в рамках организационной структуры, а также в попытках продвинуть бизнес вперед, следя за тем, чтобы цели и задачи соответствовали имеющимся структурам.

В некоторых случаях это требует участия руководителей или других заинтересованных сторон. Для некоторых из них необходимо убедиться, что промежуточное программное обеспечение подключается к хранилищу данных или что большие системы данных могут выполнять свою магию, не обремененную узкими местами. Все это часто входит в компетенцию инженера по обработке данных, который будет перемещать уточненные и курированные данные через конкретные конкретные ИТ-системы и модели баз данных таким образом, чтобы облегчить достижение основных бизнес-целей.

Все это показывает, что инженеры данных в значительной степени являются «хранителями хранилища данных» - когда проблемы пересекаются с природой больших данных и системами, которые их используют или хранят, они часто оказываются спереди и в центре ответа организационной структуры. Подумайте о том, как разработчик данных вписывается в сегодняшний и завтрашний мир бизнеса.