Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Содержание

Q:

Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных?

A:

Процессы науки о данных в области машинного обучения и искусственного интеллекта можно разделить на четыре этапа:

сбор и исследование данных,
Построение модели,
развертывание модели и
онлайн оценка и уточнение.

Исходя из моего опыта, наиболее сложными фазами являются этапы сбора данных и развертывания модели в любом процессе обработки данных на основе машинного обучения, и вот два способа их оптимизации:

1. Установите высокодоступное хранилище данных.

В большинстве организаций данные не хранятся в одном центральном месте. Давайте просто возьмем информацию, связанную с клиентами. Если у вас есть веб-приложение, у вас есть контактная информация, служба поддержки, отзывы клиентов и история посещений. Все эти данные естественно разбросаны, так как они служат разным целям. Они могут находиться в разных базах данных, а некоторые могут быть полностью структурированными, а некоторые неструктурированными и даже могут храниться в виде простых файлов.

К сожалению, разброс этих наборов данных сильно ограничивает работу по науке о данных, поскольку в основе всех проблем НЛП, машинного обучения и искусственного интеллекта лежит данные, Таким образом, хранение всех этих данных в одном месте - хранилище данных - имеет первостепенное значение для ускорения разработки и развертывания модели. Учитывая, что это критически важная составляющая для всех процессов обработки данных, организации должны нанять квалифицированных инженеров данных, чтобы помочь им создать свои хранилища данных. Это может легко начаться с простых дампов данных в одном месте и постепенно превратиться в хорошо продуманный репозиторий данных, полностью документированный и запрашиваемый с помощью утилит для экспорта подмножеств данных в разные форматы для различных целей.

2. Представьте свои модели как сервис для бесшовной интеграции.

Помимо обеспечения доступа к данным, важно также иметь возможность интегрировать модели, разработанные учеными-данными, в продукт. Может быть чрезвычайно сложно интегрировать модели, разработанные на Python, с веб-приложением, которое работает на Ruby. Кроме того, в моделях может быть много зависимостей от данных, которые ваш продукт может не предоставить.

Один из способов справиться с этим - создать надежную инфраструктуру вокруг вашей модели и предоставить достаточно функциональности, необходимой вашему продукту, чтобы использовать модель в качестве «веб-службы». Например, если вашему приложению требуется классификация настроений в обзорах продуктов. все, что ему нужно сделать, это вызвать веб-сервис, предоставляющий соответствующий сервис, и сервис вернет соответствующую классификацию настроений, которую продукт может использовать напрямую. Таким образом, интеграция происходит просто в форме вызова API. Разделение модели и продукта, который ее использует, позволяет новым продуктам, которые вы придумали, также легко использовать эти модели.

Теперь настройка инфраструктуры вокруг вашей модели - это совсем другая история, требующая больших начальных вложений от ваших инженерных команд. Когда есть инфраструктура, нужно лишь построить модели так, чтобы они подходили для инфраструктуры.