![Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Технология Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Технология](https://a.continuousdev.com/technology/what-are-some-key-ways-that-the-iot-is-affecting-health-care-googletagcmdpushfunction-googletag.displaydiv-gpt-ad-1562928221186-0-q.jpg)
Содержание
Q:
Каковы некоторые ключевые способы автоматизации и оптимизации процессов обработки данных?
A:
Процессы науки о данных в области машинного обучения и искусственного интеллекта можно разделить на четыре этапа:
- сбор и исследование данных,
- Построение модели,
- развертывание модели и
- онлайн оценка и уточнение.
Исходя из моего опыта, наиболее сложными фазами являются этапы сбора данных и развертывания модели в любом процессе обработки данных на основе машинного обучения, и вот два способа их оптимизации:
1. Установите высокодоступное хранилище данных.
В большинстве организаций данные не хранятся в одном центральном месте. Давайте просто возьмем информацию, связанную с клиентами. Если у вас есть веб-приложение, у вас есть контактная информация, служба поддержки, отзывы клиентов и история посещений. Все эти данные естественно разбросаны, так как они служат разным целям. Они могут находиться в разных базах данных, а некоторые могут быть полностью структурированными, а некоторые неструктурированными и даже могут храниться в виде простых файлов.
К сожалению, разброс этих наборов данных сильно ограничивает работу по науке о данных, поскольку в основе всех проблем НЛП, машинного обучения и искусственного интеллекта лежит данные, Таким образом, хранение всех этих данных в одном месте - хранилище данных - имеет первостепенное значение для ускорения разработки и развертывания модели. Учитывая, что это критически важная составляющая для всех процессов обработки данных, организации должны нанять квалифицированных инженеров данных, чтобы помочь им создать свои хранилища данных. Это может легко начаться с простых дампов данных в одном месте и постепенно превратиться в хорошо продуманный репозиторий данных, полностью документированный и запрашиваемый с помощью утилит для экспорта подмножеств данных в разные форматы для различных целей.
2. Представьте свои модели как сервис для бесшовной интеграции.
Помимо обеспечения доступа к данным, важно также иметь возможность интегрировать модели, разработанные учеными-данными, в продукт. Может быть чрезвычайно сложно интегрировать модели, разработанные на Python, с веб-приложением, которое работает на Ruby. Кроме того, в моделях может быть много зависимостей от данных, которые ваш продукт может не предоставить.
Один из способов справиться с этим - создать надежную инфраструктуру вокруг вашей модели и предоставить достаточно функциональности, необходимой вашему продукту, чтобы использовать модель в качестве «веб-службы». Например, если вашему приложению требуется классификация настроений в обзорах продуктов. все, что ему нужно сделать, это вызвать веб-сервис, предоставляющий соответствующий сервис, и сервис вернет соответствующую классификацию настроений, которую продукт может использовать напрямую. Таким образом, интеграция происходит просто в форме вызова API. Разделение модели и продукта, который ее использует, позволяет новым продуктам, которые вы придумали, также легко использовать эти модели.
Теперь настройка инфраструктуры вокруг вашей модели - это совсем другая история, требующая больших начальных вложений от ваших инженерных команд. Когда есть инфраструктура, нужно лишь построить модели так, чтобы они подходили для инфраструктуры.