Может ли быть когда-либо слишком много данных в больших данных?

Содержание

Q:

A:

Ответ на вопрос звучит ДА. В большом проекте данных может быть слишком много данных.

Есть множество способов, которыми это может произойти, и различные причины, по которым профессионалы должны ограничивать и курировать данные любым количеством способов, чтобы получить правильные результаты. (Прочтите 10 больших мифов о больших данных.)

В общем, эксперты говорят о дифференцировании «сигнала» от «шума» в модели. Другими словами, в море больших данных становится трудно ориентироваться на соответствующие данные. В некоторых случаях вы ищете иголку в стоге сена.

Например, предположим, что компания пытается использовать большие данные для формирования определенного понимания сегмента клиентской базы и своих покупок за определенный период времени. (Читайте, что делают большие данные?)

Принятие огромного количества активов данных может привести к получению случайных данных, которые не имеют значения, или это может даже привести к смещению, которое искажает данные в том или ином направлении.

Это также значительно замедляет процесс, поскольку вычислительные системы вынуждены бороться с большими и большими наборами данных.

В самых разных проектах очень важно, чтобы инженеры по обработке данных курировали данные в ограниченные и конкретные наборы данных - в приведенном выше случае это будут только данные для исследуемого сегмента клиентов, только данные за это время. исследуемый фрейм и подход, который отсеивает дополнительные идентификаторы или справочную информацию, которая может запутать вещи или замедлить работу систем. (Роль ReadJob: инженер данных.)

Более того, давайте посмотрим, как это работает в сфере машинного обучения. (Читайте Машинное обучение 101.)

Эксперты по машинному обучению говорят о так называемом «переоснащении», когда чрезмерно сложная модель приводит к менее эффективным результатам, когда программа машинного обучения развязывается на новых производственных данных.

Переоснащение происходит, когда сложный набор точек данных слишком хорошо соответствует начальному обучающему набору и не позволяет программе легко адаптироваться к новым данным.

В настоящее время технически переоснащение вызвано не наличием слишком большого количества выборок данных, а коронацией слишком большого количества точек данных. Но вы можете утверждать, что наличие слишком большого количества данных может также способствовать возникновению проблемы такого типа. Чтобы справиться с проклятием размерности, используются те же методы, которые применялись в более ранних проектах с большими данными, когда профессионалы пытались точно определить, чем они питают ИТ-системы.

Суть в том, что большие данные могут быть чрезвычайно полезны для компаний, или это может стать серьезной проблемой. Одним из аспектов этого является наличие у компании правильных данных. Эксперты знают, что не стоит просто сбрасывать все ресурсы данных в хранилище и таким образом придумывать идеи - в новых облачных и сложных системах данных есть попытка контролировать и управлять данными, чтобы получать более точные и эффективное использование вне активов данных.