12 ключевых советов для изучения науки о данных

Автор: Laura McKinney
Дата создания: 3 Апрель 2021
Дата обновления: 16 Май 2024
Anonim
11 Секретов, Чтобы Запоминать Все Быстрее Остальных
Видео: 11 Секретов, Чтобы Запоминать Все Быстрее Остальных

Содержание


Источник: Artinspiring / Dreamstime.com

вынос:

Специалистам по данным, очевидно, нужны сильные навыки математики и кодирования, но для успеха также необходимы навыки общения и другие навыки работы с программным обеспечением.

Специалист по данным считается лучшей работой в Америке за 2019 год на Glassdoor. При средней базовой зарплате в 108 000 долл. И ранге удовлетворенности работой 4,3 из 5 плюс предсказанное значительное количество вакансий, что неудивительно. Вопрос в том, что нужно сделать, чтобы встать на путь, чтобы претендовать на эту работу?

Чтобы выяснить это, мы искали совет, данный тем, кто стремится попасть на этот карьерный путь. Многое сводится к сложным навыкам кодирования и математики. Но одно только это сильное вычисление не сокращает это. Успешные ученые, работающие с данными, также должны иметь возможность общаться с деловыми людьми на их собственных условиях, что требует наличия навыков, связанных с мягкими навыками и лидерством. (Чтобы узнать больше об обязанностях ученого данных, см. Роль работы: Data Scientist.)


Создание образовательного фонда: три основных совета

Дрейс Жан, ученый, работающий в NYC Data Science Academy, подчеркивает необходимость образовательной базы, которая включает в себя основы кодирования и математические способности:

  1. R / Python + SQL. Если у вас нет навыков кодирования, вам нужно много сетевых возможностей и других областей, чтобы восполнить этот дефицит. Я видел специалистов по данным со слабой математикой и небольшим опытом в предметной области, но они всегда обладали сильной способностью кодировать. Python идеален, но R - отличный инструмент возврата. Лучше всего иметь оба в своем арсенале. SQL также чрезвычайно важен для аналитика данных.

  2. Сильные математические навыки. Имея очень хорошее понимание некоторых из обычно используемых методов: обобщенных линейных моделей, дерева решений, K-средних и статистических тестов лучше, чем иметь общую картину различных моделей или специализаций, таких как RNN.

Это основные навыки, на которых можно опираться, хотя некоторые эксперты добавляют к ним. Например, список KDnuggets включает компоненты кодирования, упомянутые Жаном, и добавляет некоторые другие полезные вещи, которые необходимо знать с технической стороны, включая платформу Hadoop Apache Spark, визуализацию данных, неструктурированные данные, машинное обучение и AI.


Но если мы возьмем подсказки из опроса о наиболее часто используемых инструментах, определенных для использования в реальной жизни опросом Kaggle, мы получим несколько иные результаты. Как видно из приведенного ниже графика из 15 лучших вариантов, Python, R и SQL легко входят в первую тройку, но четвертым являются ноутбуки Jupyter, за которыми следуют TensorFlow, Amazon Web Services, оболочка Unix, Tableau, C / C ++, NoSQL. , MATLAB / Octave и Java, все впереди Hadoop и Spark. Еще одним дополнением, которое может удивить людей, является Microsoft Data Data Mining.

Изображение предоставлено Kaggle

Список KDnuggets также содержит совет относительно формального образования. Большинство ученых, занимающихся данными, имеют ученые степени: 46 процентов имеют докторские степени, а 88 процентов имеют как минимум степень магистра. Степени бакалавра, которыми они обладают, обычно делятся между смежными областями. Около трети занимаются математикой и статистикой, которая является самой популярной для этой карьеры. Следующим по популярности является ученая степень в области компьютерных наук (19 процентов) и инженерные специальности (16 процентов). Конечно, технические средства, специфичные для науки о данных, часто изучаются не в программах для получения степени, а в специализированных учебных лагерях или в онлайн-курсах.

Больше, чем курсы: еще два совета

Хэнк Юн, ассистент по исследованиям в пульмонологическом отделении в Weill Cornell Medicine и студент в NYC Data Science Academy, советует начинающим специалистам по данным планировать, над чем они будут работать, и искать наставника. Он сказал:

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Не делайте ошибку, которую я сделал, сказав себе, что вы знаете науку о данных, потому что вы прошли курс и получили сертификат. Это отличное начало, но когда вы начнете учиться, подумайте о проекте. Тогда найдите наставника в этой области и начните страстный проект прямо сейчас! Когда вы новичок, вы не знаете, чего не знаете, поэтому полезно, когда кто-то там помогает вам узнать, что важно для вас, а что нет. Вы не хотите тратить много времени на учебу, не имея ничего, чтобы показать это!

Знание того, какой инструмент взять из своей панели инструментов

Учитывая несоответствие в рейтинге инструментов обработки данных, некоторые могут чувствовать себя изумленными из-за того, на чем сосредоточиться. Селеста Фралик, главный специалист по данным в компании McAfee, занимающейся разработкой программного обеспечения для обеспечения безопасности, рассказывает об этой проблеме в статье ИТ-директора, в которой рассматриваются основные навыки для специалиста по данным, заявляя: «Специалист по данным должен оставаться в курсе исследований, а также понять, какую технологию применять, когда ». Это означает, что для того, чтобы не быть« соблазнительным »и« новым », когда настоящая проблема» требует чего-то гораздо более обыденного. «Знание вычислительных затрат для экосистемы, интерпретируемости, задержек, пропускной способности и других граничных условий системы - а также зрелости клиента - само по себе помогает специалисту по данным понять, какую технологию применять».

Основные мягкие навыки: еще шесть советов

Вопрос, который поднимает Фралик, относится к нетехническим навыкам, которые требуются для работы ученого. Вот почему список KDnuggets включает эти четыре: интеллектуальное любопытство, командная работа, коммуникативные навыки и деловая хватка. Жан также включил в свои советы для разработчиков данных ключевые программные навыки, определяя «коммуникационные навыки», такие как KDnuggets, но используя «экспертизу предметной области» вместо «деловой хватки». Как бы это ни называлось, это относится к практическому применению науки о данных к бизнес. (Чтобы узнать больше о коммуникативных навыках, см. Важность коммуникативных навыков для технических специалистов.)

Оливия Парр-Руд поделилась своим мнением об этом, добавив два более мягких навыка, с акцентом на роль творчества, заявив: «Я считаю, что наука о данных - это искусство, а не наука», что требует привлечения внимания. сильные стороны обеих сторон мозга. «Многие люди говорят о науке о данных как о карьере, которая в основном использует левый мозг. Я обнаружил, что для успеха ученые, работающие с данными, должны использовать весь свой мозг ».

Она объяснила, что продвижение в этой области требует не только технической компетентности, но и креативности и видения, необходимого для лидерства:

Большинство левых / линейных задач могут быть автоматизированы или получены из внешних источников. Чтобы предложить конкурентное преимущество в качестве исследователей данных, мы должны уметь распознавать закономерности и синтезировать большие объемы информации, используя обе стороны нашего мозга. И мы должны быть новаторскими мыслителями. Многие из лучших результатов являются результатом интеграции левого и правого полушария мозга.

Она также подчеркнула, почему четкое сообщение о видении имеет важное значение:

Как исследователи данных, наша цель - использовать данные, чтобы помочь нашим клиентам увеличить свою прибыль. Большинство руководителей не понимают, что мы делаем или как мы это делаем. Поэтому мы должны думать как лидеры и сообщать о наших выводах и рекомендациях на том языке, который наши заинтересованные стороны понимают и которому доверяют.

Дюжина Данных

Ключевые советы включают в себя большее количество технических инструментов, навыков и возможностей, а также менее измеримые качества, такие как способность к творчеству и лидерству. В конечном счете, это не просто игра чисел. Поскольку наука о данных - это не только создание моделей в вакууме, но и разработка практических приложений для решения реальных проблем бизнеса, тем, кто преуспеет в этой области, нужно не просто овладеть технологиями, но и знать сферу своей деятельности и понимать потребности различные члены команды на работе.