Содержание
- 1. Изучение языков
- 2. Инструменты: Data Mining, Data Science и ПО для визуализации
- Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
- 3. книги
- 4. Образование: вебинары, курсы, сертификаты и степени
- 5. Данные
- 6. Соревнования
- 7. Взаимодействие: встречи, группы и социальные сети.
Источник: Пол Флит / Dreamstime.com
вынос:
Науку данных лучше всего изучать на практике, но также имеет значение хорошая статистика и машинное обучение.
Меня часто спрашивают, как научиться работать с данными и изучать данные. Вот мое резюме.
Вы можете лучше всего изучить интеллектуальный анализ данных и науку о данных, поэтому начните анализировать данные, как только сможете! Тем не менее, не забывайте изучать теорию, так как вам нужен хороший статистический и машинный фундамент, чтобы понять, что вы делаете, и найти реальные кусочки ценности в шуме больших данных.
Вот семь шагов для изучения интеллектуального анализа данных и науки о данных. Хотя они и пронумерованы, вы можете делать их параллельно или в другом порядке.
- Языки: изучение R, Python и SQL
- Инструменты: узнайте, как использовать инструменты интеллектуального анализа данных и визуализации.
- Книги: Прочитайте вводные книги, чтобы понять основы
- Образование: Смотрите вебинары, посещайте курсы и рассматривайте сертификат или ученую степень в области наук о данных (Подробнее о Бен Лорикасе «Как воспитать ученого в области данных»).
- Данные: проверьте доступные ресурсы данных и найдите там что-нибудь
- Соревнования: участие в соревнованиях по интеллектуальному анализу данных
- Взаимодействовать с другими учеными данных через социальные сети, группы и встречи
В этой статье я использую интеллектуальный анализ данных и взаимозаменяемость данных. См. Мою презентацию «Обзор отрасли аналитики», где я рассмотрю эволюцию и популярность различных терминов, таких как статистика, поиск знаний, интеллектуальный анализ данных, прогнозная аналитика, наука о данных и большие данные.
1. Изучение языков
Недавний опрос KDnuggets обнаружил, что наиболее популярными языками для интеллектуального анализа данных являются R, Python и SQL. Есть много ресурсов для каждого, например:
- Бесплатная электронная книга по науке о данных с R
- Начало работы с Python для науки о данных
- Python для анализа данных: гибкие инструменты для реальных данных
- Незаменимый Python: поиск данных для науки о данных
- Школы W3, изучающие SQL
2. Инструменты: Data Mining, Data Science и ПО для визуализации
Существует множество инструментов интеллектуального анализа данных для различных задач, но лучше узнать, как использовать набор интеллектуального анализа данных, который поддерживает весь процесс анализа данных. Вы можете начать с открытых (бесплатных) инструментов, таких как KNIME, RapidMiner и Weka.
Однако для многих аналитических работ вам необходимо знать SAS, который является ведущим коммерческим инструментом и широко используется. Другие популярные аналитические и аналитические программы включают MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler и Rattle.
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.
Визуализация является неотъемлемой частью любого анализа данных. Узнайте, как использовать Microsoft Excel (подходит для многих простых задач), графику R (особенно ggplot2), а также Tableau - отличный пакет для визуализации. Другие хорошие инструменты визуализации включают TIBCO Spotfire и Miner3D.
3. книги
Существует множество книг по интеллектуальному анализу данных, но вы можете проверить их:
- Анализ и анализ данных: фундаментальные концепции и алгоритмы, скачать PDF бесплатно (черновик), Мохаммед Заки и Вагнер Мейра младший
- Data Mining: практические инструменты и методы машинного обучения, авторы Ika Witten, Eibe Frank и Mark Hall, от Weka, и широко использующие Weka в примерах
- Элементы статистического обучения, интеллектуального анализа данных, логического вывода и прогнозирования, Тревор Хасти, Роберт Тибширани, Джером Фридман. Отличное введение для математически ориентированных
- LIONbook: обучение и интеллектуальная оптимизация, Роберто Баттити и Мауро Брунато, свободно доступны в Интернете, глава за главой
- Книга Майнинга из массивных наборов данных А. Раджарамана, Дж. Уллмана
- Статистическая электронная книга статистики (бесплатно), включает в себя множество тем интеллектуального анализа данных
4. Образование: вебинары, курсы, сертификаты и степени
Вы можете начать с просмотра нескольких бесплатных вебинаров и веб-трансляций по последним темам в аналитике, больших данных, интеллектуальном анализе данных и науке о данных.
Есть также много онлайн-курсов, короткие и длинные, многие из них бесплатные. (См. KDnuggets каталог онлайн образования.)
Проверьте, в частности, эти курсы:
- Машинное обучение в Coursera, преподаватель Эндрю Нг
- Изучение данных в edX, преподаватель Caltech профессор Язер Абу-Мостафа
- Открытый онлайн-курс по прикладным наукам о данных от Syracuse iSchool
- Data Mining с Weka, бесплатный онлайн курс
- Посмотрите также бесплатные онлайн-слайды из моего курса Data Mining, вводного семестрового курса в области интеллектуального анализа данных
Наконец, рассмотрите возможность получения сертификатов в области интеллектуального анализа данных, а также в области науки о данных или ученых степеней, таких как степень магистра в области науки о данных.
5. Данные
Вам понадобятся данные для анализа - см. Каталог KDnuggets наборов данных для Data Mining, в том числе:
- Правительственные, федеральные, государственные, городские, местные и общедоступные информационные сайты и порталы
- API данных, хабы, торговые площадки, платформы, порталы и поисковые системы
- Бесплатные общедоступные наборы данных
6. Соревнования
Опять же, вы будете лучше учиться на практике, поэтому участвуйте в соревнованиях Kaggle. Начните с соревнований для начинающих, таких как прогнозирование выживания Титаника с помощью машинного обучения.
7. Взаимодействие: встречи, группы и социальные сети.
Вы можете присоединиться ко многим группам сверстников. См. Top 30 групп LinkedIn для аналитики, больших данных, интеллектуального анализа данных и науки о данных.
AnalyticBridge - это активное сообщество аналитиков и данных.
Вы можете посетить некоторые из многочисленных совещаний и конференций по аналитике, большим данным, интеллектуальному анализу данных, науке о данных и обнаружению знаний.
Также рассмотрите возможность присоединения к ACM SIGKDD, которая организует ежегодную конференцию KDD - ведущую научную конференцию в этой области.
Эта статья взята с сайта KDNuggets.com. Он был использован с разрешения автора.