7 шагов для изучения интеллектуального анализа данных и науки о данных

Автор: Eugene Taylor
Дата создания: 12 Август 2021
Дата обновления: 12 Май 2024
Anonim
Лекция 1. Примеры применения анализа данных, стандартные задачи и методы
Видео: Лекция 1. Примеры применения анализа данных, стандартные задачи и методы

Содержание


Источник: Пол Флит / Dreamstime.com

вынос:

Науку данных лучше всего изучать на практике, но также имеет значение хорошая статистика и машинное обучение.

Меня часто спрашивают, как научиться работать с данными и изучать данные. Вот мое резюме.

Вы можете лучше всего изучить интеллектуальный анализ данных и науку о данных, поэтому начните анализировать данные, как только сможете! Тем не менее, не забывайте изучать теорию, так как вам нужен хороший статистический и машинный фундамент, чтобы понять, что вы делаете, и найти реальные кусочки ценности в шуме больших данных.

Вот семь шагов для изучения интеллектуального анализа данных и науки о данных. Хотя они и пронумерованы, вы можете делать их параллельно или в другом порядке.

  1. Языки: изучение R, Python и SQL
  2. Инструменты: узнайте, как использовать инструменты интеллектуального анализа данных и визуализации.
  3. Книги: Прочитайте вводные книги, чтобы понять основы
  4. Образование: Смотрите вебинары, посещайте курсы и рассматривайте сертификат или ученую степень в области наук о данных (Подробнее о Бен Лорикасе «Как воспитать ученого в области данных»).
  5. Данные: проверьте доступные ресурсы данных и найдите там что-нибудь
  6. Соревнования: участие в соревнованиях по интеллектуальному анализу данных
  7. Взаимодействовать с другими учеными данных через социальные сети, группы и встречи

В этой статье я использую интеллектуальный анализ данных и взаимозаменяемость данных. См. Мою презентацию «Обзор отрасли аналитики», где я рассмотрю эволюцию и популярность различных терминов, таких как статистика, поиск знаний, интеллектуальный анализ данных, прогнозная аналитика, наука о данных и большие данные.


1. Изучение языков

Недавний опрос KDnuggets обнаружил, что наиболее популярными языками для интеллектуального анализа данных являются R, Python и SQL. Есть много ресурсов для каждого, например:

  • Бесплатная электронная книга по науке о данных с R
  • Начало работы с Python для науки о данных
  • Python для анализа данных: гибкие инструменты для реальных данных
  • Незаменимый Python: поиск данных для науки о данных
  • Школы W3, изучающие SQL

2. Инструменты: Data Mining, Data Science и ПО для визуализации

Существует множество инструментов интеллектуального анализа данных для различных задач, но лучше узнать, как использовать набор интеллектуального анализа данных, который поддерживает весь процесс анализа данных. Вы можете начать с открытых (бесплатных) инструментов, таких как KNIME, RapidMiner и Weka.

Однако для многих аналитических работ вам необходимо знать SAS, который является ведущим коммерческим инструментом и широко используется. Другие популярные аналитические и аналитические программы включают MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler и Rattle.


Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Визуализация является неотъемлемой частью любого анализа данных. Узнайте, как использовать Microsoft Excel (подходит для многих простых задач), графику R (особенно ggplot2), а также Tableau - отличный пакет для визуализации. Другие хорошие инструменты визуализации включают TIBCO Spotfire и Miner3D.

3. книги

Существует множество книг по интеллектуальному анализу данных, но вы можете проверить их:

  • Анализ и анализ данных: фундаментальные концепции и алгоритмы, скачать PDF бесплатно (черновик), Мохаммед Заки и Вагнер Мейра младший
  • Data Mining: практические инструменты и методы машинного обучения, авторы Ika Witten, Eibe Frank и Mark Hall, от Weka, и широко использующие Weka в примерах
  • Элементы статистического обучения, интеллектуального анализа данных, логического вывода и прогнозирования, Тревор Хасти, Роберт Тибширани, Джером Фридман. Отличное введение для математически ориентированных
  • LIONbook: обучение и интеллектуальная оптимизация, Роберто Баттити и Мауро Брунато, свободно доступны в Интернете, глава за главой
  • Книга Майнинга из массивных наборов данных А. Раджарамана, Дж. Уллмана
  • Статистическая электронная книга статистики (бесплатно), включает в себя множество тем интеллектуального анализа данных

4. Образование: вебинары, курсы, сертификаты и степени

Вы можете начать с просмотра нескольких бесплатных вебинаров и веб-трансляций по последним темам в аналитике, больших данных, интеллектуальном анализе данных и науке о данных.

Есть также много онлайн-курсов, короткие и длинные, многие из них бесплатные. (См. KDnuggets каталог онлайн образования.)

Проверьте, в частности, эти курсы:

  • Машинное обучение в Coursera, преподаватель Эндрю Нг
  • Изучение данных в edX, преподаватель Caltech профессор Язер Абу-Мостафа
  • Открытый онлайн-курс по прикладным наукам о данных от Syracuse iSchool
  • Data Mining с Weka, бесплатный онлайн курс
  • Посмотрите также бесплатные онлайн-слайды из моего курса Data Mining, вводного семестрового курса в области интеллектуального анализа данных

Наконец, рассмотрите возможность получения сертификатов в области интеллектуального анализа данных, а также в области науки о данных или ученых степеней, таких как степень магистра в области науки о данных.

5. Данные

Вам понадобятся данные для анализа - см. Каталог KDnuggets наборов данных для Data Mining, в том числе:

  • Правительственные, федеральные, государственные, городские, местные и общедоступные информационные сайты и порталы
  • API данных, хабы, торговые площадки, платформы, порталы и поисковые системы
  • Бесплатные общедоступные наборы данных

6. Соревнования

Опять же, вы будете лучше учиться на практике, поэтому участвуйте в соревнованиях Kaggle. Начните с соревнований для начинающих, таких как прогнозирование выживания Титаника с помощью машинного обучения.

7. Взаимодействие: встречи, группы и социальные сети.

Вы можете присоединиться ко многим группам сверстников. См. Top 30 групп LinkedIn для аналитики, больших данных, интеллектуального анализа данных и науки о данных.

AnalyticBridge - это активное сообщество аналитиков и данных.

Вы можете посетить некоторые из многочисленных совещаний и конференций по аналитике, большим данным, интеллектуальному анализу данных, науке о данных и обнаружению знаний.

Также рассмотрите возможность присоединения к ACM SIGKDD, которая организует ежегодную конференцию KDD - ведущую научную конференцию в этой области.

Эта статья взята с сайта KDNuggets.com. Он был использован с разрешения автора.