Если бы мне пришлось снова изучать Data Science с нуля, как бы я это сделал теперь?

Пару дней назад я вдруг задумался, если бы мне пришлось заново изучать machine learning и data science, с чего бы я начал? Самое смешное, что путь, который я себе описал, кардинально отличался от того, что было на моем старте в свое время. 

Конечно, мы все учимся по-разному. Некоторые предпочитают видео, другие - просто книги, а многим людям необходимо платить за курсы, чтобы чувствовать дополнительную нагрузку и давление. И это нормально, самое важное - учиться и получать удовольствие от этого. 

Итак, я разработал путь, который, с моей точки зрения, является наиболее эффективным, в случае, если бы мне пришлось изучать Data Science с нуля. 

Как вы видите, мой любимый способ учиться - постепенно переходить от простого к сложному. Это значит начать с практических примеров, а затем перейти к более абстрактным понятиям.

Микро-курсы Kaggle

Я знаю, что начинать с этого вам может показаться странным, и многие предпочли бы начать с самых тяжелых основ и математических видеороликов, чтобы полностью понять, что происходит за каждой моделью ML. Но, с моей точки зрения, начинание с чего-то практичного и конкретного помогает лучше рассмотреть картину в целом.

Кроме того, эти микро-курсы занимают около 4 часов каждый, так что достижение этих маленьких целей заранее добавляет дополнительный мотивационный импульс.

Микро-курсы Kaggle: Python

Если вы знакомы с Python, то можете пропустить эту часть. Здесь вы изучите основные понятия Python, которые помогут вам в освоении Data Science. В Python будет много того, что все еще будет казаться загадкой. Но по мере продвижения вы все узнаете и поймете на практике.

Ссылка: https://www.kaggle.com/learn/python

Цена: бесплатно

Микро-курсы Kaggle: Pandas

Pandas дадут нам навыки, чтобы начать манипулировать данными в Python. Я считаю, что 4-часового микро-курса и практических примеров достаточно, чтобы иметь представление о том, что можно сделать.

Ссылка: https://www.kaggle.com/learn/pandas

Цена: бесплатно

Микро-курсы Kaggle: визуализация данных

Визуализация данных, пожалуй, является одним из наиболее недооцененных навыков, однако она очень важна. Визуализация данных позволит вам полностью понять данные, с которыми вы будете работать.

Ссылка: https://www.kaggle.com/learn/data-visualization

Цена: бесплатно

Микро-курсы Kaggle: введение в machine learning

Здесь начинается самое интересное. Вы будете изучать основные, но очень важные концепции, чтобы начать тренировать модели машинного обучения. Концепции, которые позднее будут предельно необходимы. 

Ссылка: https://www.kaggle.com/learn/intro-to-machine-learning

Цена: бесплатно

Микро-курсы Kaggle: machine learning средний уровень

Это дополнение к предыдущему, но здесь вы впервые будете работать с качественными переменными и иметь дело с нулевыми полями в ваших данных.

Ссылка: https://www.kaggle.com/learn/intermediate-machine-learning

Цена: бесплатно

Остановимся здесь на минутку. Должно быть ясно, что эти пять микрокурсов не будут линейным процессом, вам, вероятно, придется изучать их параллельно. Когда вы работаете в Pandas, вам, возможно, придется вернуться к курсу Python, чтобы вспомнить некоторые вещи, которые вы изучили, или перейти к документации Pandas, чтобы понять новые функции, которые вы видели в курсе «Введение в машинное обучение». И это отлично, в этом и заключается настоящее обучение. 

Теперь, если вы осознаете, что эти первые 5 курсов дадут вам необходимые навыки для проведения анализа данных (EDA) и создания базовых моделей, которые позже вы сможете улучшить, то сейчас самое время начать с простых соревнований Kaggle и применить на практике то, что вы узнали.

Соревнование Kaggle Playground: Титаник

Здесь вы будете применять на практике то, что вы узнали на вводных курсах. Возможно, поначалу это будет немного пугающе, но суть не в том, чтобы быть первым в списке лидеров, а в том, чтобы учиться. В этом конкурсе вы узнаете о классификации и соответствующих метриках для таких типов проблем, как точность, отзыв и достоверность.

Ссылка: https://www.kaggle.com/c/titanic

Соревнование Kaggle Playground: цены на жилье

В этом конкурсе вы будете применять регрессионные модели и узнавать о соответствующих метриках, таких как RMSE.

Ссылка: https://www.kaggle.com/c/home-data-for-ml-course

К этому моменту у вас уже есть большой практический опыт, и вы почувствуете, что можете решить множество задач, но есть вероятность, что вы не до конца понимаете, что происходит за алгоритмами классификации и регрессии, которые вы использовали. Так что именно здесь мы должны рассмотреть основы того, что мы изучаем.

Многие курсы с этого начинаются - рассмотрения основ, но, по крайней мере, я усваиваю эту информацию лучше, если до этого имел дело с практикой. 

Книга: Data Science с нуля

Сейчас мы на мгновение отделимся от Pandas, scikit-learn и других библиотек Python для практического изучения того, что происходит «за» этими алгоритмами.

Эта книга довольно приятна для чтения, в ней приведены примеры Python по каждой из тем, и в ней не так много математики, которая является фундаментальной для этого этапа. Мы хотим понять принцип алгоритмов, но, с практической точки зрения, мы не хотим быть демотивированными, читая множество математических обозначений.

Ссылка: Amazon

Цена: около $ 26

Здесь я приглашаю вас продолжать участвовать в более сложных соревнованиях Kaggle, участвовать в форумах и исследовать новые методы, которые вы найдете в решениях других участников.

Онлайн курс: Машинное обучение от Andrew Ng

Здесь мы встретим многое из того, что уже изучили, но мы увидим, как это объясняет один из лидеров отрасли, и его подход будет более математическим, поэтому он станет отличным способом понять наши модели еще глубже.

Ссылка: https://www.coursera.org/learn/machine-learning

Стоимость: бесплатно без сертификата - $ 79 с сертификатом

Книга: элементы статистического обучения

Теперь начинается тяжелая математическая часть. Представьте, что если бы мы начали отсюда, какой нелегкий был бы путь, и мы, вероятно, давно бы сдались.

Цена: $ 60, официальная бесплатная версия на Стэнфордской странице.

Онлайн курс: Deep learning от Andrew Ng

К этому времени вы, наверное, уже сталкивались с глубоким обучением и поиграли с некоторыми моделями. Но здесь мы собираемся изучить основы того, что такое нейронные сети, как они работают, и научиться внедрять и применять различные существующие архитектуры.

Ссылка: https://www.deeplearning.ai/deep-learning-specialization/

Цена: $ 49 / месяц

На данном этапе, многое зависит от ваших собственных интересов, вы можете сосредоточиться на регрессии и проблемах временных рядов или, возможно, углубиться в Deep learning.

Источник

Поделиться записью
Вверх