Если бы мне пришлось снова изучать Data Science с нуля, как бы я это сделал теперь?
Пару дней назад я вдруг задумался, если бы мне пришлось заново изучать machine learning и data science, с чего бы я начал? Самое смешное, что путь, который я себе описал, кардинально отличался от того, что было на моем старте в свое время.
Конечно, мы все учимся по-разному. Некоторые предпочитают видео, другие - просто книги, а многим людям необходимо платить за курсы, чтобы чувствовать дополнительную нагрузку и давление. И это нормально, самое важное - учиться и получать удовольствие от этого.
Итак, я разработал путь, который, с моей точки зрения, является наиболее эффективным, в случае, если бы мне пришлось изучать Data Science с нуля.
Как вы видите, мой любимый способ учиться - постепенно переходить от простого к сложному. Это значит начать с практических примеров, а затем перейти к более абстрактным понятиям.
Микро-курсы Kaggle
Я знаю, что начинать с этого вам может показаться странным, и многие предпочли бы начать с самых тяжелых основ и математических видеороликов, чтобы полностью понять, что происходит за каждой моделью ML. Но, с моей точки зрения, начинание с чего-то практичного и конкретного помогает лучше рассмотреть картину в целом.
Кроме того, эти микро-курсы занимают около 4 часов каждый, так что достижение этих маленьких целей заранее добавляет дополнительный мотивационный импульс.
Микро-курсы Kaggle: Python
Если вы знакомы с Python, то можете пропустить эту часть. Здесь вы изучите основные понятия Python, которые помогут вам в освоении Data Science. В Python будет много того, что все еще будет казаться загадкой. Но по мере продвижения вы все узнаете и поймете на практике.
Ссылка: https://www.kaggle.com/learn/python
Цена: бесплатно
Микро-курсы Kaggle: Pandas
Pandas дадут нам навыки, чтобы начать манипулировать данными в Python. Я считаю, что 4-часового микро-курса и практических примеров достаточно, чтобы иметь представление о том, что можно сделать.
Ссылка: https://www.kaggle.com/learn/pandas
Цена: бесплатно
Микро-курсы Kaggle: визуализация данных
Визуализация данных, пожалуй, является одним из наиболее недооцененных навыков, однако она очень важна. Визуализация данных позволит вам полностью понять данные, с которыми вы будете работать.
Ссылка: https://www.kaggle.com/learn/data-visualization
Цена: бесплатно
Микро-курсы Kaggle: введение в machine learning
Здесь начинается самое интересное. Вы будете изучать основные, но очень важные концепции, чтобы начать тренировать модели машинного обучения. Концепции, которые позднее будут предельно необходимы.
Ссылка: https://www.kaggle.com/learn/intro-to-machine-learning
Цена: бесплатно
Микро-курсы Kaggle: machine learning средний уровень
Это дополнение к предыдущему, но здесь вы впервые будете работать с качественными переменными и иметь дело с нулевыми полями в ваших данных.
Ссылка: https://www.kaggle.com/learn/intermediate-machine-learning
Цена: бесплатно
Остановимся здесь на минутку. Должно быть ясно, что эти пять микрокурсов не будут линейным процессом, вам, вероятно, придется изучать их параллельно. Когда вы работаете в Pandas, вам, возможно, придется вернуться к курсу Python, чтобы вспомнить некоторые вещи, которые вы изучили, или перейти к документации Pandas, чтобы понять новые функции, которые вы видели в курсе «Введение в машинное обучение». И это отлично, в этом и заключается настоящее обучение.
Теперь, если вы осознаете, что эти первые 5 курсов дадут вам необходимые навыки для проведения анализа данных (EDA) и создания базовых моделей, которые позже вы сможете улучшить, то сейчас самое время начать с простых соревнований Kaggle и применить на практике то, что вы узнали.
Соревнование Kaggle Playground: Титаник
Здесь вы будете применять на практике то, что вы узнали на вводных курсах. Возможно, поначалу это будет немного пугающе, но суть не в том, чтобы быть первым в списке лидеров, а в том, чтобы учиться. В этом конкурсе вы узнаете о классификации и соответствующих метриках для таких типов проблем, как точность, отзыв и достоверность.
Ссылка: https://www.kaggle.com/c/titanic
Соревнование Kaggle Playground: цены на жилье
В этом конкурсе вы будете применять регрессионные модели и узнавать о соответствующих метриках, таких как RMSE.
Ссылка: https://www.kaggle.com/c/home-data-for-ml-course
К этому моменту у вас уже есть большой практический опыт, и вы почувствуете, что можете решить множество задач, но есть вероятность, что вы не до конца понимаете, что происходит за алгоритмами классификации и регрессии, которые вы использовали. Так что именно здесь мы должны рассмотреть основы того, что мы изучаем.
Многие курсы с этого начинаются - рассмотрения основ, но, по крайней мере, я усваиваю эту информацию лучше, если до этого имел дело с практикой.
Книга: Data Science с нуля
Сейчас мы на мгновение отделимся от Pandas, scikit-learn и других библиотек Python для практического изучения того, что происходит «за» этими алгоритмами.
Эта книга довольно приятна для чтения, в ней приведены примеры Python по каждой из тем, и в ней не так много математики, которая является фундаментальной для этого этапа. Мы хотим понять принцип алгоритмов, но, с практической точки зрения, мы не хотим быть демотивированными, читая множество математических обозначений.
Ссылка: Amazon
Цена: около $ 26
Здесь я приглашаю вас продолжать участвовать в более сложных соревнованиях Kaggle, участвовать в форумах и исследовать новые методы, которые вы найдете в решениях других участников.
Онлайн курс: Машинное обучение от Andrew Ng
Здесь мы встретим многое из того, что уже изучили, но мы увидим, как это объясняет один из лидеров отрасли, и его подход будет более математическим, поэтому он станет отличным способом понять наши модели еще глубже.
Ссылка: https://www.coursera.org/learn/machine-learning
Стоимость: бесплатно без сертификата - $ 79 с сертификатом
Книга: элементы статистического обучения
Теперь начинается тяжелая математическая часть. Представьте, что если бы мы начали отсюда, какой нелегкий был бы путь, и мы, вероятно, давно бы сдались.
Цена: $ 60, официальная бесплатная версия на Стэнфордской странице.
Онлайн курс: Deep learning от Andrew Ng
К этому времени вы, наверное, уже сталкивались с глубоким обучением и поиграли с некоторыми моделями. Но здесь мы собираемся изучить основы того, что такое нейронные сети, как они работают, и научиться внедрять и применять различные существующие архитектуры.
Ссылка: https://www.deeplearning.ai/deep-learning-specialization/
Цена: $ 49 / месяц
На данном этапе, многое зависит от ваших собственных интересов, вы можете сосредоточиться на регрессии и проблемах временных рядов или, возможно, углубиться в Deep learning.