Бесплатная конференция по Data Science! 26 апреля] Участвовать →

Что стоит изучить, чтобы стать успешным data scientist'ом в 2021 году

и почему победит универсальный специалист в области Data science

Несколько лет назад в сфере Data science в большинстве вакансий требовалось наличие докторской степени или, по крайней мере, магистра математики, статистики или аналогичного предмета в качестве основного критерия. 

За последние пару лет все изменилось. Широкое развитие получили библиотеки машинного обучения, которые абстрагируют от сложного характера алгоритмов, а также пришло осознание того, что практическое применение машинного обучения для решения бизнес-задач требует набора навыков, которые обычно не приобретаются только путем академического обучения. Сейчас компании нанимают специалистов по данным, исходя из их способности заниматься прикладной наукой о данных, а не исследованиями. 

Прикладная наука о данных, которая приносит пользу бизнесу в кратчайшие сроки, требует очень практического набора навыков. По мере того, как все больше компаний переносят свои решения для данных и машинного обучения в облако, для специалистов по данным становится все более важным иметь представление о новых инструментах и ​​технологиях, связанных с этим.

Кроме того, те времена, когда специалисты data science работали исключительно над моделированием данных, используя данные, собранные инженерами данных, а затем передавая модель команде инженеров-программистов для внедрения в производство, в значительной степени остались позади. Особенно за пределами технологических гигантов, таких как Amazon, Facebook и Google. 

Есть такая поговорка: "Мастер на все руки - не мастер ни в чём". Когда дело доходит до специалиста по данным, то нужно быть немного таким, но лучше было бы сказать: "Мастер на все руки - и мастер кое в чем". Брендан Тирни, главный консультант Oralytics.

Чтобы специалисты по данным могли принести максимальную пользу бизнесу, они должны разбираться во всех этапах жизненного цикла разработки модели. Важно наличие хотя бы практических знаний в области разработки каналов передачи данных, выполнения анализа данных, машинного обучения, математики, статистики, инженерии данных, облачных вычислений и разработки программного обеспечения. Это означает, что по мере приближения 2021 года в большинстве предприятий предпочтение будет отдаваться как раз такому "универсальному" специалисту по данным.

«Чем больше картина, тем более уникальным является потенциальный вклад человека. Наша самая большая сила - это полная противоположность узкой специализации. Это способность к широкой интеграции.» Дэвид Эпштейн.

Эта статья не охватывает абсолютно все, что вам нужно, чтобы стать специалистом по данным в 2021 году, но она раскрывает ключевые навыки, как новые, так и старые, которые станут наиболее важными для каждого успешного дата-сайентиста в ближайшем будущем.

1. Python 3

В некоторых случаях, специалисты по обработке данных могут использовать R, но в целом, если вы занимаетесь прикладной наукой о данных в наши дни, то Python будет самым ценным языком программирования для изучения.

Python 3 (последняя версия) теперь прочно стал версией языка по умолчанию для большинства приложений, поскольку с 1 января 2020 года поддержка Python 2 была прекращена большинством библиотек. Если вы изучаете Python для науки о данных сейчас, важно: выберите курс, который работает с 3 версией.

Вам потребуется хорошее понимание основного синтаксиса языка и того, как писать функции, циклы и модули. Знать как объектно-ориентированное, так и функциональное программирование на Python, а также уметь разрабатывать, выполнять и отлаживать программы.

2. Pandas

Pandas по-прежнему остается библиотекой Python номер один для обработки и анализа данных. В 2021 году знание Pandas также будет одним из важнейших навыков data scientist'а.

Данные лежат в основе любого проекта в data science, а Pandas - это инструмент, который позволит вам очищать, обрабатывать и извлекать из них полезную информацию. Большинство библиотек машинного обучения в наши дни также обычно используют Pandas DataFrames в качестве стандартного ввода.

3. SQL и NoSQL

SQL существует с 1970-х годов, но до сих пор остается одним из самых важных навыков для специалистов по данным. Подавляющее большинство предприятий используют реляционные базы данных в качестве хранилища аналитических данных, а SQL является инструментом, который предоставит вам эти данные.

NoSQL - это базы данных, которые не хранят данные в виде реляционных таблиц, вместо этого данные хранятся в виде пар ключ-значение, широких столбцов или графиков. Примеры баз данных NoSQL включают Google Cloud Bigtable и Amazon DynamoDB. 

По мере того, как объемы данных, собираемых компаниями, увеличиваются, а неструктурированные данные все чаще используются в моделях машинного обучения, организации обращаются к базам данных NoSQL в качестве дополнения или альтернативы традиционному хранилищу данных. Эта тенденция, вероятно, сохранится и в 2021 году, и, как специалисту по обработке данных, важно получить хотя бы базовое понимание того, как взаимодействовать с данными в этой форме.

4. Облако

Согласно одному из исследований, проведенному в январе этого года, 88% организаций на тот момент использовали ту или иную форму облачной инфраструктуры. Влияние COVID-19, вероятно, еще больше ускорило этот процесс.

Использование облака в других областях бизнеса обычно идет рука об руку с облачными решениями для хранения данных, аналитики и машинного обучения. Основные поставщики облачных услуг, такие как Google Cloud Platform, Amazon Web Services и Microsoft Azure, стремительно разрабатывают инструменты для обучения, развертывания и обслуживания моделей машинного обучения.

Как специалисты по данным, которые будут работать в 2021 году и в последующий период, весьма вероятно, что вы будете иметь дело с данными, хранящимися в облачной базе данных, такой как Google BigQuery, и разрабатывать облачные модели машинного обучения. Опыт и навыки в этой области, скорее всего, будут востребованы по мере приближения к 2021 году.

5. Airflow

Apache Airflow, инструмент управления рабочими процессами с открытым исходным кодом, быстро внедряется многими компаниями для управления процессами ETL и конвейерами машинного обучения. Многие крупные технологические компании, такие как Google и Slack, используют его, и Google даже построил свой Cloud Composer на основе этого инструмента.

Airflow все чаще упоминается как желаемый навык для специалистов по данным в объявлениях о вакансиях. Как упоминалось в начале этой статьи, для специалистов по данным станет более важным иметь возможность создавать собственные конвейеры данных для аналитики и машинного обучения и управлять ими. Растущая популярность Airflow, вероятно, сохранится, по крайней мере, в краткосрочной перспективе, и, как инструмент с открытым исходным кодом, его определенно должен изучить каждый начинающий специалист по данным.

6. Программная инженерия

Код для анализа данных обычно очень запутан, он не всегда тщательно протестирован и в нем не соблюдены правила оформления. Это нормально для предварительного исследования данных и быстрого анализа, но когда дело доходит до внедрения моделей машинного обучения в производство, специалисту по данным потребуется хорошее понимание принципов разработки программного обеспечения.

Если вы планируете работать специалистом по данным, скорее всего, вы будете либо сами запускать модели в производство, либо, по крайней мере, активно участвовать в этом процессе. Поэтому важно овладеть следующими навыками:

  • Соглашения о кодировании, такие как  PEP 8 Python style guide
  • Модульное тестирование
  • Контроль версий, например, Github
  • Зависимости и виртуальные среды
  • Контейнеры, например, Docker

Заключение

В этой статье были освещены основные тенденции, касаемые навыков специалистов по данным. Эти идеи были почерпнуты из обзора текущих объявлений о вакансиях в области data science, собственного опыта работы автора в качестве специалиста по данным и чтения статей, посвященных будущим тенденциям в данной области. 

Это не полный список, определенно требуется гораздо больше навыков и опыта, чтобы стать успешным специалистом по данным. Но в следующем году, скорее всего, наиболее важно сделать упор именно на эти навыки. 

Спасибо за чтение!

Источник

Поделиться записью
Вверх