Что стоит изучить, чтобы стать успешным data scientist'ом в 2021 году
и почему победит универсальный специалист в области Data science
Несколько лет назад в сфере Data science в большинстве вакансий требовалось наличие докторской степени или, по крайней мере, магистра математики, статистики или аналогичного предмета в качестве основного критерия.
За последние пару лет все изменилось. Широкое развитие получили библиотеки машинного обучения, которые абстрагируют от сложного характера алгоритмов, а также пришло осознание того, что практическое применение машинного обучения для решения бизнес-задач требует набора навыков, которые обычно не приобретаются только путем академического обучения. Сейчас компании нанимают специалистов по данным, исходя из их способности заниматься прикладной наукой о данных, а не исследованиями.
Прикладная наука о данных, которая приносит пользу бизнесу в кратчайшие сроки, требует очень практического набора навыков. По мере того, как все больше компаний переносят свои решения для данных и машинного обучения в облако, для специалистов по данным становится все более важным иметь представление о новых инструментах и технологиях, связанных с этим.
Кроме того, те времена, когда специалисты data science работали исключительно над моделированием данных, используя данные, собранные инженерами данных, а затем передавая модель команде инженеров-программистов для внедрения в производство, в значительной степени остались позади. Особенно за пределами технологических гигантов, таких как Amazon, Facebook и Google.
Есть такая поговорка: "Мастер на все руки - не мастер ни в чём". Когда дело доходит до специалиста по данным, то нужно быть немного таким, но лучше было бы сказать: "Мастер на все руки - и мастер кое в чем". Брендан Тирни, главный консультант Oralytics.
Чтобы специалисты по данным могли принести максимальную пользу бизнесу, они должны разбираться во всех этапах жизненного цикла разработки модели. Важно наличие хотя бы практических знаний в области разработки каналов передачи данных, выполнения анализа данных, машинного обучения, математики, статистики, инженерии данных, облачных вычислений и разработки программного обеспечения. Это означает, что по мере приближения 2021 года в большинстве предприятий предпочтение будет отдаваться как раз такому "универсальному" специалисту по данным.
«Чем больше картина, тем более уникальным является потенциальный вклад человека. Наша самая большая сила - это полная противоположность узкой специализации. Это способность к широкой интеграции.» Дэвид Эпштейн.
Эта статья не охватывает абсолютно все, что вам нужно, чтобы стать специалистом по данным в 2021 году, но она раскрывает ключевые навыки, как новые, так и старые, которые станут наиболее важными для каждого успешного дата-сайентиста в ближайшем будущем.
1. Python 3
В некоторых случаях, специалисты по обработке данных могут использовать R, но в целом, если вы занимаетесь прикладной наукой о данных в наши дни, то Python будет самым ценным языком программирования для изучения.
Python 3 (последняя версия) теперь прочно стал версией языка по умолчанию для большинства приложений, поскольку с 1 января 2020 года поддержка Python 2 была прекращена большинством библиотек. Если вы изучаете Python для науки о данных сейчас, важно: выберите курс, который работает с 3 версией.
Вам потребуется хорошее понимание основного синтаксиса языка и того, как писать функции, циклы и модули. Знать как объектно-ориентированное, так и функциональное программирование на Python, а также уметь разрабатывать, выполнять и отлаживать программы.
2. Pandas
Pandas по-прежнему остается библиотекой Python номер один для обработки и анализа данных. В 2021 году знание Pandas также будет одним из важнейших навыков data scientist'а.
Данные лежат в основе любого проекта в data science, а Pandas - это инструмент, который позволит вам очищать, обрабатывать и извлекать из них полезную информацию. Большинство библиотек машинного обучения в наши дни также обычно используют Pandas DataFrames в качестве стандартного ввода.
3. SQL и NoSQL
SQL существует с 1970-х годов, но до сих пор остается одним из самых важных навыков для специалистов по данным. Подавляющее большинство предприятий используют реляционные базы данных в качестве хранилища аналитических данных, а SQL является инструментом, который предоставит вам эти данные.
NoSQL - это базы данных, которые не хранят данные в виде реляционных таблиц, вместо этого данные хранятся в виде пар ключ-значение, широких столбцов или графиков. Примеры баз данных NoSQL включают Google Cloud Bigtable и Amazon DynamoDB.
По мере того, как объемы данных, собираемых компаниями, увеличиваются, а неструктурированные данные все чаще используются в моделях машинного обучения, организации обращаются к базам данных NoSQL в качестве дополнения или альтернативы традиционному хранилищу данных. Эта тенденция, вероятно, сохранится и в 2021 году, и, как специалисту по обработке данных, важно получить хотя бы базовое понимание того, как взаимодействовать с данными в этой форме.
4. Облако
Согласно одному из исследований, проведенному в январе этого года, 88% организаций на тот момент использовали ту или иную форму облачной инфраструктуры. Влияние COVID-19, вероятно, еще больше ускорило этот процесс.
Использование облака в других областях бизнеса обычно идет рука об руку с облачными решениями для хранения данных, аналитики и машинного обучения. Основные поставщики облачных услуг, такие как Google Cloud Platform, Amazon Web Services и Microsoft Azure, стремительно разрабатывают инструменты для обучения, развертывания и обслуживания моделей машинного обучения.
Как специалисты по данным, которые будут работать в 2021 году и в последующий период, весьма вероятно, что вы будете иметь дело с данными, хранящимися в облачной базе данных, такой как Google BigQuery, и разрабатывать облачные модели машинного обучения. Опыт и навыки в этой области, скорее всего, будут востребованы по мере приближения к 2021 году.
5. Airflow
Apache Airflow, инструмент управления рабочими процессами с открытым исходным кодом, быстро внедряется многими компаниями для управления процессами ETL и конвейерами машинного обучения. Многие крупные технологические компании, такие как Google и Slack, используют его, и Google даже построил свой Cloud Composer на основе этого инструмента.
Airflow все чаще упоминается как желаемый навык для специалистов по данным в объявлениях о вакансиях. Как упоминалось в начале этой статьи, для специалистов по данным станет более важным иметь возможность создавать собственные конвейеры данных для аналитики и машинного обучения и управлять ими. Растущая популярность Airflow, вероятно, сохранится, по крайней мере, в краткосрочной перспективе, и, как инструмент с открытым исходным кодом, его определенно должен изучить каждый начинающий специалист по данным.
6. Программная инженерия
Код для анализа данных обычно очень запутан, он не всегда тщательно протестирован и в нем не соблюдены правила оформления. Это нормально для предварительного исследования данных и быстрого анализа, но когда дело доходит до внедрения моделей машинного обучения в производство, специалисту по данным потребуется хорошее понимание принципов разработки программного обеспечения.
Если вы планируете работать специалистом по данным, скорее всего, вы будете либо сами запускать модели в производство, либо, по крайней мере, активно участвовать в этом процессе. Поэтому важно овладеть следующими навыками:
- Соглашения о кодировании, такие как PEP 8 Python style guide
- Модульное тестирование
- Контроль версий, например, Github
- Зависимости и виртуальные среды
- Контейнеры, например, Docker
Заключение
В этой статье были освещены основные тенденции, касаемые навыков специалистов по данным. Эти идеи были почерпнуты из обзора текущих объявлений о вакансиях в области data science, собственного опыта работы автора в качестве специалиста по данным и чтения статей, посвященных будущим тенденциям в данной области.
Это не полный список, определенно требуется гораздо больше навыков и опыта, чтобы стать успешным специалистом по данным. Но в следующем году, скорее всего, наиболее важно сделать упор именно на эти навыки.
Спасибо за чтение!