DataStart Conference 2018

Вторая обучающая конференция по Data Science, посвященная Big Data и Machine Learning

07 апреля 2018 / Москва

Мероприятие завершено

Мы принимаем платежи от юридических лиц онлайн через платежную систему

Фотоотчет с мероприятия

В апреле 2018 года прошла вторая однодневная обучающая конференция DataStart. Спикеры из Москвы Санкт-Петербурга провели лекции и воркшопы по Big Data и машинному обучению.

Как проходила конференция

Мы разместили несколько докладов с конференции, чтобы вы оценили уровень подготовленного материала и качество трансляции

Александр Фонарев

Введение в методы машинного обучения и data science

В последние годы человечество находит всё больше способов с пользой использовать данные, накапливающиеся в ходе самых разных процессов. Например, информация о поведении пользователя на музыкальном сайте позволяет рекомендательной системе предположить, что ещё может ему понравиться. Анализируя истории болезней пациентов, можно обнаруживать незаметные для человека связи и устанавливать неизвестные ранее симптомы опасных заболеваний. А используя базу изображений из интернета, можно построить алгоритм для автоматической детекции нужных объектов на фотографиях. Все эти задачи решаются с помощью методов машинного обучения, которые способны находить сложные закономерности в больших данных. Мы поговорим о том, что такое машинное обучение и что изучает data science. А также обсудим большое количество современных методов машинного обучения и задач, для решения которых они применяются.

Геннадий Штех

Эволюция задач и алгоритмов на текстах, NLP и production

В процессе доклада выясним необходимые этапы работы с текстами и проблемы с этим возникающие. В бизнес-секции поговорим о пользе, которую приносят современные решения NLP. Далее речь пойдет о классических решениях задач и новых вызовах, связанных с повышенными требованиями к течению информации, и новых возникших методах. В исследовательском блоке посмотрим подробнее на перспективные методы. В инженерном - кратко познакомимся с типичными инструментами для NLP.

Александр Жебрак

Как генеративные модели спасут мир. Искусственный интеллект для создания лекарств

В этом докладе я расскажу о том, что такое генеративные модели, и какие существуют подходы к созданию новых объектов и моделированию распределений реальных данных. Мы поговорим о том, как на самом деле работают эти модели, и где они применяются уже сейчас. Во второй части я расскажу, как мы применяем генеративные модели для создания новых лекарств с требуемыми свойствами в Insilico Medicine.

Программа мероприятия DataStart 2018 Moscow

Мероприятие состоит из двух треков с теоретическим и практическими материалами

Регистрация участников
Зал A

Александр Фонарев

Введение в методы машинного обучения и data science / В последние годы человечество находит всё больше способов с пользой использовать данные, накапливающиеся в ходе самых разных процессов. Например, информация о поведении пользователя на музыкальном сайте позволяет рекомендательной системе предположить, что ещё может ему понравиться. Анализируя истории болезней пациентов, можно обнаруживать незаметные для человека связи и устанавливать неизвестные ранее симптомы опасных заболеваний. А используя базу изображений из интернета, можно построить алгоритм для автоматической детекции нужных объектов на фотографиях. Все эти задачи решаются с помощью методов машинного обучения, которые способны находить сложные закономерности в больших данных. Мы поговорим о том, что такое машинное обучение и что изучает data science. А также обсудим большое количество современных методов машинного обучения и задач, для решения которых они применяются.

#machine-learning #intro #data-science

Зал B

Дмитрий Бабаев

Нерешенные проблемы нейронных сетей / Глубокое обучение нейронных сетей явилось прорывом в развитии систем искусственного интеллекта. Многие задачи недоступные классическим методам машинного обучения были решены на уровне близком к возможностям человеки или даже более высоком. Тем не менее, существуют значительные проблемы обучения нейронных сетей, серьезно ограничивающие их применение. Примеры таких проблем, это большой объем размеченных данных, необходимый для обучения сети, сложности переноса опыта обученной сети на другие задачи. Мы поговорим об этих проблемах и о возможных путях их решения.

#deep-learning #ai #transfer-learning
Зал A

Александр Гущин

Зачем нужны соревнования по анализу данных? / С какой целью компании проводят соревнования, зачем дата-саентисты в них участвуют, и какая польза от этого остальным.

#kaggle #data-science-competitions #data-analysis #machine-learning

Зал B

Александр Фонарев Практика

Рекомендательные системы в теории и на практике / В докладе будут разобраны цели и разновидности задач персональных рекомендаций, какие алгоритмы имеет смысл применять в каждом конкретном случае, какие подводные камни часто встречаются на практике, как правильно поставить эксперимент и какие основные заблуждения существуют в этой области.

#recommender-systems #machine-learning #marketing #business #personalization
Кофе-брейк
Зал A

Дмитрий Коробченко

Deep Learning / Введение в машинное обучение и нейронные сети (Deep Learning), обзор современных архитектур нейронных сетей, примеры применения нейронных сетей, тренды.

#machine-learning #deep-learning #neural-network #cnn #rnn #gan

Зал B

Александр Гущин Практика

Предсказание кредитного предложения. Соревнование Kaggle "Springleaf Marketing Response" / Мы разберем самые важные шаги, которые требуются для решения соревновательных задач: разберемся в данных, сгенерируем новые мощные признаки, правильно выстроим валидацию и наконец, объединим силу различных предсказательных моделей ансамблем.

#kaggle #data-science-competitions #data-analysis #machine-learning #credit-scoring
Зал A

Евгений Бурнаев

Обнаружение аномалий и прогнозирование поломок. Промышленные применения / Ряд практических задач в инженерии, финансах и медицине можно сформулировать в виде задачи обнаружения аномалий. Классическим методом решения подобной задачи является описание нормального состояния, которое может быть сделано, например, с помощью одноклассовой классификации. В докладе будет проведен краткий обзор моделей и методов для обнаружения аномалий. Также будет представлен новый алгоритм одноклассовой классификации. Его отличие от остальных алгоритмов - использование привилегированной информации. Предложена формальная постановка задачи с учетом привилегированной информации на этапе обучения и предложен эффективный алгоритм её решения. Примеры применения методов обнаружения аномалий проиллюстрированы на примерах решения задач в рамках индустриальных приложений.

#machine-learning #anomaly-detection #industrial-analytics

Зал B

Дмитрий Коробченко Практика

Deep Learning / Построение и обучение свёрточной нейронной сети для решения задачи компьютерного зрения (распознавания рукописных цифр) на TensorFlow с описанием особенностей работы Data Scientist’а.

#deep-learning #neural-network #python #cnn #tensorflow
Обед
Зал A

Сергей Николенко

Что же делают AlphaGo и AlphaZero? Глубокое обучение с подкреплением / 9-15 марта 2016 года программа AlphaGo, созданная Google DeepMind на основе методов deep reinforcement learning, победила со счётом 4-1 Ли Седоля, профессионала го 9 дана и одного из лучших игроков-людей. А совсем недавно AlphaZero научилась играть в го, шахматы и сёги ещё лучше прежнего, не используя вообще никакой внешней информации, только правила игры. В этом докладе мы попробуем ответить на следующие вопросы: -- почему это так важно и сложно, ведь, казалось бы, DeepBlue обыграл Каспарова десять лет назад? -- что такое deep reinforcement learning, как это работает? -- в чём основные идеи собственно AlphaGo, в чём прорыв? -- зачем эти игрушки? для чего ещё можно использовать идеи AlphaGo в частности и deep reinforcement learning в целом?

#deep-learning #reinforcement-learning #alphago #alphazero #deepmind

Зал B

Дмитрий Сергеев

Игрушечный Data Science. Практические кейсы из геймдева / Небольшое введение что такое геймдев; особенности бизнеса; общий обзор задач по аналитике; предсказание действий пользователей;$ интерпретируемый ML; что такое LTV и почему вы хотите его предсказать; экономим на платных решениях и делаем свои; автоматизация и оптимизация; где и как можно убрать ручной труд с помощью моделей; перспективы Data Science в геймдеве.

#data-science #gamedev #business-cases #automatization #time-series-forecasting
Зал A

Дмитрий Сергеев Практика

Как предсказать будущее, экспресс-курс по работе с временными рядами / Что такое временные ряды; специфика данных; простейшие методы и модели; экспоненциальное сглаживание и Хольт-Винтерс; эконометрический подход, семейство ARIMA; ML для временных рядов; генерация признаков; бустинг; автоматические решения

#data-science #gamedev #business-cases #automatization #time-series-forecasting

Зал B

Дмитрий Смоляков Практика

Практические аспекты применения методов обнаружения аномалий / В докладе будут рассмотрены практические аспекты применения методов обнаружения аномалий. На примерах решения задач из сферы сетевой безопасности и из области индустриального интернета вещей будут рассмотрены вопросы выбора подходящей метрики, особенности различных алгоритмов, а так же техники рэсемплинга данных для работы с несбалансированными выборками.

#machine-learning #anomaly-detection #industrial-analytics
Зал A

Александр Жебрак

Как генеративные модели спасут мир. Искусственный интеллект для создания новых лекарств. / В этом докладе я расскажу о том, что такое генеративные модели, и какие существуют подходы к созданию новых объектов и моделированию распределений реальных данных. Мы поговорим о том, как на самом деле работают эти модели, и где они применяются уже сейчас. Во второй части я расскажу, как мы применяем генеративные модели для создания новых лекарств с требуемыми свойствами в Insilico Medicine.

#deeplearning #probability #prediction #machinelearning #generative-models

Зал B

Иван Оселедец

Математика нейронных сетей / Нейронные сети ставят рекорды во многих приложениях. Однако, 1) мы не понимаем, почему они работают так хорошо 2) оценки текущих теории не дают понять, почему увеличение "глубины" сетей приводит к улучшению качества работы 3) их очень легко обмануть (adversarial examples) 4) нет понимания, в каком случае одна архитектура будет работать лучше чем другая. Все это - открытые научные вопросы, на которые должна дать ответ математика. В докладе будет дан обзор некоторых частных, но очень интересных результатов в этой области.

#machine-learning #deep-learning #tensors
Кофе-брейк
Зал A

Геннадий Штех

Эволюция задач и алгоритмов на текстах, NLP и production / В процессе доклада выясним необходимые этапы работы с текстами и проблемы с этим возникающие. В бизнес-секции поговорим о пользе, которую приносят современные решения NLP. Далее речь пойдет о классических решениях задач и новых вызовах, связанных с повышенными требованиями к течению информации, и новых возникших методах. В исследовательском блоке посмотрим подробнее на перспективные методы. В инженерном - кратко познакомимся с типичными инструментами для NLP.

#nlp #documents #semantics #embeddings #search

Зал B

Анна-Вероника Дорогуш Практика

Туториал от команды CatBoost / На практической сессии мы изучим функциональность библиотеки CatBoost на примере решения контеста на Kaggle: научимся обучать модель, рассмотрим различные параметры, которые влияют на скорость обучения и итоговое качество модели. Научимся анализировать полезность факторов. И многое другое.

#machinelearning #datascience #gradientboosting #gbm #catboost
Зал A

Вопросы спикерам. Закрытие конференции

Сессия вопросов к спикерам из зала

Зал B

Геннадий Штех Практика

Toolchain практикующего NLP: [не]простые подходы, которые работают / Построим простой конвейер обработки текстовых данных от сырых текстов до готового прототипа, который сможет автоматически навешивать тэги, строить карту предметной области, искать похожие документы и даже в каком-то смысле переводить слова между русским и английским.

#nltk #pymorphy2 #gensim #bigartm

Спикеры конференции

Дмитрий Коробченко Deep Learning R&D engineer в NVIDIA, (Москва)

Закончил ВМК МГУ с отличием. Работал в IBM и Samsung, где занимался исследовательскими задачами, связанными с машинным обучением (Deep Learning), компьютерным зрением и обработкой сигналов. Сейчас работает в NVIDIA, где продолжает исследования и разработку в этой области.

Александр Фонарёв Chief Data Scientist, Rubbles, преподаватель ШАД Яндекс, (Москва)

Chief Data Scientist и сооснователь компании Rubbles (SBDA Group), преподаватель машинного обучения в Школе Анализа Данных Яндекса и аспирант Сколтеха. В прошлом работал в Яндексе в отделах машинного перевода и исследований в машинном интеллекте.

Геннадий Штех Руководитель R&D отдела компании Naumen, (Москва)

Исследует инструменты и алгоритмы NLP. В Naumen строит семантический поиск документов, контентные рекомендательные движки и системы поддержки принятия решений. Руководит разработкой и внедрением Machine Learning решений.

Александр Гущин Senior Data Scientist в Яндекс.Такси, (Москва)

Занимается прогнозированием поведения пользователей в Яндекс.Такси, преподаёт на открытых курсах по анализу данных Data Mining in Action. Входил в топ-5 мирового рейтинга kaggle, автор курса на Coursera про соревновательный анализ данных.

Сергей Николенко ПОМИ РАН, (Санкт-Петербург)

Специалист по машинному обучению и анализу алгоритмов. Автор книг по машинному обучению и нейронным сетям. Опыт сотрудничества с индустрией в области машинного обучения.

Дмитрий Сергеев Data Scientist в Zeptolab, (Москва)

Занимается внедрением машинного обучения, автоматизацией бизнес-процессов и анализом поведения пользователей в Zeptolab. Является одним из авторов открытого курса по машинному обучению от Open Data Science, преподавал в ЦМФ МГУ.

Анна Вероника Дорогуш Руководитель группы разработки систем машинного обучения в Яндекс, (Москва)

Окончила факультет ВМК Московского государственного университета и Школу анализа данных (ШАД). Работала в компаниях ABBYY, Microsoft, Bing, Google. В Яндексе с 2015 года. Занимается задачами, связанными с развитием алгоритмов машинного обучения.

Евгений Бурнаев Профессор Сколтех, (Москва)

Российский ученый, кандидат физико-математических наук. Профессор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколковского института науки и технологий («Сколтех»). Руководит научной группой Advanced Data Analytics in Science and Engineering, специализируется на приложениях в области индустриальной инженерии и разработке соответствующих методов машинного обучения.

Дмитрий Смоляков Аспирант Сколтеха, (Москва)

Аспирант Сколковского института науки и технологий, научный сотрудник Института проблем передачи информации. Занимается разработкой систем обнаружения аномалий для инженерных приложений, такие как: предсказательное обслуживание авиационного оборудования, обнаружения поломок в датчиках автоматических дорожных метеостанций.

Александр Жебрак CTO Insilico Medicine, (Москва)

Занимается проектами в области анализа биомедицинских данных и применением машинного обучения для поиска биомаркеров и создания новых лекарств. 5 лет руководил разработкой проектов в Mail.Ru Group, преподавал в МГТУ им. Баумана, делает образовательные курсы на Coursera.

Иван Оселедец Доцент Сколтеха, (Москва)

Доктор физико-математических наук, доцент Сколтеха, руководитель лаборатории научных вычислений.

Дмитрий Бабаев Исследователь в лаборатории AI Сбербанка, (Москва)

Занимается развитием data science в рамках направления big data. До того работал в «Тинькофф банке», Яндексе, Digital Society Laboratory. Около пяти лет работал с технологиями экосистемы Hadoop.

Скачать видеозаписи и материалы конференции

Оставьте почтовый адрес и мы вышлем ссылки на презентации спикеров и на видеозаписи с треков мероприятия.

Новая конференция в Москве

пройдет 27 апреля 2019 в Holiday Inn Lesnaya

Бизнес-кейсы в Data Science

Хотите научиться применять Data Science для своей организации?

Более 25 докладов от спикеров, которые имели реальный опыт применения в проектах
— по анализу и визуализации данных,
— распознаванию объектов,
— скоринговым системам,
— автоматизации клиентской поддержки,
— чат-ботам,
— классификации текстов

На конференции вы узнаете как Data Science использовать для вашего бизнеса, какие инструменты внедрять для принятия эффективных бизнес-решений. При разборе реальных кейсов крупных компаний, использующих большие данные в своих бизнес-процессах, вы сможете выделить конкурентное преимущество для своей организации.

Посмотреть программу

Место проведения

Конференция прошла в субботу, 07 апреля 2018 в современных просторных конференц-залах отеля Novotel Moscow Kievskaya