DataStart Conference 2018
Третья практическая конференция по Data Science,
посвященная Big Data и Machine Learning
20 октября 2018 / Москва / Azimut Smolenskaya
О мероприятии
DataStart это ежегодные конференции, где ведущие спикеры Москвы и Санкт-Петербурга делятся трендами, кейсами и практическими навыками по Data Science и Machine Learning.
На конференции вы узнаете о новых методах, возможностях и решениях проблем при внедрении и развития Data Science в бизнесе.
Программа конференции
Мероприятие состоит из двух треков с теоретическим, практическими материалами и реальными кейсами Data Science специалистов
Партнеры и участники конференции
Как проходит конференция
Мы разместили несколько докладов с прошлой конференции, чтобы вы оценили уровень подготовленного материала и качество трансляции
Александр Фонарев
Введение в методы машинного обучения и data science
В последние годы человечество находит всё больше способов с пользой использовать данные, накапливающиеся в ходе самых разных процессов. Например, информация о поведении пользователя на музыкальном сайте позволяет рекомендательной системе предположить, что ещё может ему понравиться. Анализируя истории болезней пациентов, можно обнаруживать незаметные для человека связи и устанавливать неизвестные ранее симптомы опасных заболеваний. А используя базу изображений из интернета, можно построить алгоритм для автоматической детекции нужных объектов на фотографиях. Все эти задачи решаются с помощью методов машинного обучения, которые способны находить сложные закономерности в больших данных. Мы поговорим о том, что такое машинное обучение и что изучает data science. А также обсудим большое количество современных методов машинного обучения и задач, для решения которых они применяются.
Геннадий Штех
Эволюция задач и алгоритмов на текстах, NLP и production
В процессе доклада выясним необходимые этапы работы с текстами и проблемы с этим возникающие. В бизнес-секции поговорим о пользе, которую приносят современные решения NLP. Далее речь пойдет о классических решениях задач и новых вызовах, связанных с повышенными требованиями к течению информации, и новых возникших методах. В исследовательском блоке посмотрим подробнее на перспективные методы. В инженерном - кратко познакомимся с типичными инструментами для NLP.
Александр Жебрак
Как генеративные модели спасут мир. Искусственный интеллект для создания лекарств
В этом докладе я расскажу о том, что такое генеративные модели, и какие существуют подходы к созданию новых объектов и моделированию распределений реальных данных. Мы поговорим о том, как на самом деле работают эти модели, и где они применяются уже сейчас. Во второй части я расскажу, как мы применяем генеративные модели для создания новых лекарств с требуемыми свойствами в Insilico Medicine.
Тайминг и подробное описание докладов DataStart 2018 Moscow
-
Регистрация участников
-
Зал A
Александр Фонарев
Введение в методы машинного обучения и тренды data science 2019 / Еще совсем недавно мы не знали слов «машинное обучение» и «большие данные», а сегодня уже с трудом можем представить жизнь без их помощи: от рекомендаций на сайтах с музыкой и поиска по картинкам до уточнения сложных медицинских диагнозов. Анализ данных захватывают мир и самое время разобраться как. Мы обсудим, какие задачи решаются с помощью методов машинного обучения сегодня, как работают самые используемые на практике подходы, в чём причины роста популярности искусственного интеллекта в последние годы и какие направления машинного обучения сейчас особенно активно развиваются или будут развиваться в ближайшем будущем.
Зал B
Александр Гущин Кейс
Как научиться основам практического анализа данных, решая соревнования на Kaggle / На примере соревнования Walmart: Trip Type Classification, в котором от участников требуется определить цель клиента при посещении магазина, мы разберем самые важные шаги, которые требуются для решения соревновательных задач: разберемся в данных, сгенерируем новые мощные признаки, правильно выстроим валидацию и наконец, объединим силу различных предсказательных моделей ансамблем.
-
Зал A
Дмитрий Парпулов Кейс
Алгоритм подсказки ответов на входящие письма Smart Reply за кулисами / В настоящее время вопросно-ответные системы становятся неотъемлемой частью нашей повседневной жизни. В данном докладе будет рассмотрен алгоритм подсказки ответов на входящие письма (Smart Reply), запущенный почтой Mail.Ru в декабре прошлого года. Вы узнаете, что лежит под капотом, какие подходы пробовали и что в итоге выбрали, как сделать предлагаемые ответы лучше, как оценить качество получившейся модели и еще много всего интересного.
Зал B
Александр Фонарев Практика
Data science с точки зрения бизнеса / Data science всё глубже проникает в бизнес-деятельность различных компаний и структур. В докладе мы рассмотрим главные аспекты этого процесса и развеем основные заблуждения относительно применения анализа данных в бизнесе. В том числе мы обсудим, куда сейчас движется эта индустрия, какие есть ограничения применения data science на практике и как могут выстраиваться отношения между менеджментом и data-science командами. Доклад будет полезен как менеджменту, так и data scientist’ам.
-
Кофе-брейк
-
Зал A
Александр Гущин Кейс
Анализ данных в Яндекс Такси / На докладе мы обсудим, какие задачи бизнеса в Яндекс.Такси мы решаем с помощью машинного обучения и подробно обсудим одну задачу - от этапа формулировки продуктовых требований и до внедрения конечного решения в технологическую платформу сервиса.
Зал В
Виктор Кантор
Как объяснять нюансы машинного обучения понятно (или хотя бы пытаться) / Нужен ли вам еще один доклад про "основы нейросетей" или "5 ошибок применения машинного обучения в бизнесе", или "42 причины не быть дата саентистом"? А очередной туториал, где 80% кода джойнит колонки из данных и генерирует признаки? (Спойлер: нужен, обязательно сходите на другие доклады, ученье - свет.) В этом докладе мы поговорим совсем о другом. Вот, например, говорят вам: "А какая разница, какая метрика качества? Ты нам сделай, чтобы прогнозировало!". И смотрите вы в глаза этому человеку, и сразу понимаете, что экстремумы, матожидания штрафа, распределения, вот все это математическое добро - это вообще ни разу не про него. И как же в этом случае и сделать свою работу хорошо, и понятно объяснить, чем и почему вы занимаетесь? Возможно вы удивитесь, но для решения этой задачи честным путем вам потребуется еще больше разбираться и в машинном обучении, и в особенностях его применения в бизнесе, так что в основном рассказ будет далеко не про soft skills (о которых мы однако немного поговорим в конце).
-
Зал A
Дмитрий Коробченко
Как ускорить обучение и инференс ваших нейронных сетей / Обзор технологического стека NVIDIA для эффективного решения задач глубокого машинного обучения, включающего в себя такие инструменты как GPU, NVIDIA GPU Cloud, CUDA, cuDNN, TensorRT и другое.
Зал B
Павел Мягких
Внедрение Data Science решения в рознице / В 2018 году повсеместно все внедряют Data Science, Machine Learning или даже, какой ужас, искусственный интеллект. Кто-то под этим подразумевает logreg, кто-то учит сетки, но чаще 90% работы сводится к вопросу "а точно наши данные корректны?". Мы немного поговорим о том, в чем сложности старта DS проекта (ведь xgboost мы все уже итак установили?), обсудим какие грабли вы встретите точно, какие можно обойти, кто ваш друг, а какого врага надо полюбить и угостить пивом при случае. А на закуску обсудим, в чем отличие внешнего интегратора от внутреннего спеца (энтузиаста).
-
Обед
-
Зал A
Валерий Бабушкин Кейс
Ошибки при построении Data Science проекта и как их избежать / Все больше и больше компаний понимают что Data Science, Big Data и машинное обучение это не просто модные слова, но и способ получить дополнительную прибыль, конкурентное преимущество и не быть съеденными компаниями, которые уже начали активно работать с данными. Я расскажу затем как и каких ошибок нужно избегать и чему нужно уделять внимание при построении решений
Зал B
Дмитрий Коробченко Практика
Ускорение инференса с помощью TensorRT / Демонстрация применения библиотеки TensorRT для оптимизации модели нейронной сети и ускорения инференса.
-
Зал A
Сергей Серый Кейс
Просто о сложных DS-системах будущего - аналитика потоков данных / На примере Brand Analytics: 75 млрд сообщений за 5 лет (несколько Яндексов), 50+ млн в сутки, высокоскоростная мультиязычная лингвистика и задачи в реал-тайм. Анализ неструктурированных высокоскоростных потоков данных 80-го уровня сложности класса Facebook и Twitter - тысячи сообщений в секунду. За что конкретно HP заплатил $12 млрд, с чем не справился Apple, украв у Twitter дружескую компанию за $200 млн, и почему IBM заплатил $100 млн за то "что и так у компании было". На конференциях мы рассказываем о будущем и ищем "ботанов", которые много чего знают в разных сферах (философия, математика, история) и хотят знать еще больше и применять знания из области философии знаний, DS/AI в области аналитики динамических вероятностных процессов развития социума и будущего человечества.
Зал B
Артем Просветов Кейс
Make your AI beauty: предиктивная аналитика и рекомендательные системы в маркетинге индустрии красоты / На примере eccommerce проектов в бьюти-индустрии будут разобраны примеры предиктивной аналитики для определения: отклика, оттока, прогноза экономических показателей, пример работы нейронных сетей для рекомендательной системы, а также продемонстрированы результаты оптимизации маркетинговых коммуникаций на основе данных о потребительском поведении.
-
Кофе-брейк
-
Зал A
Геннадий Штех
Использование ML в продукте: подходы и подводные камни / Рассмотрим основные подходы к ведению проектов с применением ML, как работать с возникающими сложностями и как избежать ошибок. Дадим рекомендации по выбору моделей и фреймворков, покажем последствия этого выбора. Разребём цикл “задача-исследование-разработка-внедрение-эксплуатация” в контексте ML-разработки. Посмотрим на лучшие практики IT и анализа данных и сэкономим на чужом опыте.
Зал B
Никита Тарасов Кейс
Data Science в большой продуктовой компании / Data Science в СКБ Контур развивается уже больше 6 лет, но за последние полтора года произошел взрывной рост. Потребности в решении DS задач появились почти в каждом из 40+ продуктов компании, и мы учимся их удовлетворять. Расскажу о задачах, которые ставит перед нами рынок B2B и об истории развития DS в нашей компании. Разберу разные способы организации DS, которые мы попробовали, их преимущества, проблемы и роли сотрудников в каждом из них.
-
Зал A
Геннадий Штех Практика
Пишем фреймворки сами / Раскроем тему изобретения велосипедов, когда они нужны и как их проще делать. В начале определимся, когда нужно строить своё решение задачи, а когда стоит использовать готовое. Основную часть посвятим демонстрации универсального подхода к разработке моделей с использованием deep learning framework — PyTorch.
Зал B
Сергей Юдовский Кейс
Machine Learning для программных роботов - роботизируем бизнесы / Раскроем основные задачи, которые могут решаться программными роботами RPA с помощью нейронных сетей. Дадим примеры наших кейсов и кейсов применения стыковки ML + RPA в западных компаний.
Спикеры конференции
Дмитрий Коробченко Deep Learning R&D engineer в NVIDIA, (Москва)Закончил ВМК МГУ с отличием. Работал в IBM и Samsung, где занимался исследовательскими задачами, связанными с машинным обучением (Deep Learning), компьютерным зрением и обработкой сигналов. Сейчас работает в NVIDIA, где продолжает исследования и разработку в этой области.
Александр Фонарёв Chief Data Scientist, Rubbles, преподаватель ШАД ЯндексChief Data Scientist и сооснователь компании Rubbles (SBDA Group), преподаватель машинного обучения в Школе Анализа Данных Яндекса и аспирант Сколтеха. В прошлом работал в Яндексе в отделах машинного перевода и исследований в машинном интеллекте.
Геннадий Штех Lead DS @ IRELAЗанимается исследованиями в областях моделирования потоков информации, поисковых моделей и персонализации. Руководит разработкой и внедрением Machine Learning решений. Специализируется на мультитаск-эмбеддингах, методах работы "разметки нет, но модели строить нужно" и инженерных аспектах построения сложных систем, зависимых от данных.
Александр Гущин Senior Data Scientist в Яндекс.ТаксиЗанимается прогнозированием поведения пользователей в Яндекс.Такси, преподаёт на открытых курсах по анализу данных Data Mining in Action. Входил в топ-5 мирового рейтинга kaggle, автор курса на Coursera про соревновательный анализ данных.
Виктор Кантор Эксперт по машинному обучению, преподавательЗанимается машинным обучением около десяти лет, преподает в ВУЗах, компаниях и на Coursera. Работал в Yandex Data Factory, компании ABBYY и ряде стартапов. Сейчас – эксперт по машинному обучению и консультант Яндекс.Такси.
Дмитрий Парпулов Программист в команде машинного обучения Почты Mail.RuЗанимается задачами, связанными с обработкой естественного языка: категоризация входящего потока писем, выделение именованных сущностей, вопросно-ответные системы.
Валерий Бабушкин Руководитель управления развития данных Х5 Retail Group, руководитель группы аналитики Яндекс Советник, приглашенный преподаватель ВШЭ.Закончил Университет прикладных наук Карлсруэ (Германия), занимался инфракрасной спектрометрией, а затем работал в банке «Открытие». Kaggle Competition Master, 151-й в мировом рейтинге
Павел Мягких Chief Data Scientist в Kreate:F&A, разработчик рекомендательных сервисов и систем динамического ценообразования для ритейлаПриглашенный преподаватель НИУ ВШЭ Факультет Компьютерных Наук, Департамент больших данных и информационного поиска. Занимаюсь созданием оффлайн и онлайн курсов по Искусственному интеллекту. До этого руководил функциями Data Science в розничных международных компаниях.
Артем Просветов Эксперт в области Data Science и Deep Learning в CleverDATAКандидат физ.-мат. наук, в CleverDATA занимается разработкой рекомендательных систем, предсказательных и Lookalike моделей, проектов Text mining. Работал в Институте Космических Исследований (ведущий математик). Имеет ряд научных публикаций по анализу данных, неоднократный призер научных конкурсов. Проводит лекции на тему Big Data в «Нетологии»
Сергей Серый Основатель Brand AnalyticsBRAND ANALYTICS - Система мониторинга и анализа бренда в социальных медиа и СМИ. Она знает что, где, как и почему говорят о вашем бренде и расскажет вам об этом. Система находит упоминания о компании, продукте, услуге, персоне или событии в социальных медиа и СМИ, определяет тональность сообщений, выделяет наиболее важные темы, выявляет тенденции и представляет информацию в виде интуитивно понятных графиков и отчетов для принятия верного стратегического или тактического решения.
Никита Тарасов Chief Data Scientist в "СКБ Контур"Руководитель отдела исследований, разработки и внедрения Machine Learning решений в СКБ Контур. Занимается Machine Learning более 6 лет, большую часть времени занимался поисковыми и рекомендательными системами.
Сергей Юдовский Центр Роботизации и Искусственного интеллектаСерийный предприниматель: со-основатель и генеральный директор нескольких компаний, более 9 лет в ИТ-индустрии. На данный момент занимает должность генерального директора в Центре Роботизации и Искусственного Интеллекта (ЦРИИ). ЦРИИ стал первой частной российской компанией, которая начала предалагать внедерение роботов на рынке. На текущий момент ЦРИИ обладает самой крупной экспертизой по роботизации и использованию искусственного интеллекта в RPA.
DataStart Conference Весна 2018
В апреле 2018 года прошла вторая однодневная обучающая конференция DataStart. Спикеры из Москвы Санкт-Петербурга провели лекции и воркшопы по Big Data и машинному обучению.
Посмотреть материалыНовая конференция в Москве
пройдет 27 апреля 2019 в Holiday Inn Lesnaya
Бизнес-кейсы в Data Science
Хотите научиться применять Data Science для своей организации?
Более 25 докладов от спикеров, которые имели реальный опыт применения в проектах— по анализу и визуализации данных,
— распознаванию объектов,
— скоринговым системам,
— автоматизации клиентской поддержки,
— чат-ботам,
— классификации текстов
На конференции вы узнаете как Data Science использовать для вашего бизнеса, какие инструменты внедрять для принятия эффективных бизнес-решений. При разборе реальных кейсов крупных компаний, использующих большие данные в своих бизнес-процессах, вы сможете выделить конкурентное преимущество для своей организации.
Посмотреть программуМесто проведения
Конференция пройдет в субботу, 20 октября 2018 в современных просторных конференц-залах отеля Azimut Smolenskaya
Место проведения
Мероприятие прошло в центре Москвы у метро Смоленская и в 3 минутах от Арбата и 10 минутах от метро Киевская.
- Москва, ул. Смоленская, 8, Отель Азимут Смоленская
- 20 октября 2018, 10:00 - 20:00