V конференция по
DATA SCIENCE

neural network / machine learning / big data
30 ноября 2019
Moscow / Azimut Smolenskaya
Мероприятие состоялось
1
день
4
секции
30
спикеров

Для кого наши мероприятия?

Cпикеры DataStart

Программа мероприятия

10:00
10:45
Александр Фонарев Chief Data Scientist, Rubbles, преподаватель ШАД Яндекс
Введение в AI технологии
В докладе мы погрузимся в тематику технологий искусственного интеллекта, разберём решения реальных прикладных задач из различных индустрий и ответим на основные вопросы, важные для понимания области:
* Чем отличается data science от искусственного интеллекта, машинного обучения и других схожих терминов?
* В чём причины хайпа вокруг искусственного интеллекта в последние годы?
* Как устроены популярные методы машинного обучения и какие у них есть ограничения на практике?
* Как работают нейронные сети и в каких задачах они применимы и не применимы?
* Куда сейчас развиваются технологии и что нас ждёт в ближайшем будущем?
#ai
#datascience
#machinelearning
#introduction
10:45 - 11:15
кофе-брейк
11:15
12:00
Александр Гущин Senior DS в Mechanica.ai
Автоматизация пайплайнов машинного обучения с помощью workflow-менеджеров
В рамках доклада мы рассмотрим несколько open-source инструментов, которые используются для создания воспроизводимых и поддерживаемых ML-решений. Эта проблема особенно актуальна в случаях, когда решаемая задача содержит большое количество отдельных этапов: например, сбор свежих данных из разных источников, переобучение моделей, проверку их качества и обновление продового сервиса. Мы обсудим основные сценарии применения этих инструментов, а также отличительные особенности их использования.
#workflow-manager
#ml-pipeline
#ml-ops
#execution-graphs
12:15
13:00
Виктор Кантор Эксперт по машинному обучению
Как учиться анализу данных
Поговорим о том, какие профессии есть среди тех, кто занимается анализом данных, как им учиться, какие будут стадии в вашем образовательном процессе и карьере, и как переходить между ними.
#education
#data_scientist
#ml_engineer
#data_engineer
13:00 - 14:00
обед
14:00
14:45
Артем Ерохин Data Scientist в YouDo
ML без ML. Как не делать звездолет там, где хватит самоката
Часто, при возникновении задачи в области data science, специалисты сразу хотят делать долго и сложное в реализации решение. В докладе поговорим о том, как не переусложнять решения, особенно на начальных этапах работы над задачей.
#practical-ml
#business
#data-science
15:00
15:45
Алексей Новиков Менеджер проектов Управления краудсорсинга и платформизации в Яндекс.Толока
Краудсорсинг. Советы для новичков и не только
Основа машинного обучения и измерения качества обученных моделей — большое количество ручной разметки. Делать самим долго и, на самом деле, ненадёжно. Строить внутренний отдел разметки данных — дорого. Расскажу, как решали эту проблему в Яндексе и к чему пришли спустя много лет развития собственного отдела разметки данных. Как разметить данные быстро и дёшево.
Рассмотрим вопросы контроля качества, мотивации исполнителей и модели агрегации результатов разметки — всё это на живом опыте создания и использования Толоки, краудсорсинговой платформы Яндекса.
#краудсорсинг
#толока
#разметка-данных
15:45 - 16:15
кофе-брейк
16:15
17:00
Максим Кореневский Старший научный сотрудник Центра Речевых Технологий
Введение в современное распознавание речи с использованием нейронных сетей
Речь является наиболее естественным способом общения между людьми, поэтому способы речевого взаимодействия человека с техникой привлекают большое внимание. Разработка систем распознавания речи ведется уже более полувека, однако лишь в последнее десятилетие системам автоматического распознавания удалось приблизиться к точности, демонстрируемой живыми людьми. Это связано как со сложностью самой задачи, так и с недостаточным развитием вычислительных мощностей в предшествующие годы. Одним из основных факторов, обеспечивших значительный рост точности систем распознавания, стало повсеместное использование глубокого обучения и нейронных сетей. Мы рассмотрим задачу распознавания речи и подходы к ее решению, обсудим основные компоненты современных систем распознавания и заострим внимание на том, как использовать при их построении нейронные сети.
#распознавание-речи
#нейронные-сети
#акустические-модели
#скрытые-Марковские-модели
#гибридные-системы
#end-to-end-cистемы
17:15
18:00
Елена Герасимова Руководитель направления Data Science онлайн-университета "Нетология"
Выбор образовательной траектории и роадмэп трансформации карьеры в data science
Сегодня рынок аналитики устроен так, что если ты не будешь постоянно развиваться и узнавать новые инструменты, ты не сможешь двигаться по карьере. Но даже если ты принял решение расти в новом направлении, чаще всего ты не знаешь, какую образовательную траекторию выбрать. За что взяться? Как найти нужную информацию? И насколько долго затянется это образование?
Чтобы не выгореть в процессе поиска нового пути и построить свою образовательную стратегию в нужном направлении, необходимо потратить огромное количество ресурсов и времени, понять какие навыки требуются для выполнения новых поставленных целей. Другое дело, что выбору правильного роадмэпа трансформации карьеры можно научиться
#datascience
#карьера-в-ds
#life-long-learning
10:00
10:45
Александр Гущин Senior DS в Mechanica.ai
Exploratory Data Analysis как первый этап решения соревнований по анализу данных
На этой практике мы рассмотрим основные моменты выполнения разведочного анализа данных, на которых имеет смысл сосредотачиваться при решении соревновательных задач. Мы посмотрим на различные примеры из соревнований и индустрии, и научимся находить не только потенциально полезные закономерности, но и определять некоторые виды некорректного составления тестовых выборок, способов предобработки и анонимизации данных.
#eda
#exploratory-data-analysis
#data-science-competitions
10:45 - 11:15
кофе-брейк
11:15
12:00
Александр Фонарев Chief Data Scientist, Rubbles, преподаватель ШАД Яндекс
Data science проекты на практике
В докладе мы разберём в особенности применения Data Science в реальной жизни как с организационной, так и с технической точки зрения, развеем популярные мифы и ответим на основные вопросы, важные для работы на индустриальных data science проектах как для менеджеров, так и технических специалистов:
* Как выглядит работа data scientist'а в реальной жизни и какие мифы вокруг неё существуют
* Как организационно устроены data science проекты и в чём их отличие от других IT проектов?
* Как есть роли в таких проектах и какими компетенциями они должны обладать?
* Какие подводные камни возникают при формализации и решении бизнес задач методами data science?
* Какими должны быть модели машинного обучения для применения их на практике?
#datascience
#datadriven
#management
#product
#realworld
12:15
13:00
Никита Дмитриев Разработчик систем машинного обучения в Яндекс
Использование текстовых признаков в CatBoost
При решении ML задачи может возникнуть ситуация, что данные содержат, как числовые, так и текстовые признаки. Как мы знаем, с числовыми признаках лучше всего работает градиентный бустинг, а с текстовыми - нейронные сети. Теперь в CatBoost есть поддержка текстовых признаков! И в этом туториале я покажу, как "из-коробки" начать их использовать.
#catboost
#ml
#boosting
#tutorial
#python
#text
13:00 - 14:00
обед
14:00
14:45
Павел Мягких / Василий Захаров Head of DS @ Commercial Lab + Head of DS @ Tele2 / Business Development @ Commercial Lab
Как перенести DS-проект из powerpoint'а в продакшн
Практические истории о том, как пройти путь от customer development до продуктивного решения
1. Data Science проекты опыт, кейс-стади. Пример - МедиаМаркт (Павел Мягких)
2. Специфика предложения и коммуникации с бизнесом (Василий Захаров)
3. Переходим к конкретике: replenishment и supply chain в рознице - откуда начинать и как сделать работающее решение (Павел Мягких)
#проекты
#бизнес
#кейс
15:00
15:45
Никита Малыхин Senior Data Scientist в Publicis Groupe
Data-driven подход к оценке эффективности медиа-инвестиций в банковской сфере
Реклама – это старая, даже старомодная, индустрия. Во всех каналах размещения, кроме Digital, существуют проблемы с оценкой эффективности инвестиций. В рамках данного доклада слушатели смогут узнать, как успешно бороться с этой проблемой с помощью эконометрики и ML. В частности, будут освещены следующие нюансы:
Как научиться оценивать традиционные медиа-каналы почти так же детально, как цифровые
Какие проблемы Вас ждут в банковской инфраструктуре, особенно если Вы хотите сделать проект быстро и качественно
Какие особенности и проблемы есть у моделирования медиа-активности
Как задеплоить готовые модели в контуре банка
В целом, будет рассказано об удачах и проблемах таких проектов, а также об успешно завершенном проекте по данной методологии
#медиа
#банк
#прогнозирование
#моделирование
#деплоймент
#обработка-данных
15:45 - 16:15
кофе-брейк
16:15
17:00
Роман Тезиков Head of AI в Helios
Разработка воспроизводимых пайплайнов в CV
Далеко не в каждом стартапе или компании с research-отделом датасаентисты заботятся о том, чтобы сделать их пайплайны воспроизводимыми. Работа по принципу «обучить модель кое-как и выкатываем» хороша до тех пор, пока ваш продакшен жив, и если что-то случилось с моделью, а заказчик ждёт сеть с определенной точностью у вас могут быть проблемы.
В своем докладе я расскажу с какими трудностями можно столкнуться конкретно в CV и мы посмотрим на преимущество делать ваши пайплайны обучения моделей воспроизводимыми.
#reproducibility
#deep_learning
#cv
17:15
18:00
Евгений Лимаренко Руководитель направления развития аналитических систем, компания первый БИТ
Реальный DS в бизнесе - как разговор подростков о сексе
Все те, кто профессионально занимается DS/ML давно считают, что во всех крупных и средних уважающих себя компаниях или уже давно существуют собственные команды дата аналитиков и инженеров или уже реализовано большое количество проектов, закрывающих простые и очевидные задачи. Но это не так. К сожалению, все гораздо хуже, чем мы себе представляем:
1. Бизнес не знает, что такое DS/ML и что он дает
2. Деградация управленческих кадров
3. Низкая культура ведения проектов
4. Отсутствие выделенных людей, отвечающих за развитие
5. DS инженеры не хотят делать «скучные» проекты
На основании личного опыта создания и развития DS подразделения в ИТ компании, я расскажу вам, что на самом деле происходит в реальном бизнесе, как там относятся к DS проектам, что со всем этим делать и почему нам всем нужно начать смотреть трезвыми глазами на реальность.
#ml/ds
#бизнес-реальность-правда
#проблемы-применения
#машинное-обучение
10:00
10:45
Артем Просветов & Анастасия Семенова Senior Data Scientist и Data Scientist в CleverDATA
Как оптимизировать справочные формализмы с помощью машинного обучения и NLP
В нашей компании часто встречается задача сопоставления таксономий, то есть поиск пар фраз, одинаковых по смыслу, однако, возможно, написанных по-разному. Чтобы избежать ручного труда, мы решили найти способ применить для нашей задачи машинное обучение. Тексты, которые нам необходимо сопоставлять, имеют определенную особенность, поэтому языковые модели, обученные на стандартных корпусах, не решают нашей задачи. Основной трудностью является отсутствие разметки. Какие пути решения мы нашли, расскажем в нашем докладе.
#nlp
#языковые модели
#машинное обучение
10:45 - 11:15
кофе-брейк
11:15
12:00
Артур Кузин Руководитель направления нейронных сетей X5 Retail Group
Видеоаналитика X5 Retail Group
В декабре прошлого года в X5 Retail Group был сформирован центр компетенций в области видеоаналитики и компьютерного зрения. За это время командой были разработаны решения по мониторингу доступности товаров на полках, анализу действий персонала, фейс рекогнишену. А также запущен пилот в торговых сетях "Пятерочка" и "Перекресток". В докладе будет рассказано про процесс разработки решений на базе компьютерного зрения.
#computer_vision
#CV
#videoanalytics
#retail
#x5
12:15
13:00
Петр Ермаков Основатель DataGym
Организация работы Data Science Команды (техническая сторона)
Особенности и лайфхаки настройки ПО (JupyterHub, Docker, Airflow и др) для большой Data Science команды. Как правильно организовать работу на общих серверах. Рассмотрим рецепты и подводные камни. Даже если команда состоит из одного человек, вы вынесете новые хитрости.
#ml
#dl
#python
#jupyter
#infra
#devops
13:00 - 14:00
обед
14:00
14:45
Михаил Степнов & Лилия Мусина Head of Advanced Analytics в Publicis Groupe
LOVE, SOCIAL MEDIA + ROBOTS: как прокачать аналитику соцмедиа с помощью машинного обучения
Расскажем о том, что случается, когда в тихий мир аналитики соцмедиа влезают Data Scientist’ы. Как ускорить работу по поиску инсайтов в соцсетях? Какие методы ML релевантны для данной, крайне актуальной в современном мире, сферы деятельности? И самое главное, почему не стоит перекладывать эту работу полностью на плечи роботов? Говорим о текстовом анализе, распознавании объектов на фото и видео, а также о том, какое отношение имеет вера в Бога к теме болезней ЖКТ (веселые кейсы – только для Вас!)
#соцмедиа
#аналитика
#ML
#word2vec
#LDA
#Video_Recognition
#анализ_контента
15:00
15:45
Владимир Бугай CTO в Knoema.com
Векторные представления данных, языковые модели и их применение в машинном обучении
Векторные представления данных (embeddings) являются краеугольным камнем многих современных моделей машинного обучения. Предобученные языковые модели на их основе в буквальном смысле взрывают сферу обработки текстов на естественных языках (Natural Language Processing) и открывают новые, порой самые неожиданные возможности для дата-сайентистов и разработчиков.
В своем докладе я расскажу о том, как векторные представления и модели естественного языка используются у нас в Knoema для решения разнообразных задач поиска по огромной коллекции данных. Также я продемонстрирую как соответствующие подходы могут быть обобщены на самые широкие классы задач и применяться вами для их решения, позволяя встраивать элементы искусственного интеллекта в свои разработки не будучи докторами наук.
#nlp
#search
#deeplearning
15:45 - 16:15
кофе-брейк
16:15
17:00
Виталий Чесноков Генеральный директор QSOFT
Цифровая трансформация клиентского сервиса: будущее уже пришло. Как мы заменили 15 операторов на робота на базе ML и AI.
Уже сегодня передовые компании в сегменте B2C вовсю используют омниканальность и внедряют роботов на основе AI, которые «помнят» все диалоги с пользователями, умеют прогнозировать их обращения и позволяют экономить значительные бюджеты за счет оптимизации колл-центров.
В докладе я расскажу, зачем нужна цифровая трансформация клиентского сервиса, в чем заключается ее суть, как успешно интегрировать разработки на базе AI и ML в бизнес-процессы. Запуская робота на базе ML и AI, мы решали важную прикладную задачу, которая сводилась к оптимизации расходов на колл-центр. Слушатели узнают о том, как мы заменили 15 операторов одним роботом, насколько эффективно работает робот на базе ML и AI. Честно и «без воды» расскажу обо всех плюсах и минусах роботизации процессов.
#AI
#deep_learning
#machine_learning
#digital_transformation
10:00
10:45
Эмели Драль Директор по анализу данных Mechanica AI
AI + AL: оптимизация производства алюминия с помощью прогнозирования снижения производительности электролизеров
Производство алюминия делится на три основных этапа: добыча бокситов, их переработка в глинозем и получение чистого алюминия в электролитических ванных с использованием процесса электролиза – распада оксида алюминия на составные части под воздействием электрического тока. Завод по производству алюминия может насчитывать несколько сотен электролитический ванн, которые регулярно обслуживают технические специалисты для поддержания стабильного уровня производительности. Тем не менее, периодически электролизеры флуктуируют в производительности.
Используя накопленные на предприятии исторические данные мы разработали сервис на основе машинного обучения, позволяющий предсказать снижение производительности электролизеров в ближайшем будущем. Таким образом, своевременное оповещение о технических проблемах призвано помочь специалистам завода их устранить, чтобы избежать связанных с этим потерь. Экспериментальные результаты показали, что с помощью машинного обучения возможно правильно спрогнозировать существенно больше электролизеров со сниженной производительность, чем с текущим подходом, основанным на экспертных оценках.
Я расскажу о разработке решения, достигнутых результатах и важных уроках, которые мы извлекли в процессе разработки решения.
#industrialML
#mechanicaAI
10:45 - 11:15
кофе-брейк
11:15
12:00
Сергей Колесников Creator of Catalyst, Research Engineer @RLLab, Research Scientist @MIPT
Catalyst.DL–fast & reproducible DL
При работе в области DL требуется проводить множество различных экспериментов, пробовать разные модели и тестировать кучу гипотез. Кроме этого, под каждый новый проект приходится писать новый пайплайн по обучению, валидации и инференса модели. При всем таком разнообразии очень сложно не запутаться и не забыть, где и что лежало.
В этом докладе я расскажу вам про Catalyst.DL – библиотеку для упрощения разработки DL решений. Фреймворк содержит ряд best practices, так и уже готовые пайплайны под задачи классификации, сегментации, детекции и видеоаналитики – весь стек Computer Vision.
Получилось ли ускорить этап from research to production? Воспроизводятся ли результаты? Какой seed самый лучший? Давайте выясним!
#research
#reproducibility
#machine-learning
#deep-learning
#computer-vision
#pytorch
12:15
13:00
Сергей Николенко Head of AI @ Synthesis AI, Лаборатория ИИ ПОМИ РАН
Синтетические данные в глубоком обучении
Многие проблемы современного AI сводятся к недостатку данных и/или их разметки. Зачастую их можно решить синтетическими данными, или полностью искусственно созданными, или порождёнными с участием настоящих (smart augmentation). Однако решение одной проблемы порождает другие: как обучить модель на синтетических данных так, чтобы она обобщалась на настоящие? В докладе мы начнём с введения в синтетические данные, а затем поговорим о разных подходах к domain adaptation: и о том, как сделать синтетические данные более реалистичными порождающими моделями, и о том, как обучать хорошо обобщающиеся модели непосредственно на синтетических данных.
#deeplearning
#syntheticdata
#gan
#domainadaptation
13:00 - 14:00
обед
14:00
14:45
Федор Лаврентьев Head of Data Management Platform at Yandex.Taxi
Переиспользуем "фичи" между несколькими проектами
Одиночные проекты по внедрению машинного обучения - это дорого. Стоимость можно сильно снизить, если выстроить конвейер из проектов. На первом проекте придется собрать все шишки, второй-третий-пятый пройдут через боль цифровой трансформации, зато последующие проекты пойдут слаженно по уже отработанной схеме.
Важная составляющая конвейера ML проектов - возможность переиспользовать ранее придуманные признаки для обучения моделей, легко добавлять новые и автоматизировать их отбор. Я расскажу о feature vector'ах - витринах данных для машинного обучения, а также о том, в чем особенности Data Lake для их расчета, и как выстроить бизнес-процессы вокруг feature engineering'а
#featureengineering
#production
#teams
15:00
15:45
Федор Лаврентьев Head of Data Management Platform at Yandex.Taxi
Выбор инструментов для хранения данных на разных стадиях жизни компании
Машинное обучение "питается" данными. Качество данных влияет на точность ML модели сильнее, чем выбор и тюнинг алгоритма. Таким образом, прежде чем бросаться на обучение ML моделей, нужно навести порядок в данных. Я расскажу, как организовать сбор, хранение и структуризацию данных для машинного обучения в зависимости от индустрии компании, ее размера и возраста. Объясню, нужны ли вам Data Warehouse или Data Lake, дам идеи по выбору конкретных баз данных и решений.
Доклад актуален для компаний среднего и крупного размера.
#dwh
#datalake
#architecture
#dataengineering
15:45 - 16:15
кофе-брейк
16:15
17:00
Геннадий Штех Руководитель R&D отдела
Machine Learning доставляет неприятности [всем]
Зарабатывать или экономить с помощью данных хотят все. Монетизацию считать приятно: даже при небольшой применимости ML к бизнес-процессам, выручка получается существенной. Но как посчитать риски внедрения ML в бизнес на короткой и длинной дистанциях? В чем основные технические сложности? Что должна уметь команда инженеров, чтобы их преодолеть? Изучим на примерах, в цифрах, с кейсами.
Будет полезно инженерам, тимлидам, и их руководителям.
#риски
#перспективы
#техдолг
#никтонечитаеттеги
#ml-is-pain
17:15
18:00
Татьяна Зобнина Старший аналитик-разработчик систем машинного обучения в компании «Naumen»
Музыка нейронных сетей: подражание или творчество
Расскажу об истории «генерации» музыкальных композиций при помощи алгоритмов и ЭВМ. Кратко расскажу про основные принципы машинного обучения и о том, что такое нейронные сети. Расскажу, какие архитектуры нейронных сетей наиболее успешно применяются в задачах генерации музыки и как происходит процесс обучения, зачем необходимо привлекать к процессу генерации музыки музыкантов и над какими задачами работаю в сотрудничестве с профессиональными музыкантам на данный момент. В ходе лекции предполагается прослушивание музыкальных отрывков разных лет, сочиненных при помощи ЭВМ (и не только), а также композиций, созданных в рамках проекта по генерации музыки барокко.
#нейронные_сети
#творчество_нейронных_сетей
#музыка_нейронных_сетей

Зачем идти?

Всего 1 день может вывести Ваш бизнес или навыки на новый уровень.
И мы расскажем, как.

новые возможности для бизнеса

Инструменты повышения эффективности, цифровая трансформация и системы управления данными, оптимизация затрат, увеличение прибыли и многое другое. А главное - превосходство над конкурентами и лидирующие позиции в своей нише.

полезные знакомства и деловые контакты

Мы собираем под одной крышей и уникальных специалистов, и владельцев бизнеса. Здесь можно обменяться мнениями и получить ценные рекомендации, а также найти партнеров, инвесторов или цифрового гения.

Уникальная информация и практические кейсы

Данные и опыт, которых нет в открытых источниках. Наши спикеры - ведущие специалисты в топовых организациях. И они готовы поделиться реальными кейсами по решению самых актуальных и сложных задач.

анализ своей деятельности и выбор путей развития

Вы сможете по-новому посмотреть на свои планы и задачи, найти ответы на вопросы и новые источники ресурсов для воплощения даже самых масштабных идей. 1 день интенсива DataStart существенно сократит время самостоятельных поисков.

Материалы конференции

Post-event
  • Видеозаписи 4 треков
  • Презентации спикеров
  • Более 30 часов материалов
  • + бонус материалы прошлой конференции

3000 руб.

Партнеры и участники конференции