Конференция Data Science 2022

Cпикеры

Иван Оселедец
Доктор физико-математических наук, доцент Сколтеха
Климов Алексей
Технический лидер по машинному обучению, ML Space, Sbercloud
Юрий Кацер
Эксперт отдела ИИ, Цифрум (Росатом)
Михаил Степнов
Head of R&D @ MTS Big Data
Елена Шевченко
Data-scientist в Dannie-EMS
Мария Молчанова
Research Product Manager в DeepPavlov.ai
Ольга Филиппова
Lead Data Scientist Evidently AI
Юрий Басалов
Руководитель группы разработки проекта DD Planet
Александр Гращенков
iOS разработчик
Сергей Червонцев
Research Scientist в Huawei
Роман Куцев
Преподаватель краудсорсинга в ШАДе, ВШЭ, МФТИ. CTO TrainingData.Solutions
Рашит Баязитов
Computer Vision Engineer в EORA.ai
Марк Паненко
Руководитель отдела машинного обучения Работа.ру
Артур Идятов
Ментор проекта AI Talent Hub, ML Engineer компании Napoleon IT
Антон Мальцев
Head of ML CherryLabs, CTO RemBrain

10:00-10:40

Обучение больших нейросетевых моделей

Иван Оселедец

Доктор физико-математических наук, доцент Сколтеха
Обучение больших нейросетевых моделей требует огромных ресурсов, а использование современных кластерных систем далеко от идеального: не хватает памяти, времени, вычислительных мощностей. В докладе будет дан обзор современного состояния дел, упомянуты свежие разработки и те направления, которые еще необходимо развить
10:40-10:50

Вопросы спикеру
11:00-11:40

“Работает у инженера на столе” или как имплементировать ML-алгоритмы при разработке EDGE устройств

Елена Шевченко

Data-scientist в Dannie-EMS
1. Edge ML/AI:
• Что это?
• Зачем это?
• Где это?

2. Выбор и подготовка модели для имплементации на чипе
• Почему SOTA модели зачастую не подходят: архитектура, сложность, вес;
• Методы оптимизации модели: прореживание, дистилляция, квантизация;
• Соотношение FPS / Metrics

3. Как сэкономить на стоимости SoC и не сойти с ума. Особенности работы с небольшими китайскими компаниями
• Особенности настройки окружения, система обновлений в формате trouble-shooting;
• Использование кастомных библиотек машинного обучения, ограничение поддерживаемых слоев, необходимость квантования;
• Невозможномть/неэффективность использования предобученных моделей

4. Светлое EDGE будущее или что будет дальше?
11:40-11:50

Вопросы спикеру
12:00-12:40

Реализация Pytorch Elastic Learning в ML Space

Климов Алексей

Технический лидер по машинному обучению, ML Space, Sbercloud
• Какие проблемы решает Elastic Learning
• Нативные варианты запуска PyTorch на кластере Kubernetes
• Варианты запуска distributed и elastic distributed задач
12:40-12:50

Вопросы спикеру
13:00-14:00

Перерыв
14:00-14:40

Гадание на кликстриме, или что о нас могут сказать сайты, на которые мы ходили

Михаил Степнов

Head of R&D @ MTS Big Data
• Применимость кликстрим-данных к нетривиальным задачам в области сегментации аудитории
• Удачные и неудачные методы и архитектуры моделей для работы с ними
• Полученные бизнес-результаты
• Как обрабатывать и готовить к моделированию кликстрим-данные
• Почему эмбеддинги хороши в этой задаче
• LSTM vs Transformer - а может вообще не нужна сетка?
• Как упрощать бизнес-имплементацию модели с помощью Transfer Learning
• Перспективы такого рода моделей
14:40-14:50

Вопросы спикеру
15:00-15:40

User-friendly обзор последних достижений в диффузионных моделях

Сергей Червонцев

Research Scientist в Huawei
• Разберём основы DDPM, DDIM и ScoreSDE без огромных и страшных формул
• Изучим связь данной парадигмы с normalizing flows, denoising autoencoders и optimal transport maps
• Сделаем обзор недавних модификаций (unconditional guidance, latent diffusion), и оценим какие важны, а какими можно пренебречь
• Прикинем, в каких практических задачах они могут пригодится, и как уже используются в SOTA решениях (DALLE-2, ImaGen, Video Diffusion)
• Поговорим о главных проблемах и как их пытаются решить
15:40-15:50

Вопросы спикеру
16:00-16:40

Библиотеки для работы с временными рядами на Python

Юрий Кацер

Эксперт отдела ИИ, Цифрум (Росатом)
• Какие задачи бывают при анализе временных рядов?
• Какие специализированные библиотеки есть для решения этих задач?
• Какие особенности у этих библиотек?
• Как их применять на реальных данных?
16:40-16:50

Вопросы спикеру
17:00-17:40

Переезд на GPU в продакшене; распознавание автомобильных номеров

Александр Гращенков

iOS разработчик
• Как ускорить пайплайн обработки данных на GPU
• Плюсы и минусы DeepStream
• Архитектура решения и как писать свои кернелы на GPU
• Замеры производительности и выводы “стоит ли овчинка выделки”
17:40-17:50

Вопросы спикеру
18:00-18:40

TorchOk - пайплайн обучения CV моделей

Рашит Баязитов

Computer Vision Engineer в EORA.ai
• Рассмотрим некоторые фреймворки обучения
• Поговорим о фреймворке обучения TorchOk и для чего он нужен
• Заглянем под капот TorchOk
• Запустим обучение с помощью TorchOk
18:40-18:50

Вопросы спикеру

Поток 1
Поток 2

11:00-11:40

Распознавание номеров в 2022 году - обзор вариантов и путей

Антон Мальцев

Head of ML CherryLabs, CTO RemBrain
• История. Обзор методов и подходов
• Обобщенная архитектура систем распознавания номеров, частные применения и их вариации
• Обзор нейронных сетей для архитектурных модулей
• Обзор существующих готовых пайплайнов и OpenSource исходников
• Пару слов про аппаратные варианты
11:40-11:50

Вопросы спикеру
12:00-12:40

Что может дать правильно настроенная векторизация при решении задач определения семантической близости текстов

Юрий Басалов

Руководитель группы разработки проекта DD Planet
В докладе рассматриваются прикладные возможности NLP для поиска и сопоставления больших объемов текстовых данных:
• Как используется семантическая близость текстов в прикладных целях
• Как она связана с полнотекстовым поиском
• В чем проблема использования классификационных моделей для поиска семантически близких текстов
• Как можно построить эмбеддинг, косинусная мера от которого будет решать задачу поиска семантически близких текстов не сильно хуже классификационных моделей
• Как задача поиска семантически близких текстов может быть полезна при решении некоторых экстремальных классификационных задач
12:40-12:50

Вопросы спикеру
13:00-14:00

Перерыв
14:00-14:40

Обзор современных методов для построения сложных диалоговых систем

Мария Молчанова

Research Product Manager в DeepPavlov.ai
• Проблемы и задачи при создании диалоговых систем
• Обзор решений для создания ИИ-ассистентов
• Основные подходы при разработке Task-Oriented и Closed-Domain систем
• Основные подходы при разработке Open-Domain диалоговых систем
• Разработка ИИ-ассистента на примере платформы Dream
14:40-14:50

Вопросы спикеру
15:00-15:40

Блуждания по графу: как построить простую и эффективную систему рекомендаций навыков на базе Neo4j

Марк Паненко

Руководитель отдела машинного обучения Работа.ру
• Расскажем про текущий пайплайн с технической и бизнес сторон
• Подробно разберем жизненный цикл навыка
• Рассмотрим интеграцию с внешними графами знаний
• Расскажем про архитектуру сервиса рекомендации навыков на основе Neo4j
15:40-15:50

Вопросы спикеру
16:00-16:40

Как собирать датасеты на миллионы фотографий и обновлять их раз в две недели

Артур Идятов

Ментор проекта AI Talent Hub, ML Engineer компании Napoleon IT
• Почему модели деградируют и их приходится переобучать?
• Как быстро обеспечить версионирование больших наборов данных?
• Переход от “Script-driven process” к AirFlow
• Упрощение просмотра и проверки данных с помощью кастомной платформы разметки
• Как можно сделать лучше с помощью ClearML
16:40-16:50

Вопросы спикеру
17:00-17:40

Data drift и concept drift: Мониторинг моделей машинного обучения в production

Ольга Филиппова

Lead Data Scientist Evidently AI
• Что такое drift в данных и как его можно измерить
• Зачем нужен мониторинг ML-моделей в production и как это делать
• Почему с drift все сложно
• Какие бывают статтесты и метрики для измерения drift
• Как выбрать подходящий для вашей задачи статтест
17:40-17:50

Вопросы спикеру
18:00-18:40

Как получать высокое качество размечаемых данных

Роман Куцев

Преподаватель краудсорсинга в ШАДе, ВШЭ, МФТИ. CTO TrainingData.Solutions
• Отличия между Data-Centric и Model-Centric подходами
• Итеративный подход к разметке: плюсы и минусы
• Построение эффективного процесса обучения разметчиков
• Методы контроля качества
• Основные ошибки в менеджменте разметчиков
18:40-18:50

Вопросы спикеру

Кому точно будет интересно

Data Scientist, Data Analyst и Data Engineer

Computer Vision Engineer и NLP Engineer

Machine Learning Engineer

Руководителям бизнеса

Зачем участвовать?

Нетворкинг

Обучение

Вдохновение и энергия

Cпикеры

Программа мероприятия

Обучение больших нейросетевых моделей

Иван Оселедец

“Работает у инженера на столе” или как имплементировать ML-алгоритмы при разработке EDGE устройств

Елена Шевченко

Реализация Pytorch Elastic Learning в ML Space

Климов Алексей

Гадание на кликстриме, или что о нас могут сказать сайты, на которые мы ходили

Михаил Степнов

User-friendly обзор последних достижений в диффузионных моделях

Сергей Червонцев

Библиотеки для работы с временными рядами на Python

Юрий Кацер

Переезд на GPU в продакшене; распознавание автомобильных номеров

Александр Гращенков

TorchOk - пайплайн обучения CV моделей

Рашит Баязитов

Распознавание номеров в 2022 году - обзор вариантов и путей

Антон Мальцев

Что может дать правильно настроенная векторизация при решении задач определения семантической близости текстов

Юрий Басалов

Обзор современных методов для построения сложных диалоговых систем

Мария Молчанова

Блуждания по графу: как построить простую и эффективную систему рекомендаций навыков на базе Neo4j

Марк Паненко

Как собирать датасеты на миллионы фотографий и обновлять их раз в две недели

Артур Идятов

Data drift и concept drift: Мониторинг моделей машинного обучения в production

Ольга Филиппова

Как получать высокое качество размечаемых данных

Роман Куцев

Топ 5 горящих вопросов:

Какая цель проекта?

Для какого уровня специалистов конференция?

Я совсем начинающий специалист, стоит приходить?

Как часто проходят конференции?

Предыдущие конференции

Зима 2021, Онлайн

Осень 2020, Онлайн

Лето 2020, Онлайн

Весна 2020, Онлайн

Осень 2019, Москва

Весна 2019, Москва

Осень 2018, Москва

Весна 2018, Москва

Осень 2017, СПб

Фотоотчёты

Генеральный партнер

Информационные партнеры

Хотите стать спикером DataStart?

Записи четырех выступлений 2020 года

Регистрация DataStart

Стать партнером DataStart

Подать доклад

Спасибо за обращение!

Спасибо за подписку!

Регистрация выполнена!