Бесплатная осенняя онлайн-конференция Data Science 2020

Cпикеры

Дмитрий Ветров
Профессор-исследователь НИУ ВШЭ (Факультет компьютерных наук), глава Лаборатории машинного обучения, SAIC MOSCOW.
Александр Фонарев
Основатель компании Rubbles, data scientist, Ph.D. в области data science, лектор
Геннадий Штех
Руководитель группы R&D в Embedika
Татьяна Савельева
Head of unstructured data analysis в Yandex.Taxi
Михаил Трофимов
ML Engineer в Praxis Pioneering
Михаил Свешников
ML Architect в Zyfra
Станислав Кириллов
Руководитель группы ML систем Яндекса
Евгений Лимаренко
CIO группа компаний Gulliver&Co
Валентин Малых
Senior Research Scientist в Noah’s Ark Lab
Максим Кочуров
Инженер-исследователь в NTechLab
Михаил Рожков
Creator Machine Learning REPA
Алексей Романов
Expert Data Scientist в BigData МТС
Алексей Могильников
ML Lead в Сбербанке, Chief Methodologist в LeanDS
Антон Цицулин
Аспирант университета Бонна, студент-исследователь в Google
Николай Марков
Principal Architect в компании Aligned Research Group
Сергей Лукьянчиков
Инженер-консультант, InterSystems
Эдуард Лебедюк
Инженер-консультант, InterSystems
Павел Гончаров
Data Scientist в IHS Markit Belarus

Павел является аспирантом Государственного университета "Дубна" по специальности "Математическое моделирование, численные методы и комплексы программ". Имеет 3 года опыта работы в сфере Data Science. Занимался проектами по разработке системы интеллектуального чат-бота, онлайн ASR, участник научных проектов по разработке методов глубокого обучения для трекинга элементарных частиц, распознавания болезней растений и биомониторинга. В IHS Markit занимается исследованиями и разработкой новых моделей для NER и семантического поиска, а также оптимизацией уже существующих моделей.
Андрей Хобня
Senior ML Engineer/Data Scientist в IHS Markit Belarus

Обладает обширным опытом разработки ПО в области интеграции, обработки больших объемов данных и машинного обучения. Занимался исследованиями в области моделирования и машинного обучения с подкреплением. Возглавлял сектор разработки систем машинного обучения внутри подразделения одного из крупнейших в восточной Европе поставщиков IT-услуг и решений. Присоединился к R&D подразделению IHS Markit в качестве инженера по машинному обучению и исследователя данных. В настоящее время занимается новыми исследованиями и разработками в области машинного обучения для анализа текстов, семантического поиска и извлечения информации.

11:00-11:45

Фрактальность функции потерь, эффект двойного спуска и степенные законы в глубинном обучении - фрагменты одной мозаики.

Дмитрий Ветров

Профессор-исследователь НИУ ВШЭ (Факультет компьютерных наук), глава Лаборатории машинного обучения, SAIC MOSCOW.
За последние годы в глубинных нейронных сетях был обнаружен ряд необычных эффектов (двойной спуск, связность мод, "минные поля" в рельефе функции потерь, и др.), показавших, что сообщество плохо понимает, что происходит в процессе обучения нейронных сетей. В ходе доклада мы попробуем увязать ряд эффектов в единую гипотезу и обсудим результаты экспериментов, которые косвенно ее подтверждают.
- #doubledescent
- #modeconnectivity
- #losslandscape
- #deeplearningtheory
11:45-12:00

Вопросы спикеру
12:00-12:45

Инфраструктура извлечения факторов в проде

Михаил Трофимов

ML Engineer в Praxis Pioneering
Часто при разработке продукта возникает несколько команд, реализующих ML в проде. У каждой стоит задача подсчета факторов, сбора сэмплов, обучения моделей, выкатка моделей в прод, доставка факторов в прод, синхронизация оффлайна и онлайна. Зачастую, каждая команда решает эти задачи независимо, что приводит в конечном итоге к замедлению разработки. В своем докладе я расскажу, как общая инфрастуктура факторов може ускорить разработку, зачем это вообще надо и какие проблемы возникают при ее построении.
- #reproducibility
- #production
- #ml-infra
- #ml-processes
12:45-13:00

Вопросы спикеру
13:00-13:45

“Классическое” машинное обучение на табличных данных

Александр Фонарев

Основатель компании Rubbles, data scientist, Ph.D. в области data science, лектор
В последние годы прикладное машинное обучение всё больше разделяется на два основных блока. Первый и наиболее хайповый — deep learning для обработки изображений, текста, звука и т. п. Второй, более старый, но не менее важный для бизнеса — “классический” ml для задач со табличными (структурированными) данными, использующийся для предсказания временных рядов, построения рекомендательных систем, предсказания поломок оборудования и многих других задач. В докладе мы погрузимся во второй блок: обсудим алгоритмы работы со структурированными данным, типизацию задач в этой области, практические кейсы, особенности индустрии сегодня и её развитие завтра.
- #ml
- #business
- #datascience
- #classicml
13:45-14:00

Вопросы спикеру
14:00-14:45

Семантический поиск в индексе с миллионами документов на основе BERT

Павел Гончаров

Data Scientist в IHS Markit Belarus

Андрей Хобня

Senior ML Engineer/Data Scientist в IHS Markit Belarus
Несмотря на state-of-the-art результаты в подавляющем большинстве академических бенчмарков, BERT-подобные модели все еще крайне редко применяются в реальных системах. В докладе мы расскажем о передовых исследованиях в области применения глубокого обучения в семантическом поиске и извлечении информации на основе моделей семейства BERT, а также об ограничениях использования таких моделей в реальных системах и вызовах, с которыми мы столкнулись при разработке системы семантического поиска в индексе с миллионами документов.
- #deep-learning
- #nlp
- #bert
- #production
- #information-retrieval
14:45-15:00

Вопросы спикеру
15:00-15:45

Инструменты визуалзиации в NLP: от графов знаний до BERT

Валентин Малых

Senior Research Scientist в Noah’s Ark Lab
Кажется, что нет более далекой области от визуализации, чем обработка текстов. Но на самом деле визуализации и тут могут во многом помочь. Я расскажу про работу с графами знаний, а также про то, какие можно получить знания изучая паттерны внимания модели BERT
- #nlp
- #bert
- #text-processing
15:45-16:00

Вопросы спикеру
16:00-16:45

Новинки CatBoost: поддержка эмбеддингов, обучение на SPARK и это еще не всё!

Станислав Кириллов

Руководитель группы ML систем Яндекса
Как многим известно, градиентный бустинг на решающих деревьях остается SoTA на задачах, представимых в виде таблиц с признаками разной природы. До недавних пор CatBoost поддерживал 3 типа значений в колонках таких таблиц - вещественные признаки, категориальные и тексты.
Сегодня мы хотим презентовать возможность обучения на эмбеддингах объектов - вещественных векторах, показывающих положение объекта в каком-то семантическом пространстве.
Например, классическими примером эмбеддингов для текстов является word2vec, более новым - эмбеддинги трансформеров (BERT, GPT, etc). Мы расскажем о том, как именно CatBoost работает с такими векторами и как их использование может повысить качество ваших моделей.
Вторая важная новость, о которой мы расскажем - поддержка обучения на SPARK кластерах. Мы покажем, как реализована поддержка SPARK и как ей воспользоваться.
Ну и, конечно, это еще не все классные новости - еще мы расскажем о новых ускорениях и улучшениях, которые произошли с CatBoost за последние полгода.
- #catboost
- #spark
- #nlp
- #nn_embeddings
16:45-17:00

Вопросы спикеру
17:00-17:45

Нейросети на текстах

Геннадий Штех

Руководитель группы R&D в Embedika
Это простой гайдлайн о том, как проще и быстрее всего получить работающий алгоритм, классифицирующий тексты. На данный момент есть много модных алгоритмов, много разных подходов для работы с текстами. Я выбрал наиболее применимые в широком кругу задач и подготовил примеры. Такого материала лично мне не хватало еще 5-7 лет назад. Будет весьма полезно тем, кому нужно быстро получить приемлимый результат.
- #guide
- #compilation
- #code-samples
- #neural-networks
- #classification-and-more
17:45-18:00

Вопросы спикеру
18:00-18:45

Что такое "быстрый код"?

Николай Марков

Principal Architect в компании Aligned Research Group
Какие именно особенности железа и кода заставляют его выполняться быстрее и эффективнее решать задачу? Стоит ли овчинка выделки? В докладе мы поговорим о том, как именно достигается высокая скорость выполнения кода, поковыряем распределенные вычисления, JIT, железки и векторизацию.
- #programming
- #vectorization
- #speed
- #distributed-computing
18:45-19:00

Вопросы спикеру
19:00-19:45

Эмбеддинги графов без учителя

Антон Цицулин

Аспирант университета Бонна, студент-исследователь в Google
В последние годы всё больше ML пайплайнов строится на эмбеддингах – вещественных векторах довольно малой размерности, отражающие семантические свойства объектов. Мы довольно хорошо научились извлекать их из текстов, картинок, звука, но для графов доступных коробочных решений пока нет. Графы – хитрый вид данных, который возникает, когда нам даны только связи разных объектов между собой. Например, дружба или подписки в соцсетях, покупки товаров и другие действия пользователей – лишь одни из примеров отношений, которые удобно моделировать графами. Я расскажу, как получать эмбеддинги для графов, про графовые нейросети и то, как их обучать без учителя.
- #graphs
- #deep-learning
- #gnns
- #embeddings
19:45-20:00

Вопросы спикеру

Поток 1
Технический
Поток 2
Бизнес

11:00-11:45

Почему бизнес не хочет внедрять современные технологии?

Евгений Лимаренко

CIO группа компаний Gulliver&Co
Знакомая ситуация: приходишь в компанию или к коллегам в Коммерческий департамент, рассказываешь о крутом решении которую с парнями придумал и даже собрал MVP, а они смотрят, киваю головой и отказываются? Я расскажу вам, почему так происходит, как мыслят сотрудники бизнес подразделений и что нужно сделать, а что делать не надо, чтобы они хотели с вами работать.
- #business
- #innovation
- #reality
- #development
- #startups
11:45-12:00

Вопросы спикеру
12:00-12:45

Как устроен умный робот, улучшающий колл-центры Яндекс

Татьяна Савельева

Head of unstructured data analysis в Yandex.Taxi
В своем докладе расскажу про наш продукт для автоматизации и улучшения коллцентров. Как автоматизировать 80% первой линии поддержки так, чтобы робот был неотличим от человека, как понять какой текст лучше присылать пользователю, как раздавать промокоды с большей пользой для клиента и многое другое.
- #business
- #automatization
- #deep_learning
12:45-13:00

Вопросы спикеру
13:00-13:45

Open Source In the Wild

Максим Кочуров

Инженер-исследователь в NTechLab
Все из нас (ну точно многие) пользуются библиотеками Numpy, Pandas, sklearn и так далее. Мир опен сорса очень огромен, там просиходят большие (и неочень) события, свои местечковые конференции, принимаются решения, которые влияют на нашу разработку.
Однако знакомы с этой "кухней" далеко не все. Стандарты разработки многих продуктов обычно высоки. Кажется, что попасть в опен сорс сложно или почти невозможно. Не понятно с чего начать. Куда писать? Куда коммитить и как это делать? А вообще, зачем оно вообще нужно, вливаться в этот опен сорс, это же работа за бесплатно?
Другие проблемы, которые уже несколько уровнем выше, возникают и куда более серьезны для развития проекта. Как взаимодействовать с пользователями? Как развивать комьюнити? Как добиваться узнаваемости и расширять пользовательскую базу?
Проблемы взаимодействия с другими проектами тоже не остаются в стороне. Это бывают отношения пользователь-проект или проект-проект. В каждом из случаев есть нюансы. Как повлиять на развитие проекта? Как добавить недостающую фичу? Как поправить багу в любимой библиотеке? И самое главное, почему все так долго, и можно ли побыстрее?
В опен сорс я попал со студенческой скамьи на наивном энтузиазме, но это продолжает переворачивать жизнь по сей день. Я постараюсь ответить на перечисленные вопросы опираясь на свой опыт, ретроспективные выводы спустя несколько лет участия в нескольких крупных проектах.
- #open-source
- #start-up
- #project-development
13:45-14:00

Вопросы спикеру
14:00-14:45

Сколько стоит неэффективный Data Science или чему учить команду DS?

Михаил Рожков

Creator Machine Learning REPA
Применение Data Science (DS) в бизнесе обычно связывают с тем value, которое смогут принести модели после их внедрение в процесс или продукт. При этом часто упускают из виду, что работа DS команды это сложный процесс, который требует значительных ресурсов и компетенций команды. В докладе обсудим, как можно оценить эффект от внедрения инструментов автоматизации и инженерных практик в Data Science. Доклад поможет компаниям найти точки роста DS команд и приоритезировать программы обучения и развития.
- #datascience
- #business
- #automatization
- #mlrepa
- #reproducibility
- #ml-processes
14:45-15:00

Вопросы спикеру
15:00-15:45

Big Data МТС: как большие данные меняют мир массового найма

Алексей Романов

Expert Data Scientist в BigData МТС
Искусственный интеллект в массовом найме — очень модная тема, и бизнес плотоядно облизывается, глядя на перспективы анализа больших данных в этой области.
Однако с точки зрения Data Science работа в HR очень специфична: люди не тексты и не картинки, они капризны и часто непредсказуемы.
В своём докладе я дам общий обзор комплекса DS-задач, которые возникают в области массового найма, и разберу более пристально наиболее каверзные из них
- #bigdata
- #look-alike
- #hr
15:45-16:00

Вопросы спикеру
16:00-16:45

Метрики в DS-проектах

Алексей Могильников

ML Lead в Сбербанке, Chief Methodologist в LeanDS
Прикладное машинное обучение должно нести ценность бизнесу. В момент разработки модели не ясно как можно оценить потенциальную пользу модели и выбрать ожидаемые значения метрик на кросс-валидации или отложенной выборке такие, чтобы разработка модели имела смысл и ценность её была ощутима. В докладе будет показан подход к решению этой задачи и будет продемонстрировано как можно рассчитывать ценность, которую модель приносит бизнесу.
- #business
- #metrics
16:45-17:00

Вопросы спикеру
17:00-17:45

«Питонись на отличненько»

Михаил Свешников

ML Architect в Zyfra
Питон известен своим низким порогом входа и на нем действительно очень просто писать код. Однако это не значит, что на нем просто писать ХОРОШИЙ код. Я расскажу, что же это за зверь такой – хороший код на питоне, а так же покажу полезные приемы, которые помогут вам проще и быстрее писать на питоне и вообще поднимут ваше питон кунг-фу на новый уровень. Доклад будет интересен и тем, кто только собирается учить питон, и тем кто уже в познании питона настолько преисполнился, будто бы уже 100 триллионов миллиардов лет пишет код на триллионах и триллионах таких же языков.
- #python
- #code-hacks
- #coding-cultures
17:45-18:00

Вопросы спикеру
18:00-18:45

Мониторинг вероятности развития дефектов оборудования на AI/ML-платформе реального времени InterSystems IRIS

Сергей Лукьянчиков

Инженер-консультант, InterSystems

Эдуард Лебедюк

Инженер-консультант, InterSystems
Наша презентация – это обстоятельный обзор возможностей платформы InterSystems IRIS в части универсальной поддержки развертывания AI/ML (англоязычная аббревитура для искусственного интеллекта и машинного обучения) -механизмов, сборки (интеграции) AI/ML-решений и обучения (тестирования) AI/ML-решений на интенсивных потоках данных. Мы обратимся к исследованиям рынка, к практическим примерам AI/ML-решений и концептуальным аспектам того, что мы называем AI/ML-платформой реального времени.
- #ai
- #ml
- #iris
18:45-19:00

Вопросы спикеру

Кому подходит

Руководителям

Разработчикам

Аналитикам

Студентам

Cпикеры

Программа мероприятия

Фрактальность функции потерь, эффект двойного спуска и степенные законы в глубинном обучении - фрагменты одной мозаики.

Дмитрий Ветров

Инфраструктура извлечения факторов в проде

Михаил Трофимов

“Классическое” машинное обучение на табличных данных

Александр Фонарев

Семантический поиск в индексе с миллионами документов на основе BERT

Павел Гончаров

Андрей Хобня

Инструменты визуалзиации в NLP: от графов знаний до BERT

Валентин Малых

Новинки CatBoost: поддержка эмбеддингов, обучение на SPARK и это еще не всё!

Станислав Кириллов

Нейросети на текстах

Геннадий Штех

Что такое "быстрый код"?

Николай Марков

Эмбеддинги графов без учителя

Антон Цицулин

Почему бизнес не хочет внедрять современные технологии?

Евгений Лимаренко

Как устроен умный робот, улучшающий колл-центры Яндекс

Татьяна Савельева

Open Source In the Wild

Максим Кочуров

Сколько стоит неэффективный Data Science или чему учить команду DS?

Михаил Рожков

Big Data МТС: как большие данные меняют мир массового найма

Алексей Романов

Метрики в DS-проектах

Алексей Могильников

«Питонись на отличненько»

Михаил Свешников

Мониторинг вероятности развития дефектов оборудования на AI/ML-платформе реального времени InterSystems IRIS

Сергей Лукьянчиков

Эдуард Лебедюк

Чем мы занимаемся

Лето 2020, Онлайн

Весна 2020, Онлайн

Осень 2019, Москва

Весна 2019, Москва

Осень 2018, Москва

Весна 2018, Москва

Осень 2017, СПб

Генеральный партнер

Информационные партнеры

Хотите стать спикером DataStart?

Регистрация DataStart

Используемые технологии

Сферы интересов

Опыт в Data Science

Варианты участия

Стать партнером DataStart

Подать доклад

Спасибо за обращение!

Регистрация выполнена!