Конференция Data Science 2024

Cпикеры

Павел Плюснин
Deep Learning Researcher в Huawei, основатель конференции НейроSet, преподаватель в МФТИ
Александр Коротин
Кандидат физ.-мат. наук; руководитель исследовательской группы в центре прикладного ИИ Сколтеха; научный сотрудник AIRI
Евгений Бурнаев
Доктор физико-математических наук, профессор, директор Центра прикладного искусственного интеллекта Сколтеха, руководитель группы Обучаемый интеллект AIRI
Александр Мелехин
Сотрудник Научно-образовательного центра когнитивного моделирования, участник проекта КОД-ИИ Фонда содействия инновациям
Юрий Кацер
Lead DS в Рокет контрол, эксперт в задачах ИИ в промышленности, автор тг канала @DataKatser
Александр Панов
к.ф.-м.н., доцент, в.н.с. ФИЦ ИУ РАН & AIRI, директор Центра когнитивного моделирования МФТИ
Андрей Кузьминых
Ex-CDO/CDS Сбер, CTO Pygma AI, консультант AI стартапов
Мария Молчанова
Исследователь, аналитик, Лаборатория нейронных систем и глубокого обучения МФТИ
Александр Смирнов
CEO в laikadog.ai
Артур Сапрыкин
Data scientist, предприниматель, исследователь AI, автор и преподаватель курсов по машинному обучению
Александр Календарёв
Разработчик в Datagile
Михаил Пузицкий
Консультант в Data Science, предприниматель
Андрей Савченко
Д.т.н., научный директор Sber AI Lab, профессор НИУ ВШЭ - Н.Новгород
Илья Макаров
Старший научный сотрудник, Институт ИИ AIRI
Директор Центра ИИ, НИТУ МИСиС

10:00-10:40

Новые перспективные методы генеративного ИИ на основе потоков и диффузионных мостов

Александр Коротин

Кандидат физ.-мат. наук; руководитель исследовательской группы в центре прикладного ИИ Сколтеха; научный сотрудник AIRI
В докладе будет рассказано про новые методы на основе потоков и диффузионных мостов для построения генеративных моделей для изображений. Такие подходы являются обобщениям популярных моделей на основе диффузии и уже используются для обучения больших генеративных моделей текст-в-изображение.
10:40-10:50

Вопросы спикеру
11:00-11:40

Как ИИ способен помочь в образовании. Использование корпоративных баз знаний для обучения сотрудников

Артур Сапрыкин

Data scientist, предприниматель, исследователь AI, автор и преподаватель курсов по машинному обучению
Поиск информации - ключевая составляющая не только решения задач, но и качественного обучения.

В процессе образования, преподаватели помогают систематизировать нужную информацию для передачи ученикам, а всегда ли этого достаточно?
Нередко сталкивался с тем, полезной и нужной информации настолько много, что сжимая её до рамок образовательной программы, что-то теряется или остаётся “на потом”.

В своём докладе я собираюсь рассказать, как можно совместить экспертизу преподавателя, внутренних и внешних баз знаний, нейронных сетей для обучения сотрудников
11:40-11:50

Вопросы спикеру
12:00-12:40

Применение матриц вращений многомерных пространств в машинном обучении на примере адаптации задачи text2image в text2video

Михаил Пузицкий

Консультант в Data Science, предприниматель
Коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста.
12:40-12:50

Вопросы спикеру
13:00-14:00

Перерыв
14:00-14:40

Эмоциональный интеллект в LLM и следующий уровень алайнмента для принятии решений LLM-агентами

Илья Макаров

Старший научный сотрудник, Институт ИИ AIRI
Директор Центра ИИ, НИТУ МИСиС
Одной из актуальных задач в области искусственного интеллекта является оценка безопасности и соответствия (alignment) больших языковых моделей (LLM) человеческому поведению. Традиционный подход к этой задаче заключается оценивании моделей на классических NLP задачах. Однако, как известно из психологии, эмоции играют ключевую роль в процессе принятия решений у людей, что не учитывается в таких бенчмарках.

В данном докладе будет представлен новый подход, который оценивает поведение LLM в этических и экономических сценариях, принимая во внимание эмоциональные аспекты. Этот метод позволяет выявить внутренние предвзятости (bias) LLM и оценить их поведение с двух точек зрения: схожести с человеческим поведением и оптимальности принятых решений.
14:40-14:50

Вопросы спикеру
15:00-15:40

Локализация транспортного средства без GPS: методы распознавания места и открытая библиотека OpenPlaceRecogntion

Александр Мелехин

Сотрудник Научно-образовательного центра когнитивного моделирования, участник проекта КОД-ИИ Фонда содействия инновациям
Как локализовать робота или автомобиль в случае отсутствия или потери GPS-сигнала? Как повысить качество детекции циклов в алгоритмах SLAM?

В докладе мы дадим ответы на эти вопросы и обсудим возможности технологии распознавания места, которая с помощью современных моделей нейронных сетей и способов их обучения может добиваться впечатляющих результатов по запоминанию роботом ранее посещенных мест. Особое внимание будет уделено мультимодальным методам, которые принимают на вход сырые изображения камер (сразу нескольких) и облака точек лидаров и на выходе могут получить трехмерные координаты робота на основе сохраненной базы данных.

Мы также представим разработанную нами открытую программную библиотеку OpenPlaceRecognition, которая поддерживает много известных методов распознавания места, а также оригинальные алгоритмы, позволяющие использовать результаты семантической сегментации изображений, распознавания текстовых надписей, Aruco-меток и многое другое.
15:40-15:50

Вопросы спикеру
16:00-16:40

Что не так с открытыми промышленными данными?

Юрий Кацер

Lead DS в Рокет контрол, эксперт в задачах ИИ в промышленности, автор тг канала @DataKatser
Наверное, ни для кого не секрет, что промышленные данные часто являются закрытыми и не публикуются в открытых источниках. Владельцы настолько ценят свои датасеты: до сих пор нет рынка промышленных данных. А область анализа данных и машинного обучения ну очень сильно опирается на открытые разработки, библиотеки, исследования и датасеты. В докладе планирую рассказать о том, где искать открытые промышленные данные, поделюсь накопленными за мои 6+ лет опыта в промышленности и о репозитории, где собираю такие датасеты и расскажу о проблемах с открытыми данными, а также что с этим делать
16:40-16:50

Вопросы спикеру
17:00-17:40

Как получить больше от LLM: Продвинутые стратегии и реальные кейсы

Мария Молчанова

Бизнес-аналитик, DeepPavlov.ai
Доклад включает в себя следующие темы:
• Какие задачи можно решать с помощью LLM и что такое промпт
• Для чего нужен Prompt Engineering
• Таксономия методов промпт инжиниринга
• Как ставить эксперименты
• Практические рекомендации
• Несколько полезных продвинутых методов работы с промптами
Будет представлено большое количество полезных кейсов и практических примеров.
17:40-17:50

Вопросы спикеру
18:00-18:40

Физически-информированное машинное обучение для ускорения симуляций физических процессов

Евгений Бурнаев

Доктор физико-математических наук, профессор, директор Центра прикладного искусственного интеллекта Сколтеха, руководитель группы Обучаемый интеллект AIRI
Моделирование сложных физических процессов (например, процессов фильтрации на нефтяном месторождении) требует использования вычислительной сетки с миллиардами ячеек. Из-за значительных вычислительных затрат на симуляции в высоком разрешении многие задачи оптимизации, требующие большого количества таких симуляций, становятся невыполнимыми (например, адаптация цифровой геолого-фильтрационной модели). Таким образом, необходима разработка моделей машинного обучения, которые включают в себя элементы моделируемых физических процессов, и позволяют учитывать сложные особенности задачи в более мелких масштабах при работе в крупном масштабе с меньшими вычислительными затратами.

В докладе будет проведен обзор текущего состояния области и предложены новые подходы к решению такого рода задач. В частности, новым многообещающим направлением является использование графовых нейронных сетей для моделирования взаимодействия между пространственными элементами, участвующими в физическом моделировании, для плавного увеличения масштаба с использованием настраиваемых графовых операторов.
18:40-18:50

Вопросы спикеру

Поток 1
Поток 2

10:00-10:40

Использование ML в PostgreSQL

Александр Календарёв

Разработчик в Datagile
Как правило, большая часть данных для аналитики сосредоточена в БД. Современная концепция больших данных в том, что не данные должны идти к модели, а код к направляться к данным. В рамках этой концепции еще в конце 90х в базах данных появилось серверное программирование. А уже в начале 2010-х гг начались разработки прикладных ML библиотек непосредственно внутри БД. Как пример - это решение от Google BigQuery или Apache MadLib - первая открытая ML библиотека для PostgreSQL. В 2023 г - PostgreSQL стала самой популярной БД в открытых проектах и в ней в последнее время стали появляятьтся новые AI библиотеки. Какие задачи можно решать непосредственно в PostgreSQL? Это регрессия, классификация, рекомендации, детекция, ранжирование, работа с текстом. На примере будет продемонстрированы возможности работы таких библиотек, как MadLib, PostgresML, pgvector а так же представлена разработка собственной библиотеки pg_ml, основанной на фреймворке CatBoost.
10:40-10:50

Вопросы спикеру
11:00-11:40

Распознавание выражений лиц в мультимодальных диалоговых системах

Андрей Савченко

Д.т.н., научный директор Sber AI Lab, профессор НИУ ВШЭ - Н.Новгород
В докладе расскажу про добавление эмоциональности в мультимодальные диалоговые системы. Подробно расскажу про эффективные алгоритмы онлайн распознавания выражений лиц на видео. В конце затрону мультиагентную генерацию эмоциональных ответов LLM с учетом результатов распознавания эмоций по видео
11:40-11:50

Вопросы спикеру
13:00-14:00

Перерыв
14:00-14:40

Притворяемся собой и друзьями, обучая LLM на сообщениях из Telegram

Александр Смирнов

CEO в laikadog.ai
• Введение, о чём доклад, какие результаты получим в конце
• Сбор и подготовка данных
• Подходы к обучению
• Где и как запустить самому, сколько это стоит
• Анализ артефактов после обучения
14:40-14:50

Вопросы спикеру
15:00-15:40

Kolmogorov Arnold Networks: новая архитектура нейронных сетей

Павел Плюснин

Deep Learning Researcher в Huawei, основатель конференции НейроSet, преподаватель в МФТИ
Последние несколько месяцев активно обсуждается перспективная альтернатива для Многослойного перцептрона (MLPs) – Kolmogorov Arnold Networks (KANs). В KANs нет обучения линейных весов – вместо этого тренируются нелинейные функции активации. Эта архитектура позволяет по сути обучать математические формулы на признаках, благодаря чему их проще визуализировать и интерпретировать результаты. Также, есть основания полагать, что KANs обладают более быстрыми законами масштабирования нейронных сетей (scaling laws) по сравнению с MLPs и для некоторых задач меньшим количеством параметров достигают сопоставимого качества, что может быть особенно полезным для обучения более продвинутых LLM моделей.

В докладе мы подробно обсудим особенности работы KANs, их плюсы и минусы, сравнив их с MLPs. Разберемся для каких задач сейчас имеет смысл использовать KANs. Посмотрим, какие есть модификации и оптимизации KANs. Рассмотрим свертки на их основе и прочие реализации уже знакомых слоев, сетей и блоков с KANs под капотом.
15:40-15:50

Вопросы спикеру
16:00-16:40

Персонализация автономных мультиагентных интеллектуальных систем

Андрей Кузьминых

Ex-CDO/CDS Сбер, CTO Pygma AI, консультант AI стартапов
В докладе будет рассмотрена проблема персонализации автономных мультиагентных интеллектуальных систем. Особое внимание будет уделено ключевым компонентам интеллектуальных агентов и уровням их автономности. Будут представлены различные подходы к обеспечению автономности агентов, а также краткому обзору и анализу фреймворков для разработки мультиагентных систем. Методы персонализации агентов будут проиллюстрированы на примере задачи ведения блога в социальных сетях
16:40-16:50

Вопросы спикеру
18:00-18:40

Трансформеры, Мамба и память в обучении с подкреплением

Александр Панов

к.ф.-м.н., доцент, в.н.с. ФИЦ ИУ РАН & AIRI, директор Центра когнитивного моделирования МФТИ
В докладе обсудим современные тенденции в использовании трансформерных архитектур в обучении с подкреплением. Поговорим о задачах, где нужна память, а также о том, что не так с контекстом трансформера. Обсудим и альтернативные подходы с Мамба, SSM и с токенами памяти в стиле RATE
18:40-18:50

Вопросы спикеру

Кому точно будет интересно

Data Scientist, Data Analyst и Data Engineer

Computer Vision Engineer и NLP Engineer

Machine Learning Engineer

Руководителям бизнеса

Зачем участвовать?

Нетворкинг

Обучение

Вдохновение и энергия

Cпикеры

Программа мероприятия

Новые перспективные методы генеративного ИИ на основе потоков и диффузионных мостов

Александр Коротин

Как ИИ способен помочь в образовании. Использование корпоративных баз знаний для обучения сотрудников

Артур Сапрыкин

Применение матриц вращений многомерных пространств в машинном обучении на примере адаптации задачи text2image в text2video

Михаил Пузицкий

Эмоциональный интеллект в LLM и следующий уровень алайнмента для принятии решений LLM-агентами

Илья Макаров

Локализация транспортного средства без GPS: методы распознавания места и открытая библиотека OpenPlaceRecogntion

Александр Мелехин

Что не так с открытыми промышленными данными?

Юрий Кацер

Как получить больше от LLM: Продвинутые стратегии и реальные кейсы

Мария Молчанова

Физически-информированное машинное обучение для ускорения симуляций физических процессов

Евгений Бурнаев

Использование ML в PostgreSQL

Александр Календарёв

Распознавание выражений лиц в мультимодальных диалоговых системах

Андрей Савченко

Притворяемся собой и друзьями, обучая LLM на сообщениях из Telegram

Александр Смирнов

Kolmogorov Arnold Networks: новая архитектура нейронных сетей

Павел Плюснин

Персонализация автономных мультиагентных интеллектуальных систем

Андрей Кузьминых

Трансформеры, Мамба и память в обучении с подкреплением

Александр Панов

Часто задаваемые вопросы о конференции:

Какая цель проекта?

Для какого уровня специалистов конференция?

Я совсем начинающий специалист, стоит приходить?

Как часто проходят конференции?

Как принять участие в конференции и какова стоимость билетов?

Какие компании и спикеры будут представлены на конференции?

Регистрация

Предыдущие конференции

Лето 2024, Онлайн

Осень 2023, Онлайн

Весна 2023, Онлайн

Осень 2022, Онлайн

Лето 2022, Онлайн

Зима 2021, Онлайн

Осень 2020, Онлайн

Лето 2020, Онлайн

Весна 2020, Онлайн

Осень 2019, Москва

Весна 2019, Москва

Осень 2018, Москва

Весна 2018, Москва

Осень 2017, СПб

Фотоотчёты

Информационные партнеры

Хотите стать спикером DataStart?

Записи четырех выступлений 2020 года

Предварительная регистрация

На оффлайн мепроприятие в Москве

Регистрация DataStart

Стать партнером DataStart

Подать доклад

Спасибо за обращение!

Спасибо за подписку!

Регистрация выполнена!