20 октября 2020
NEURAL NETWORK / MACHINE LEARNING / BIG DATA
программаВнедрение передовых технологий – это ключ к стабильному росту, повышению прибыли и отрыву от конкурентов
Активное взаимодействие, нетворкинг и получение полезных контактов в удобном формате
Наш курс обработки и анализа данных поможет работе с BigData, рассказывая о максимально подходящих и действенных методиках
Поможем выбрать техническую специализацию, сэкономить время и набраться вдохновения для исследования новых задач
Профессор-исследователь НИУ ВШЭ (Факультет компьютерных наук), глава Лаборатории машинного обучения, SAIC MOSCOW.
Основатель компании Rubbles, data scientist, Ph.D. в области data science, лектор
Руководитель группы R&D в Embedika
Head of unstructured data analysis в Yandex.Taxi
ML Engineer в Praxis Pioneering
ML Architect в Zyfra
Руководитель группы ML систем Яндекса
CIO группа компаний Gulliver&Co
Senior Research Scientist в Noah’s Ark Lab
Инженер-исследователь в NTechLab
Creator Machine Learning REPA
Expert Data Scientist в BigData МТС
ML Lead в Сбербанке, Chief Methodologist в LeanDS
Аспирант университета Бонна, студент-исследователь в Google
Principal Architect в компании Aligned Research Group
Инженер-консультант, InterSystems
Инженер-консультант, InterSystems
Data Scientist в IHS Markit Belarus
Павел является аспирантом Государственного университета "Дубна" по специальности "Математическое моделирование, численные методы и комплексы программ". Имеет 3 года опыта работы в сфере Data Science. Занимался проектами по разработке системы интеллектуального чат-бота, онлайн ASR, участник научных проектов по разработке методов глубокого обучения для трекинга элементарных частиц, распознавания болезней растений и биомониторинга. В IHS Markit занимается исследованиями и разработкой новых моделей для NER и семантического поиска, а также оптимизацией уже существующих моделей.
Senior ML Engineer/Data Scientist в IHS Markit Belarus
Обладает обширным опытом разработки ПО в области интеграции, обработки больших объемов данных и машинного обучения. Занимался исследованиями в области моделирования и машинного обучения с подкреплением. Возглавлял сектор разработки систем машинного обучения внутри подразделения одного из крупнейших в восточной Европе поставщиков IT-услуг и решений. Присоединился к R&D подразделению IHS Markit в качестве инженера по машинному обучению и исследователя данных. В настоящее время занимается новыми исследованиями и разработками в области машинного обучения для анализа текстов, семантического поиска и извлечения информации.
11:00-11:45
Профессор-исследователь НИУ ВШЭ (Факультет компьютерных наук), глава Лаборатории машинного обучения, SAIC MOSCOW.
За последние годы в глубинных нейронных сетях был обнаружен ряд необычных эффектов (двойной спуск, связность мод, "минные поля" в рельефе функции потерь, и др.), показавших, что сообщество плохо понимает, что происходит в процессе обучения нейронных сетей. В ходе доклада мы попробуем увязать ряд эффектов в единую гипотезу и обсудим результаты экспериментов, которые косвенно ее подтверждают.
11:45-12:00
12:00-12:45
ML Engineer в Praxis Pioneering
Часто при разработке продукта возникает несколько команд, реализующих ML в проде. У каждой стоит задача подсчета факторов, сбора сэмплов, обучения моделей, выкатка моделей в прод, доставка факторов в прод, синхронизация оффлайна и онлайна. Зачастую, каждая команда решает эти задачи независимо, что приводит в конечном итоге к замедлению разработки. В своем докладе я расскажу, как общая инфрастуктура факторов може ускорить разработку, зачем это вообще надо и какие проблемы возникают при ее построении.
12:45-13:00
13:00-13:45
Основатель компании Rubbles, data scientist, Ph.D. в области data science, лектор
В последние годы прикладное машинное обучение всё больше разделяется на два основных блока. Первый и наиболее хайповый — deep learning для обработки изображений, текста, звука и т. п. Второй, более старый, но не менее важный для бизнеса — “классический” ml для задач со табличными (структурированными) данными, использующийся для предсказания временных рядов, построения рекомендательных систем, предсказания поломок оборудования и многих других задач. В докладе мы погрузимся во второй блок: обсудим алгоритмы работы со структурированными данным, типизацию задач в этой области, практические кейсы, особенности индустрии сегодня и её развитие завтра.
13:45-14:00
14:00-14:45
Data Scientist в IHS Markit Belarus
Senior ML Engineer/Data Scientist в IHS Markit Belarus
Несмотря на state-of-the-art результаты в подавляющем большинстве академических бенчмарков, BERT-подобные модели все еще крайне редко применяются в реальных системах. В докладе мы расскажем о передовых исследованиях в области применения глубокого обучения в семантическом поиске и извлечении информации на основе моделей семейства BERT, а также об ограничениях использования таких моделей в реальных системах и вызовах, с которыми мы столкнулись при разработке системы семантического поиска в индексе с миллионами документов.
14:45-15:00
15:00-15:45
Senior Research Scientist в Noah’s Ark Lab
Кажется, что нет более далекой области от визуализации, чем обработка текстов. Но на самом деле визуализации и тут могут во многом помочь. Я расскажу про работу с графами знаний, а также про то, какие можно получить знания изучая паттерны внимания модели BERT
15:45-16:00
16:00-16:45
Руководитель группы ML систем Яндекса
Как многим известно, градиентный бустинг на решающих деревьях остается SoTA на задачах, представимых в виде таблиц с признаками разной природы. До недавних пор CatBoost поддерживал 3 типа значений в колонках таких таблиц - вещественные признаки, категориальные и тексты.
Сегодня мы хотим презентовать возможность обучения на эмбеддингах объектов - вещественных векторах, показывающих положение объекта в каком-то семантическом пространстве.
Например, классическими примером эмбеддингов для текстов является word2vec, более новым - эмбеддинги трансформеров (BERT, GPT, etc). Мы расскажем о том, как именно CatBoost работает с такими векторами и как их использование может повысить качество ваших моделей.
Вторая важная новость, о которой мы расскажем - поддержка обучения на SPARK кластерах. Мы покажем, как реализована поддержка SPARK и как ей воспользоваться.
Ну и, конечно, это еще не все классные новости - еще мы расскажем о новых ускорениях и улучшениях, которые произошли с CatBoost за последние полгода.
16:45-17:00
17:00-17:45
Руководитель группы R&D в Embedika
Это простой гайдлайн о том, как проще и быстрее всего получить работающий алгоритм, классифицирующий тексты. На данный момент есть много модных алгоритмов, много разных подходов для работы с текстами. Я выбрал наиболее применимые в широком кругу задач и подготовил примеры. Такого материала лично мне не хватало еще 5-7 лет назад. Будет весьма полезно тем, кому нужно быстро получить приемлимый результат.
17:45-18:00
18:00-18:45
Principal Architect в компании Aligned Research Group
Какие именно особенности железа и кода заставляют его выполняться быстрее и эффективнее решать задачу? Стоит ли овчинка выделки? В докладе мы поговорим о том, как именно достигается высокая скорость выполнения кода, поковыряем распределенные вычисления, JIT, железки и векторизацию.
18:45-19:00
19:00-19:45
Аспирант университета Бонна, студент-исследователь в Google
В последние годы всё больше ML пайплайнов строится на эмбеддингах – вещественных векторах довольно малой размерности, отражающие семантические свойства объектов. Мы довольно хорошо научились извлекать их из текстов, картинок, звука, но для графов доступных коробочных решений пока нет. Графы – хитрый вид данных, который возникает, когда нам даны только связи разных объектов между собой. Например, дружба или подписки в соцсетях, покупки товаров и другие действия пользователей – лишь одни из примеров отношений, которые удобно моделировать графами. Я расскажу, как получать эмбеддинги для графов, про графовые нейросети и то, как их обучать без учителя.
19:45-20:00
11:00-11:45
CIO группа компаний Gulliver&Co
Знакомая ситуация: приходишь в компанию или к коллегам в Коммерческий департамент, рассказываешь о крутом решении которую с парнями придумал и даже собрал MVP, а они смотрят, киваю головой и отказываются? Я расскажу вам, почему так происходит, как мыслят сотрудники бизнес подразделений и что нужно сделать, а что делать не надо, чтобы они хотели с вами работать.
11:45-12:00
12:00-12:45
Head of unstructured data analysis в Yandex.Taxi
В своем докладе расскажу про наш продукт для автоматизации и улучшения коллцентров. Как автоматизировать 80% первой линии поддержки так, чтобы робот был неотличим от человека, как понять какой текст лучше присылать пользователю, как раздавать промокоды с большей пользой для клиента и многое другое.
12:45-13:00
13:00-13:45
Инженер-исследователь в NTechLab
Все из нас (ну точно многие) пользуются библиотеками Numpy, Pandas, sklearn и так далее. Мир опен сорса очень огромен, там просиходят большие (и неочень) события, свои местечковые конференции, принимаются решения, которые влияют на нашу разработку.
Однако знакомы с этой "кухней" далеко не все. Стандарты разработки многих продуктов обычно высоки. Кажется, что попасть в опен сорс сложно или почти невозможно. Не понятно с чего начать. Куда писать? Куда коммитить и как это делать? А вообще, зачем оно вообще нужно, вливаться в этот опен сорс, это же работа за бесплатно?
Другие проблемы, которые уже несколько уровнем выше, возникают и куда более серьезны для развития проекта. Как взаимодействовать с пользователями? Как развивать комьюнити? Как добиваться узнаваемости и расширять пользовательскую базу?
Проблемы взаимодействия с другими проектами тоже не остаются в стороне. Это бывают отношения пользователь-проект или проект-проект. В каждом из случаев есть нюансы. Как повлиять на развитие проекта? Как добавить недостающую фичу? Как поправить багу в любимой библиотеке? И самое главное, почему все так долго, и можно ли побыстрее?
В опен сорс я попал со студенческой скамьи на наивном энтузиазме, но это продолжает переворачивать жизнь по сей день. Я постараюсь ответить на перечисленные вопросы опираясь на свой опыт, ретроспективные выводы спустя несколько лет участия в нескольких крупных проектах.
13:45-14:00
14:00-14:45
Creator Machine Learning REPA
Применение Data Science (DS) в бизнесе обычно связывают с тем value, которое смогут принести модели после их внедрение в процесс или продукт. При этом часто упускают из виду, что работа DS команды это сложный процесс, который требует значительных ресурсов и компетенций команды. В докладе обсудим, как можно оценить эффект от внедрения инструментов автоматизации и инженерных практик в Data Science. Доклад поможет компаниям найти точки роста DS команд и приоритезировать программы обучения и развития.
14:45-15:00
15:00-15:45
Expert Data Scientist в BigData МТС
Искусственный интеллект в массовом найме — очень модная тема, и бизнес плотоядно облизывается, глядя на перспективы анализа больших данных в этой области.
Однако с точки зрения Data Science работа в HR очень специфична: люди не тексты и не картинки, они капризны и часто непредсказуемы.
В своём докладе я дам общий обзор комплекса DS-задач, которые возникают в области массового найма, и разберу более пристально наиболее каверзные из них
15:45-16:00
16:00-16:45
ML Lead в Сбербанке, Chief Methodologist в LeanDS
Прикладное машинное обучение должно нести ценность бизнесу. В момент разработки модели не ясно как можно оценить потенциальную пользу модели и выбрать ожидаемые значения метрик на кросс-валидации или отложенной выборке такие, чтобы разработка модели имела смысл и ценность её была ощутима. В докладе будет показан подход к решению этой задачи и будет продемонстрировано как можно рассчитывать ценность, которую модель приносит бизнесу.
16:45-17:00
17:00-17:45
ML Architect в Zyfra
Питон известен своим низким порогом входа и на нем действительно очень просто писать код. Однако это не значит, что на нем просто писать ХОРОШИЙ код. Я расскажу, что же это за зверь такой – хороший код на питоне, а так же покажу полезные приемы, которые помогут вам проще и быстрее писать на питоне и вообще поднимут ваше питон кунг-фу на новый уровень. Доклад будет интересен и тем, кто только собирается учить питон, и тем кто уже в познании питона настолько преисполнился, будто бы уже 100 триллионов миллиардов лет пишет код на триллионах и триллионах таких же языков.
17:45-18:00
18:00-18:45
Инженер-консультант, InterSystems
Инженер-консультант, InterSystems
Наша презентация – это обстоятельный обзор возможностей платформы InterSystems IRIS в части универсальной поддержки развертывания AI/ML (англоязычная аббревитура для искусственного интеллекта и машинного обучения) -механизмов, сборки (интеграции) AI/ML-решений и обучения (тестирования) AI/ML-решений на интенсивных потоках данных. Мы обратимся к исследованиям рынка, к практическим примерам AI/ML-решений и концептуальным аспектам того, что мы называем AI/ML-платформой реального времени.
18:45-19:00
За последние три года были проведены шесть конференций в Москве и Санкт-Петербурге. Ведущие специалисты России поделились своими знаниями и практическими навыками по Big Data, Machine Learning и Neural Network.
Команда DataStart скоро с Вами свяжется
Вся дальнейшая информация и доступ к трансляции через Личный кабинет
Перейти в Личный кабинетПригласить друзей: