VI конференция по
DATA SCIENCE

neural network / machine learning / big data
29 апреля 2020
Moscow / Holiday Inn Lesnaya
1
день
2
секции
20
спикеров

Для кого наши мероприятия?

Cпикеры DataStart

Программа мероприятия

A
зал
Grand Ball Room 1
B
зал
Grand Ball Room 2
10:00
10:30
Александр Фонарев Chief Data Scientist, Rubbles, преподаватель ШАД Яндекс
Что же такое ИИ на самом деле?
В докладе мы погрузимся область искусственного интеллекта, разберём решения реальных прикладных задач из различных индустрий и ответим на основные вопросы, важные для понимания области и многих других докладов:
* В чём причины хайпа вокруг искусственного интеллекта в последние годы?
* Чем отличается data science от искусственного интеллекта, машинного обучения и других схожих терминов?
* Как устроены внутри популярные методы машинного обучения (простым языком)?
* Как работают нейронные сети и в каких задачах не стоит применять?
* Куда сейчас развиваются технологии и что нас ждёт в ближайшем будущем?
#ai
#datascience
#machinelearning
#introduction
10:30 - 11:00
кофе-брейк
11:00
11:30
Александр Гущин Senior DS в Mechanica.ai
Деплой моделей машинного обучения on-premises с использованием Kubernetes. Как свести разработку кастомных сервисов к одному стандарту: опыт Mechanica.ai.
Разработка кастомных сервисных решений для похожих задач приводит к появлению "зоопарка" различных сервисов, который трудно поддерживать, обновлять и передавать из одних рук в другие. Установка таких решений on-premises в промышленности приносит дополнительные сложности - своя инфраструктура у каждого заказчика, ограниченный доступ в интернет. Мы расскажем, как для решения этой задачи мы разработали шаблонное решение на основе Kubernetes, включающее в себя корректную обработку входных запросов, модели машинного обучения, логирование и мониторинг.
#deploying-on-premise
#kubernetes
#devops
#ml-apps
11:45
12:15
Геннадий Штех Руководитель группы исследований и разработки в Центре Исследования Больших Данных
Как доверять результатам работы систем машинного обучения?
Цифры врут. Чтобы доверять, нужно проверить.
Важно иметь оценку доверия к МЛ-алгоритму. Она позволяет минимизировать ошибки, которые совершит алгоритм. Бизнесу это позволит автоматизировать часть процессов и при этом не совершить ошибок, за которые в ответе бездушная машина. Научимся строить системы с таким функционалом.
Расскажу о теории расчёта рисков и о практических инструментах анализа ошибок. Научимся понимать, что значат формальные оценки МЛ-алгоритмов, и можно ли по ним принять решение «двигать в прод». Чтобы решить точно, разберëмся, что такое Эмпирический Риск. В программе: кейсы, много понятных картинок, немного математики и средненько кода.
#метрики
#минимизация-эмпирического-риска
#внедрение-ml
#не-верь-бездушным-машинам
12:30
13:00
Асхат Уразбаев Agile Coach, ScrumTrek
Гибкое управление DS проектами
87% DS проектов не доходят до прода. Причин много: сложно взаимодействовать с заказчиками, множество проблем с доступом, верификацией, трансформацией и валидацией данных, тяжело отслеживать и объяснять результаты AI/ML и т.д. Типичная реакция технаря на эти проблемы — запилить еще одну платформу.
Мы увидим, что проблемы совсем не в технической части и обсудим как правильно построенный процесс DS-проекта может помочь исправить ситуацию.
* Почему Scrum не подходит для DS-проекта
* Как выстроить взаимодействие с заказчиками
* Какие роли, артефакты и мероприятия должны быть в DS проекте
* Каких технические практики должны быть в проекте
#scrum
#kanban
#agile
#project management
13:00 - 14:00
обед
14:00
14:30
Артем Просветов Senior Data Scientist в CleverDATA
Олег Кафанов Data Scientist Ланит-технологии
Мониторинг рабочей деятельности с помощью методов машинного обучения
Нами решается задача мониторинга человеческой активности при помощи сенсоров (таких как акселерометр и гироскоп), закрепленных на руках рабочих. Распознавание типов деятельности удалось свести к задаче классификации временных рядов. В рамках проекта удалось рассмотреть следующее сравнение: AutoML или Deep Learning? Про наши выводы и выбор нашего текущего подхода мы будем рады рассказать.
Отдельно мы хотели бы поделиться нашими наработками для решения попутных сложностей, таких как пропуски в данных, шумы в показаниях датчиков, а также человеческий фактор, проявляющийся в неправильном надевании датчиков (неверная ориентация, перепутаны руки и т.п.).
#industrial-ML
#time-series-analysis
#data-science
#machine-learning
14:45
15:15
Ольга Филиппова  DS в Mechanica AI, преподаватель Data Mining In Action
Качество данных: что может пойти не так?
Качество модели на 80% зависит от данных на которых она обучалась. Что такое качественные данные? Что может быть не так с данными, и какие методы можно использовать для того, чтобы отловить эти проблемы - обсудим на лекции.
#ai
#datascience
#machinelearning
#introduction
15:45
16:15
Антон Васильков DataOps в optia.ai
Keeper-немного больше, чем система хранения датасетов
Как менеджить кучу датасетов, постоянно дорабатывать разметку, минимизировать человеческие ошибки и не держать всё в голове? Я расскажу о Keeper - самописной системе версионирования датасетов, позволившей починить процесс работы с данными в отдельно взятом ds отделе.
#data
#devops
#datasets
#labeling
#reproducibility
16:15 - 16:30
кофе-брейк
16:30
17:00
Мурат Апишев Ведущий специалист по анализу данных в Digital Decisions
Ирина Пионтковская Head of Huawei Noah's Ark Speech & Semantic team Moscow
Промышленная модель голосового ассистента с минимальными затратами
Крупнейшие IT и телеком-компании активно разрабатывают голосовых помощников. Масштабируемость технологий голосовых помощников зависит от возможности оперативно расширить объёмы обучающих данных и число поддерживаемых языков. Команда компании Digital Decisions в сотрудничестве с Huawei занимается генерацией мультиязычного набора реплик для обучения голосового ассистента. В первой части доклада мы бы хотели поделиться нашим опытом по декомпозиции и формализации задач для краудсорсинговой платформы для генерации реплик и их разметки, и особенностями разметки данных на русском и польском языках. Во-второй части докладчик от Huawei расскажет о моделировании с использованием полученных данных и сложностях, возникающих в процессе. Доклад может быть интересен тем, кто занимается разработкой диалоговых асситентов и чат-ботов.
#voiceassistant
#nlp
#ner
#crowdsourcing
#bert
#deeplearning
#datascience
#machinelearning
#datasets
17:15
17:45
Мурат Апишев Ведущий специалист по анализу данных в Digital Decisions
Роксана Бушкова Head of Innovative Products @ Instinct (BBDO)
Анализ пользовательского контента в задаче поиска актуальных трендов для ситуативного маркетинга
Клиентам креативного агентства нужно быть актуальными для digital-поколения. Для этого необходимо следить за настроениями целевой аудитории и быстро реагировать на изменение тем обсуждения. В совместном докладе AI-компании Digital Decisions и креативного агентства Instinct (BBDO) мы расскажем о том, как анализируем текстовые данные Twitter и YouTube, и попутно дадим ответы на следующие вопросы:
• Какие тренды интересны клиентам креативного агентства?
• Как пользоваться открытыми данными для мониторинга трендов?
• Когда собственная разработка мониторинга лучше готовых решений?
• Какие инструментарии аналитика данных полезны при решении такой задачи?
#trendwatching
#trendsdetection
#graphs
#machinelearning
#datascience
#datacrawling
#socialnetworks
18:00
18:30
Максим Павлов Ведущий исследователь в лаборатории бизнес-решений на основе искусственного интеллекта
Битва чат-ботов. Научный подход к выбору лучшего решения
МФТИ помогает крупному ритейл банку выбрать чат-бота для обсулуживания корпоративных и частных клиентов.
Решаем задачу обоснованного выбора оптимального решения на основе проведения эксперимента на исторических данных.
В рамках проекта будет применен уникальный метод к внедрению чат-ботов с выбором решений из трех разных подходов к созданию виртуальных ассистентов.
1. «Старая школа» – чат-боты построенные на лингвистических и бизнес правилах.
2. «Проверенные практики» – виртуальные операторы современной школы, построенные с использованием технологий машинного обучения и бизнес-правилах.
3. «Прорывные технологии» - самый современных подход к созданию виртуальных ассистентов, который строится на применении нейронных сетей и методов глубокого обучения, самый близкий из методов к современному пониманию искусственного интеллекта.
#chat-bots
#nlp
#bank
#consulting
Программа пополняется ...
A
зал
Grand Ball Room 1
B
зал
Grand Ball Room 2
11:00
11:30
Александр Фонарев Chief Data Scientist, Rubbles, преподаватель ШАД Яндекс
Подводные камни Data Science проектов
Многие компании пробуют внедрять решения с использованием data science, однако такие проекты имеют ряд отличий от других IT-проектов. В докладе мы разберём особенности применения Data Science как с организационной, так и с технической точки зрения, развеем популярные мифы и ответим на основные вопросы, важные для работы на индустриальных data science проектах как для менеджеров, так и технических специалистов:
* Из каких этапов обычно состоит процесс решения data science задач?
* Как выглядит работа data scientist'а в реальной жизни и какие мифы вокруг неё существуют
* Какими должны быть модели машинного обучения для применения их на практике?
* Как есть роли в таких проектах и какими компетенциями они должны обладать?
* Какие подводные камни возникают при формализации и решении бизнес задач методами data science?
#ai
#datascience
#machinelearning
#introduction
11:45
12:15
Эмели Драль Co-founder & CTO в Evidently AI
Explainable AI: призываем модели к ответу
Качество модели машинного обучения не сводится к измерению ошибки на тестовой выборке, сегодня это более комплексный вопрос. Для применения моделей машинного обучения в некоторых приложениях важно понимать не только точность модели (о какой бы метрике не шла речь), но и как именно работает модель, на какие данные она опирается при генерации результатов и почему они именно таковы. Особенно это важно для тех приложений, где сценарий использования модели не до конца понятен на старте проекта и важно обеспечить возможность взаимодействия с моделью специалистов разных профилей.
Мы поговорим о существующих подходах к интерпретации поведения моделей, объяснению прогнозов и валидации качества.
#xai
#evidently-AI
#explainable-AI
12:30
13:00
Сергей Марков Управляющий директор, департамент SberDevices, Сбербанк
Мозг фирмы. От игры к управлению бизнес-процессом: обучение с подкреплением в бизнес-задачах
1. «Мозг фирмы»: управление бизнесом и кибернетика — от Стаффорда Бира до наших дней.
2. Последние достижения в области глубокого обучения и их влияние на теорию игр.
3. Массовое обслуживание и теория игр: какие бизнес-процессы хорошо укладываются в парадигму теории игр, и какую пользу может получить бизнес за счёт имплементации современных моделей машинного обучения для принятия решений?
4. Что означает успех AlphaGo для прикладных задач по управлению бизнесом?
5. Обучение с подкреплением в реальном бизнес-процессе: оптимизируем процесс принятия решений по взаимодействию с клиентами компании.
#машинное-обучение
#искусственный-интеллект
#нейронные-сети
#глубокое-обучение
#обучение-с-подкреплением
#управление-бизнес-процессами
13:00 - 14:00
обед
14:00
14:30
Анастасия Семенова Data Scientist в CleverDATA
Какие социологические особенности удалось выяснить благодаря применению моделей машинного обучения?
Что мы знаем о покупателях? Какая информация может помочь сделать рекламу более релевантной?
На эти вопросы аналитики CleverDATA отвечают каждый день. Особо востребованными для компаний являются Audience Research (основанный на классификации сырых данных покупок и clickstream), модели LookaLike, а также кастомные решения для узко специализированных рекламных кампаний.
В ходе исследования аудиторий наблюдаются как закономерные, так и удивительные факты, которые ярко характеризуют социум вокруг нас. К настоящему времени у нас накопился материал, которым мы хотели бы поделиться и который может быть полезен каждому исследователю.
#audience-research
#social-science
#data-science
#machine-learning
14:45
15:15
Михаил Свешников ML Architect в Zyfra
Ebonite: фреймворк для воспроизводимости и деплоя моделей
Если вы обучаете модель для реального бизнеса, а не для соревнований, то на обучении работа над моделью не заканчивается - после этого ее нужно грамотно встроить в существующую IT систему, обернув в некоторый сервис. А если у вас таких моделей много, и они еще и обновляются, то эту работу вам предстоит проделывать снова и снова. Чтобы автоматизировать эту задачу, мы разработали и выложили в opensource фреймворк ebonite. В докладе я расскажу, как он устроен, какие задачи позволяет решать, покажу как им пользоваться и какие фичи мы планируем добавлять в будущем.
#ai
#reproducibility
#deployment
#mlops
#opensource
15:45
16:15
Ольга Перепелкина COO & Scientific Director, Neurodata Lab, старший преподаватель ВШЭ
All we need is labeled data
Данные – это новая нефть, наверняка слышали вы. Одним из наиболее популярных методов машинного обучения является обучение с учителем (Supervised learning). Для того, чтобы обучить такие модели, нужны размеченные данные. Для некоторых задач существуют готовые датасеты – бери и пользуйся, но для большинства индустриальных задач готовеньких данных нет, либо их мало, и нужна ручная разметка. Поговорим про способы размечать данные, обсудим платформы для аннотирования данных и даже опыт построение такой платформы с нуля. Из доклада вы узнаете, как трудоемкий процесс получения вожделенных размеченных данных можно ускорить и удешевить.
#machinelearning
#supervised
#annotation
#tools
#data
10:30 - 11:00
кофе-брейк
16:30
17:00
Юрий Басалов Ведущий программист IT-компании DD Planet
Как построить полнотекстовый поиск в проектах с Big Data с помощью нейронных сетей
Сейчас существует немало инструментов для полнотекстового поиска документов (например, популярный движок Elasticsearch). Многие разработчики сначала используют подобные классические решения, но потом сталкиваются с рядом проблем: - Не учитываются синонимы при поиске (например, "шампанское боско" и "шампанское bosca"). Обычно эта проблема решается составлением словарей синонимов, что в общем случае сделать не так просто. - Контекстная значимость слов (например, фразы "красное дерево" и "синяя ручка" отличаются от фразы "красная ручка" одинаково одним словом. Но семантически "красная ручка" намного ближе к "синей ручке", чем к "красному дереву"). И т.д. Мы в DD Planet так же в работе с проектами, содержащими большие объемы данных, поначалу работали с Elasticsearch, а затем занялись решением обозначенных проблем и построением более качественного полнотекстового поиска с помощью нейронных сетей. NLP решает подобные вопросы в рамках задачи paraphrase identification. В рамках доклада я расскажу, как мы осуществляли поиск похожих по смыслу фраз, основанный на принципах paraphrase identification, и с какими подводными камнями при этом столкнулись
#полнотекстовыйпоиск
#нейронныесети
#nlp
#paraphraseidentification
17:15
17:45
Станислав Кириллов Ведущий разработчик в группе ML систем Яндекса
Текстовые признаки, обучение на больших данных и другие новости проекта CatBoost
Градиентный бустинг - это алгоритм машинного обучения, который показывает отличные результаты на табличных данных и используется в большом числе крупных компаний, а также в соревнованиях по машинному обучению.
В докладе речь пойдет о библиотеке CatBoost, одной из трех наиболее популярных библиотек градиентного бустинга в мире. Мы расскажем о том, что такое CatBoost и где он применяется. А также мы поделимся самыми свежими новостями новых релизов - подробно опишем, как поддержаны текстовые признаки, опишем новую полезную функциональность библиотеки, которая была выложена за последнее время. Доклад будет полезен специалистам по машинному обучению и специалистам по работе с данными.
#catboost
#machine-learning
#gradient-boosting
Программа пополняется ...

Зачем идти?

Всего 1 день может вывести Ваш бизнес или навыки на новый уровень.
И мы расскажем, как.

новые возможности для бизнеса

Инструменты повышения эффективности, цифровая трансформация и системы управления данными, оптимизация затрат, увеличение прибыли и многое другое. А главное - превосходство над конкурентами и лидирующие позиции в своей нише.

полезные знакомства и деловые контакты

Мы собираем под одной крышей и уникальных специалистов, и владельцев бизнеса. Здесь можно обменяться мнениями и получить ценные рекомендации, а также найти партнеров, инвесторов или цифрового гения.

Уникальная информация и практические кейсы

Данные и опыт, которых нет в открытых источниках. Наши спикеры - ведущие специалисты в топовых организациях. И они готовы поделиться реальными кейсами по решению самых актуальных и сложных задач.

анализ своей деятельности и выбор путей развития

Вы сможете по-новому посмотреть на свои планы и задачи, найти ответы на вопросы и новые источники ресурсов для воплощения даже самых масштабных идей. 1 день интенсива DataStart существенно сократит время самостоятельных поисков.

Стоимость участия в конференции

Online
скидка
0%
  • Трансляция 2 треков
  • Предоставление всех материалов и видеозаписей
  • Сертификат участника
  • + Бонус: Видеозаписи конференции 30 ноября 2019
купить билет
персональный
0
0
запросить счет
организация
0
0
Standart
скидка
40%
  • Посещение 2 треков
  • Предоставление всех материалов и видеозаписей
  • Сертификат участника
  • Кофе-брейки
купить билет
персональный
0
0
запросить счет
организация
0
0
Business
скидка
40%
  • Все опции тарифа Standart
  • + Обед в ресторане отеля
  • + Приоритетная рассадка
  • + Бизнес-встреча со спикерами
купить билет
персональный
0
0
запросить счет
организация
0
0

Партнеры и участники конференции

Информационные партнеры

стать партнёром