Obozov M.A. "Proximal Policy Optimization. От графов Кэли до RLHF."

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Obozov M.A. "Proximal Policy Optimization. От графов Кэли до RLHF."
⌚️ Пятница 14 июня 19.00 по Москве
PPO - достаточно современный и интересный Policy Gradient метод, который базируется на идее клиппинга и обучение policy network с специальной целевой функцией. Концептуально алгоритм решает проблему больших policy обновлений, что значительно улучшает сходимость. При этом его применение часто очень нетривиально, а понимание алгоритма к сожалению нередко заканчивается абстрактными идеями и просто знанием об его существование. Данная лекция ориентирована на исправление этой проблемы.
Всего лекция состоит из четырёх частей:
1. Пользовательское понимание PPO, концепции и основные идеи, отличие от REINFORCE и других PGM.
2. Более глубокое понимание и описание математики стоящей за этим алгоритмом.
3. Применение к реальным задачам в том числе и к графовым.
4. RLHF с PPO. Эта часть ориентирована именно на LLM инженеров.
Zoom link will be in @sberlogabig just before start. Video records: / sciberloga - subscribe

Жүктеу

Кирилл Хоружий "Введение в методы поиска короткого пути на больших графах"

Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро"

Фейковый воришка 😂

Шок. Никокадо Авокадо похудел на 110 кг

小丑和白天使的比试。#天使 #小丑 #超人不会飞

GTA 5 vs GTA San Andreas Doctors🥼🚑

Евгений Дурыманов "Cayley2vec - эмбединги для бесконечных графов"

Как устроено сознание типичного китайца? Востоковед Алексей Маслов / Деревня Великановка

Духовно-нравственные основы правовой системы России

Кирилл Хоружий " Апдейты про проекту применения МЛ к теории групп"

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

КАК РАБОТАЮТ ГРАФЫ | СТРУКТУРЫ ДАННЫХ

А.Червов (к.ф.-м.н) "Базовые понятия теории представлений групп"

Игорь Котенков - RLHF Intro: from Zero to Aligned Intelligent Systems

Что такое КОНЦЕПЦИЯ ДИЗАЙНА ИНТЕРЬЕРА? Как создать ДЕЙСТВИТЕЛЬНО РАБОЧУЮ КОНЦЕПЦИЮ и НУЖНО ЛИ ЭТО?

ОСЕЧКИН: что заставили сделать Шойгу, как поступил Дуров, из-за чего взбесился Соловьев

Фейковый воришка 😂

Obozov M.A. "Proximal Policy Optimization. От графов Кэли до RLHF."

Пікірлер