Aprendizaje por Refuerzo Nivel Intermedio
Curso teórico-práctico en donde aprenderás e implementaras en Python los principales algoritmos clásicos para la solución de problemas de Aprendizaje por Refuerzo.
El funcionamiento de las tres principales familias de algoritmos clásicos para la solución de problemas de Aprendizaje por Refuerzo: Programación Dinámica, Monte Carlo y Diferencias Temporales
A usar Python y la librería Gym de OpenAI, una de las herramientas más usadas para la implementación y desarrollo de algoritmos de Aprendizaje por Refuerzo
A resolver problemas de Aprendizaje por Refuerzo usando Python, la librería Gym y cualquiera de los algoritmos clásicos
Introducción a los algoritmos clásicos del Aprendizaje por Refuerzo
Evaluación de la Política: conceptos básicos
Evaluación de la Política: ejemplo práctico
Mejora de la Política y ejemplo práctico
Iteración de la Política y ejemplo práctico
Iteración de Valores
Práctica 1: introducción a OpenAI Gym
Práctica 2: Programación Dinámica con OpenAI Gym - Parte 1: el entorno, la política y evaluación de la política
Práctica 2: Programación Dinámica con OpenAI Gym - Parte 2: mejora de la política
Práctica 2: Programación Dinámica con OpenAI Gym - Parte 3: iteración de la política
Práctica 2: Programación Dinámica con OpenAI Gym - Parte 4: iteración de valores e interactuando con el entorno
Predicción con Monte Carlo
Control con Monte Carlo
Práctica 3: Monte Carlo con OpenAI Gym - Parte 1: el juego y el entorno
Práctica 3: Monte Carlo con OpenAI Gym - Parte 2: predicción
Práctica 3: Monte Carlo con OpenAI Gym - Parte 3: control "on-policy"
Práctica 3: Monte Carlo con OpenAI Gym - Parte 4: control "off-policy"
Introducción al Aprendizaje por Diferencia Temporal
Predicción con Diferencia Temporal
SARSA: control "on-policy" con Diferencia Temporal
Q-learning: control "off-policy" con Diferencia Temporal
Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 1: el juego del Taxi
Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 2: el entorno en OpenAI Gym
Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 3: funciones auxiliares
Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 4: control con SARSA
Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 5: control con Q-learning
Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 6: interacción
Cierre del curso
Debes haber tomado los cursos "Aprendizaje por Refuerzo Nivel Básico", "Python Nivel Básico" y "Python Nivel Intermedio" (todos disponibles en la Academia Online)
Miguel Sotaquirá