Curso Aprendizaje por Refuerzo Nivel Intermedio

Aprendizaje por Refuerzo Nivel Intermedio

Curso teórico-práctico en donde aprenderás e implementaras en Python los principales algoritmos clásicos para la solución de problemas de Aprendizaje por Refuerzo.

Suscribirse (10 dólares/mes)

El funcionamiento de las tres principales familias de algoritmos clásicos para la solución de problemas de Aprendizaje por Refuerzo: Programación Dinámica, Monte Carlo y Diferencias Temporales
A usar Python y la librería Gym de OpenAI, una de las herramientas más usadas para la implementación y desarrollo de algoritmos de Aprendizaje por Refuerzo
A resolver problemas de Aprendizaje por Refuerzo usando Python, la librería Gym y cualquiera de los algoritmos clásicos

1
- Introducción a los algoritmos clásicos del Aprendizaje por Refuerzo
2
- Evaluación de la Política: conceptos básicos
- Evaluación de la Política: ejemplo práctico
- Mejora de la Política y ejemplo práctico
- Iteración de la Política y ejemplo práctico
- Iteración de Valores
- Práctica 1: introducción a OpenAI Gym
- Práctica 2: Programación Dinámica con OpenAI Gym - Parte 1: el entorno, la política y evaluación de la política
- Práctica 2: Programación Dinámica con OpenAI Gym - Parte 2: mejora de la política
- Práctica 2: Programación Dinámica con OpenAI Gym - Parte 3: iteración de la política
- Práctica 2: Programación Dinámica con OpenAI Gym - Parte 4: iteración de valores e interactuando con el entorno
3
- Predicción con Monte Carlo
- Control con Monte Carlo
- Práctica 3: Monte Carlo con OpenAI Gym - Parte 1: el juego y el entorno
- Práctica 3: Monte Carlo con OpenAI Gym - Parte 2: predicción
- Práctica 3: Monte Carlo con OpenAI Gym - Parte 3: control "on-policy"
- Práctica 3: Monte Carlo con OpenAI Gym - Parte 4: control "off-policy"
4
- Introducción al Aprendizaje por Diferencia Temporal
- Predicción con Diferencia Temporal
- SARSA: control "on-policy" con Diferencia Temporal
- Q-learning: control "off-policy" con Diferencia Temporal
- Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 1: el juego del Taxi
- Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 2: el entorno en OpenAI Gym
- Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 3: funciones auxiliares
- Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 4: control con SARSA
- Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 5: control con Q-learning
- Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 6: interacción
- Cierre del curso

Debes haber tomado los cursos "Aprendizaje por Refuerzo Nivel Básico", "Python Nivel Básico" y "Python Nivel Intermedio" (todos disponibles en la Academia Online)

Fundador y creador de contenidos en Codificando Bits

Miguel Sotaquirá

Soy Ingeniero Electrónico y tengo una Maestría en esta área, así como un Doctorado en Bioingeniería. Durante 15 años he sido profesor e investigador de varias universidades de Colombia, y desde el año 2017 me he convertido en un apasionado por el Machine Learning, el Deep Learning y la Ciencia de Datos. De hecho durante mi tesis doctoral explore temas de Machine Learning y algo de Deep Learning (que aún no estaba en auge!) para el análisis de imágenes médicas. En la actualidad me dedico por completo a divulgar contenido en mi canal de YouTube y a brindar asesoría y formación a personas y empresas en estos temas.

Aprendizaje por Refuerzo Nivel Intermedio

En este curso aprenderás

Contenido del curso

Introducción al curso

Algoritmos de Programación Dinámica

Algoritmos Monte Carlo

Algoritmos de Diferencia Temporal

Requisitos

Instructor

Fundador y creador de contenidos en Codificando Bits