En este curso aprenderás

  • El funcionamiento de las tres principales familias de algoritmos clásicos para la solución de problemas de Aprendizaje por Refuerzo: Programación Dinámica, Monte Carlo y Diferencias Temporales

  • A usar Python y la librería Gym de OpenAI, una de las herramientas más usadas para la implementación y desarrollo de algoritmos de Aprendizaje por Refuerzo

  • A resolver problemas de Aprendizaje por Refuerzo usando Python, la librería Gym y cualquiera de los algoritmos clásicos

Contenido del curso

  1. 1
    • Introducción a los algoritmos clásicos del Aprendizaje por Refuerzo

  2. 2
    • Evaluación de la Política: conceptos básicos

    • Evaluación de la Política: ejemplo práctico

    • Mejora de la Política y ejemplo práctico

    • Iteración de la Política y ejemplo práctico

    • Iteración de Valores

    • Práctica 1: introducción a OpenAI Gym

    • Práctica 2: Programación Dinámica con OpenAI Gym - Parte 1: el entorno, la política y evaluación de la política

    • Práctica 2: Programación Dinámica con OpenAI Gym - Parte 2: mejora de la política

    • Práctica 2: Programación Dinámica con OpenAI Gym - Parte 3: iteración de la política

    • Práctica 2: Programación Dinámica con OpenAI Gym - Parte 4: iteración de valores e interactuando con el entorno

  3. 3
    • Predicción con Monte Carlo

    • Control con Monte Carlo

    • Práctica 3: Monte Carlo con OpenAI Gym - Parte 1: el juego y el entorno

    • Práctica 3: Monte Carlo con OpenAI Gym - Parte 2: predicción

    • Práctica 3: Monte Carlo con OpenAI Gym - Parte 3: control "on-policy"

    • Práctica 3: Monte Carlo con OpenAI Gym - Parte 4: control "off-policy"

  4. 4
    • Introducción al Aprendizaje por Diferencia Temporal

    • Predicción con Diferencia Temporal

    • SARSA: control "on-policy" con Diferencia Temporal

    • Q-learning: control "off-policy" con Diferencia Temporal

    • Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 1: el juego del Taxi

    • Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 2: el entorno en OpenAI Gym

    • Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 3: funciones auxiliares

    • Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 4: control con SARSA

    • Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 5: control con Q-learning

    • Práctica 4: Diferencia Temporal con OpenAI Gym - Parte 6: interacción

    • Cierre del curso

Requisitos

  • Debes haber tomado los cursos "Aprendizaje por Refuerzo Nivel Básico", "Python Nivel Básico" y "Python Nivel Intermedio" (todos disponibles en la Academia Online)

Instructor

Fundador y creador de contenidos en Codificando Bits

Miguel Sotaquirá

Soy Ingeniero Electrónico y tengo una Maestría en esta área, así como un Doctorado en Bioingeniería. Durante 15 años he sido profesor e investigador de varias universidades de Colombia, y desde el año 2017 me he convertido en un apasionado por el Machine Learning, el Deep Learning y la Ciencia de Datos. De hecho durante mi tesis doctoral explore temas de Machine Learning y algo de Deep Learning (que aún no estaba en auge!) para el análisis de imágenes médicas. En la actualidad me dedico por completo a divulgar contenido en mi canal de YouTube y a brindar asesoría y formación a personas y empresas en estos temas.