Ir arriba

Estudio y comparación de algoritmos de Aprendizaje Reforzado en Espacios Continuos

Se realizará la implementación y evaluación de algoritmos destacados de aprendizaje reforzado, centrándose en aquellos de Espacios Continuos como TD3 (Twin Delayed Deep Deterministic Policy Gradient) y DDPG (Deep Deterministic Policy Gradient) A lo largo de este proceso, se analizará exhaustivamente el rendimiento de estos algoritmos en términos de convergencia, estabilidad y eficiencia en la exploración. El objetivo principal es ofrecer una evaluación comparativa sólida y una comprensión profunda de cómo estos algoritmos se comportan en diferentes entornos.

Alumno

David Cocero Quintanilla

Ofertado en

  • Máster en Ingeniería de Telecomunicación - (MIT)