{"id":110163,"date":"2018-03-11T10:36:04","date_gmt":"2018-03-11T10:36:04","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/q-learning-with-a-degenerate-function-approximation\/"},"modified":"2018-03-11T10:36:04","modified_gmt":"2018-03-11T10:36:04","slug":"q-learning-with-a-degenerate-function-approximation","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/politecnica-de-catalunya\/q-learning-with-a-degenerate-function-approximation\/","title":{"rendered":"Q-learning with a degenerate function approximation"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Alejandro Gabriel Agostini <\/strong><\/h2>\n<p>En esta tesis proponemos una estrategia de generalizaci\u00c2\u00bfon para aprendizaje por refuerzo en entornos continuos que, en lugar de usar un solo aproximador de funciones, prueba m\u00c2\u00bfultiples aproximadores de funciones en paralelo, cada uno definido en una regi\u00c2\u00bfon diferente del dominio, que compiten para proveer la inferencia en un punto dado. El uso de una estrategia competitiva incrementa las oportunidades de tener un buen aproximador entre los que compiten, evitando la restricci\u00c2\u00bfon de estar supeditado a el desempe \u00c2\u00bfno de un solo aproximador. La estrategia propuesta permite reducir el n\u00c2\u00bfumero de experiencias necesarias para la convergencia y conseguir una convergencia m\u00c2\u00bfas estable con respecto a la que se obtiene usando un solo aproximador. La reducci\u00c2\u00bfon en el n\u00c2\u00bfumero de experiencias se debe a que, en cada punto evaluado, en general existe un aproximador dentro de los que compiten que generaliza mejor que un aproximador \u00c2\u00bfunico y global. La convergencia m\u00c2\u00bfas estable se debe a que, si la aproximaci\u00c2\u00bfon de un aproximador se degrada, \u00c2\u00bfeste ser\u00c2\u00bfa respaldado por otro aproximador que normalmente tendr\u00c2\u00bfa mejor desempe\u00c2\u00bfno, manteniendo un buen desempe\u00c2\u00bfno global del sistema. para la selecci\u00c2\u00bfon del mejor aproximador en un punto el m\u00c2\u00bfetodo asocia a cada aproximador una funci\u00c2\u00bfon de relevancia que cuantifica la calidad de su aproximaci\u00c2\u00bfon en el punto dado. El aproximador con mayor relevancia en el punto es seleccionado para la inferencia. La funci\u00c2\u00bfon de relevancia se define usando una estimaci\u00c2\u00bfon param\u00c2\u00bfetrica de la varianza muestral y una estimaci\u00c2\u00bfon param\u00c2\u00bfetrica de la densidad muestral en el dominio, las cuales se usan para cuantificar la precisi\u00c2\u00bfon y la confianza en la aproximaci\u00c2\u00bfon en ese punto, respectivamente. Todas las estimaciones param\u00c2\u00bfetricas involucradas en la competici\u00c2\u00bfon, i.E. La recompensa acumulada, la varianza muestral y la densidad muestral en el dominio, se obtienen de un modelo de densidad de probabilidad definido en el espacio conjunto entrada-salida de cada aproximador. De este modelo de densidad conjunta es posible obtener la distribuci\u00c2\u00bfon de probabilidad de la recompensa acumulada condicionada a una situaci\u00c2\u00bfon y una acci\u00c2\u00bfon. De este distribuci\u00c2\u00bfon podemos obtener una estimaci \u00c2\u00bfon del valor esperado de la recompensa acumulada en esa situaci\u00c2\u00bfon y acci\u00c2\u00bfon, la cual se usa como el valor inferido por el aproximador, y la varianza de los valores de recompensa acumulada, usada en la funci\u00c2\u00bfon de relevancia. la densidad muestral en el dominio se obtiene a partir del n\u00c2\u00bfumero de ejemplos recolectados en el dominio del aproximador y de la distribuci\u00c2\u00bfon de probabilidad en el dominio obtenida de la marginalizaci\u00c2\u00bfon de la variable de salida en el modelo de densidad conjunto. El modelo de densidad est\u00c2\u00bfa representado por un modelo de mezclas gaussianas. Los par\u00c2\u00bfametros del modelo se actualizan usando una versi\u00c2\u00bfon incremental del algoritmo de esperanza-maximizaci\u00c2\u00bfon que usa la informaci\u00c2\u00bfon de densidad para producir un olvido basado en la nueva informaci\u00c2\u00bfon provista en lugar del tiempo, previniendo de esta manera la distorsi\u00c2\u00bfon que normalmente ocurre cuando se usa un olvido basado en el tiempo para olvidar las entradas pasadas en la aproximaci\u00c2\u00bfon de una funci\u00c2\u00bfon no estacionaria.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Q-learning with a degenerate function approximation<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Q-learning with a degenerate function approximation <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Alejandro Gabriel Agostini <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de catalunya<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 13\/07\/2011<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Enric Celaya Llover<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: ram\u00f3n L\u00f3pez de m\u00e1ntaras bad\u00eda <\/li>\n<li>cecilio Angulo bahon (vocal)<\/li>\n<li>Luis Montesano del campo (vocal)<\/li>\n<li>justus Piater (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Alejandro Gabriel Agostini En esta tesis proponemos una estrategia de generalizaci\u00c2\u00bfon para aprendizaje por refuerzo en entornos [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[15596],"tags":[220047,79284,43017,220049,220048,14134],"class_list":["post-110163","post","type-post","status-publish","format-standard","hentry","category-politecnica-de-catalunya","tag-alejandro-gabriel-agostini","tag-cecilio-angulo-bahon","tag-enric-celaya-llover","tag-justus-piater","tag-luis-montesano-del-campo","tag-ramon-lopez-de-mantaras-badia"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/110163","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=110163"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/110163\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=110163"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=110163"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=110163"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}