{"id":61719,"date":"2007-03-12T00:00:00","date_gmt":"2007-03-12T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/normalizacion-y-adaptacion-a-entornos-acusticos-para-la-robustez-en-sistemas-de-reconocimiento-automatico-de-habla\/"},"modified":"2007-03-12T00:00:00","modified_gmt":"2007-03-12T00:00:00","slug":"normalizacion-y-adaptacion-a-entornos-acusticos-para-la-robustez-en-sistemas-de-reconocimiento-automatico-de-habla","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/tecnologia-de-las-telecomunicaciones\/normalizacion-y-adaptacion-a-entornos-acusticos-para-la-robustez-en-sistemas-de-reconocimiento-automatico-de-habla\/","title":{"rendered":"Normalizacion y adaptacion a entornos acusticos para la robustez en sistemas de reconocimiento automatico de habla"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Luis Buera Rodriguez <\/strong><\/h2>\n<p>La tesis doctoral \u00abnormalizaci\u00f3n y adaptaci\u00f3n a entornos ac\u00fasticos para la robustez en sistemas de reconocimiento autom\u00e1tico del habla\u00bb versa sobre el uso de diversas t\u00e9cnicas de robustez ante el entorno ac\u00fastico que comprenden tanto la proyecci\u00f3n de los vectores de caracter\u00edsticas ruidosos sobre el espacio representado por los modelos ac\u00fasticos de referencia, lo que se denomina adaptaci\u00f3n de la se\u00f1al a los modelos ac\u00fasticos, como la transformaci\u00f3n de los propios modelos ac\u00fasticos de referencia acerc\u00e1ndolos al espacio asociado a los vectores de caracter\u00edsticas, tambi\u00e9n conocida como adaptaci\u00f3n de los modelos ac\u00fasticos a la se\u00f1al. En ambos casos se ha trabajado principalmente con t\u00e9cnicas emp\u00edricas no supervisadas, esto es, que no precisan del conocimiento de la trascripci\u00f3n de la se\u00f1al empleada en la fase de entrenamiento. En cuanto a los m\u00e9todos de adaptaci\u00f3n de la se\u00f1al a los modelos ac\u00fasticos, cabe rese\u00f1ar que se ha desarrollado el algoritmo emp\u00edrico multi-environment model-based linear normalization, memlin, que se sustenta en tres aproximaciones, a saber: modelar el espacio limpio y ruidoso con sendas gaussian mixture model, gmm, y asumir que los vectores de caracter\u00edsticas limpio y degradado se relacionan entre s\u00ed a partir de una transformaci\u00f3n lineal de orden uno y pendiente unidad para cada par de gaussianas. Diversas experimentaciones con la bases de datos speechdat car en espa\u00f1ol y aurora 2 demostraron el satisfactorio comportamiento del algoritmo, reduciendo las tasas de error obtenidas previamente con t\u00e9cnicas como multivariate gaussian-based cepstral normalization, ratz, o stereo based piecewise linear compensation for environments, splice. Si se estudia detenidamente la t\u00e9cnica memlin, se puede observar que hay dos estimaciones que afectan en gran medida al comportamiento final del algoritmo. \u00e9stas no son otras que el modelado del espacio de se\u00f1al, que viene dado por la transformaci\u00f3n asociada a cada par de componentes, y el modelado de la probabilidad condicionada entre espacios de se\u00f1al, cuyo reflejo matem\u00e1tico se materializa en la probabilidad a posteriori de la gaussiana del modelo limpio dada la del modelo degradado. en ambas l\u00edneas se ha trabajado a lo largo de esta tesis doctoral. Buscando una transformaci\u00f3n asociada a cada par de gaussianas m\u00e1s realista, se definieron los algoritmos polynomial multi-environment model-based linear normalization, p-memlin, que emplea un polinomio de orden uno cuya pendiente puede ser diferente de la unidad, multi-environment model-based hlstogram normalization, memhin, basada en una funci\u00f3n no lineal obtenida a partir de ecualizaci\u00f3n de histograma y phone dependent multi-environment model-based linear normalization, pd-memlin, que es la versi\u00f3n dependiente del fonema para la t\u00e9cnica memlin. Mediante estas nuevas transformaciones se buscaba transformar no s\u00f3lo las medias de los vectores ac\u00fasticos, sino tambi\u00e9n las varianzas. Las diferentes experimentaciones mostraron una importante mejora por parte del algoritmo pd-memlin, as\u00ed como un interesante comportamiento de las t\u00e9cnicas p-memlin y memhin ante ruidos aditivo. Inicialmente, la probabilidad a posteriori de la gaussiana del modelo limpio dada la del modelo degradado se estimaba mediante un modelo est\u00e1tico independiente del vector ac\u00fastico ruidoso. As\u00ed se hac\u00eda por ejemplo con las t\u00e9cnicas memlin, p-memlin, memhin y pd-memlin. Sin embargo, y apoyado en estudios que desvelaban la fragilidad de la aproximaci\u00f3n considerada, se defini\u00f3 una soluci\u00f3n m\u00e1s realista consistente en modelar los vectores de caracter\u00edsticas ruidosos asociados a cada par de gaussianas mediante una nueva gmm. De este modo, las diferentes experimentaciones mostraron que las correspondientes extensiones de los algoritmos memlin y pd-memlin proporcionan unas muy importantes mejoras en t\u00e9rminos de tasa de error. En cuanto a adaptaci\u00f3n de los modelos ac\u00fasticos a la se\u00f1al, se propuso entrenar una serie de matrices de rotaci\u00f3n para modificar los modelos ac\u00fasticos de referencia. Dichas matrices representan la relaci\u00f3n entre los vectores ac\u00fasticos limpios y los normalizados, siendo \u00e9stos \u00faltimos los obtenidos a partir de cualquiera de las t\u00e9cnicas de compensaci\u00f3n anteriormente mencionadas. Las matrices de rotaci\u00f3n est\u00e1n asociadas igualmente a un par de gaussianas (una del modelo del espacio limpio y otra del modelo del espacio normalizado, que tambi\u00e9n ha sido previamente representado mediante una gmm). La soluci\u00f3n propuesta es h\u00edbrida en tanto que combina un algoritmo de adaptaci\u00f3n de vectores de caracter\u00edsticas con otro de adaptaci\u00f3n de modelos ac\u00fasticos. La experimentaci\u00f3n muestra en este caso una muy significativa mejora para las distintas bases de datos consideradas, aunque el mejor comportamiento se logra con el corpus speechdat car en espa\u00f1ol. En general, todas las t\u00e9cnicas emp\u00edricas poseen una limitaci\u00f3n inherente a ellas mismas, la necesidad de disponer de se\u00f1al est\u00e9reo de entrenamiento para estimar los distintos par\u00e1metros que, posteriormente, se precisan a la hora de compensar los vectores ac\u00fasticos. para eliminar dicha limitaci\u00f3n, se ha propuesto en este trabajo un nuevo proceso de entrenamiento para el algoritmo pd-memlin basado \u00fanicamente en la se\u00f1al degradada. Adem\u00e1s, los correspondientes resultados experimentales con el corpus speechdat car en espa\u00f1ol demostraron que la p\u00e9rdida derivada de emplear s\u00f3lo la se\u00f1al degradada en la fase de entrenamiento no es cr\u00edtica.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Normalizacion y adaptacion a entornos acusticos para la robustez en sistemas de reconocimiento automatico de habla<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Normalizacion y adaptacion a entornos acusticos para la robustez en sistemas de reconocimiento automatico de habla <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Luis Buera Rodriguez <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Zaragoza<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 03\/12\/2007<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Eduardo Lleida Solano<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: climent Nadeu camprubi <\/li>\n<li>doroteo Torre toledano (vocal)<\/li>\n<li>Jos\u00e9 Carlos Segura luna (vocal)<\/li>\n<li>carmen Garc\u00eda mateo (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Luis Buera Rodriguez La tesis doctoral \u00abnormalizaci\u00f3n y adaptaci\u00f3n a entornos ac\u00fasticos para la robustez en sistemas [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[2489,13610],"tags":[22108,30527,135206,4155,30793,136305],"class_list":["post-61719","post","type-post","status-publish","format-standard","hentry","category-tecnologia-de-las-telecomunicaciones","category-zaragoza","tag-carmen-garcia-mateo","tag-climent-nadeu-camprubi","tag-doroteo-torre-toledano","tag-eduardo-lleida-solano","tag-jose-carlos-segura-luna","tag-luis-buera-rodriguez"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/61719","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=61719"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/61719\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=61719"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=61719"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=61719"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}