{"id":90588,"date":"2008-12-12T00:00:00","date_gmt":"2008-12-12T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/acousting-modeling-advances-for-speech-recognition\/"},"modified":"2008-12-12T00:00:00","modified_gmt":"2008-12-12T00:00:00","slug":"acousting-modeling-advances-for-speech-recognition","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/tecnologia-de-las-telecomunicaciones\/acousting-modeling-advances-for-speech-recognition\/","title":{"rendered":"Acousting modeling advances for speech recognition"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Antonio Miguel Artiaga <\/strong><\/h2>\n<p>Esta tesis estudia una serie de contribuciones al modelado ac\u00fastico en reconocimiento de voz. Se consideran tres aspectosfundamentales: el proceso de extracci\u00f3n de caracter\u00edsticas de la voz, las estructuras de variable oculta en los modelos y lasdistribuciones del proceso de emisi\u00f3n de observaciones. Estos aspectos han de considerarse de forma conjunta para conseguir buenasprestaciones a nivel ac\u00fastico y construir sistemas que puedan ser robustos a distorsiones de ruido y capaces de adaptarse a m\u00faltiplessituaciones y locutores. Por lo tanto, se ha estructurado la tesis en tres partes.En l\u00e1 primera parte, se describe el proceso de extracci\u00f3n de caracter\u00edsticas y se presentan ciertas modificaciones para conseguircaracter\u00edsticas a partir de proyecciones locales en frecuencia. El objetivo de las caracter\u00edsticas locales en frecuencia es evitar la altasensibilidad al ruido de ancho de banda estrecho que tienen las proyecciones en los sistemas de referencia. Adem\u00e1s en la primeraparte se discuten algunos mecanismos para optimizar los conjuntos de caracter\u00edsticas de voz gracias a dos m\u00e9todos. El primeroconsiste en usar proyecciones lineales discriminativas, que permitan encontrar subespacios de menor tama\u00f1o, en los que se conservela separaci\u00f3n de clases al m\u00e1ximo. El segundo m\u00e9todo es la selecci\u00f3n de caracter\u00edsticas, cuyo objetivo es encontrar un subconjuntode caracter\u00edsticas para el cual podamos obtener alguna propiedad deseada. El ejemplo que se presenta, est\u00e1 basado en la medida de lainformaci\u00f3n mutua entre las caracter\u00edsticas y etiquetas de clase y est\u00e1 orientado a reducir la sensibilidad al desajuste entre modelos ycondiciones ruidosas. Estas t\u00e9cnicas, adem\u00e1s, son mejoradas introduciendo el concepto de reducci\u00f3n de errores, que se puedeconseguir usando t\u00e9cnicas de vectores soporte, similares a las utilizadas en la optimizaci\u00f3n \u00ablarge margin\u00bb.En la segunda parte de la tesis se propone una modificaci\u00f3n de la estructura de variable oculta en los modelos de referencia.La modificaci\u00f3n implica el a\u00f1adido de una nueva variable oculta, para capturar parte de la variabilidad del problema que no erasatisfactoriamente resuelto por los modelos anteriores en situaciones de desajuste. Entonces, existe un nuevo grado de libertad en losmodelos que se basa en un conjunto de transformaciones de la se\u00f1al de voz, conocidas a priori. El objetivo de las transformacionesde los modelos es inicialmente la t\u00e9cnica de la normalizaci\u00f3n del tracto vocal, que permite construir modelos capaces de adaptarse alocutores diferentes a los del entrenamiento o a pronunciaciones con problemas de dicci\u00f3n. Adem\u00e1s, los modelos aumentados se hanprobado en otro tipo de aplicaci\u00f3n, esta vez orientada a la compensaci\u00f3n del ruido. En la tesis se muestra que el marco generalpresentado para estos modelos, basado en matrices de transformaci\u00f3n lineal insertadas en la estructura de variable oculta aumentada,puede usarse para reducir el impacto en las prestaciones de las distorsiones del ruido y del canal.En la tercera parte se estudian dos modificaciones a la distribuci\u00f3n del proceso de emisi\u00f3n de observaciones en los estados de losmodelos. La primera es el uso de distribuciones de gaussianas generalizadas, que han sido usadas anteriormente en otros tipos deaplicaci\u00f3n. Se muestra c\u00f3mo las gaussianas generalizadas pueden modelar con una precisi\u00f3n mayor las observaciones de voz, ya quetienen un par\u00e1metro de forma, que permite controlar la kurtosis de la distribuci\u00f3n de una forma sencilla. En la tesis se muestra unm\u00e9todo para usar distribuciones multivariadas de este tipo y c\u00f3mo incluirlas en mezclas de distribuciones u otras estructuras devariable oculta. Adem\u00e1s, se muestra c\u00f3mo realizar una rotaci\u00f3n de los datos, de tal manera que podamos considerar las prestacionesde la distribuci\u00f3n equivalentes a las de las gaussianas con matriz de covarianzas completa. El segundo tipo de distribuci\u00f3n consisteen la cuantificaci\u00f3n de los vectores de caracter\u00edsticas y modelarlos con variables aleatorias discretas multivariadas. Ya que ladistribuci\u00f3n conjunta no es asumible, se propone una t\u00e9cnica de factorizaci\u00f3n que completa t\u00e9cnicas previas. Las factorizaciones sebasan en grafos ac\u00edcliclos con un n\u00famero limitado de padres por nodo. En la tesis se muestra que los modelos son eficientes en costecomputacional, ancho de banda requerido y robustez al ruido, especialmente en condiciones de entrenamiento y reconocimiento con desajuste.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Acousting modeling advances for speech recognition<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Acousting modeling advances for speech recognition <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Antonio Miguel Artiaga <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Zaragoza<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 12\/12\/2008<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Eduardo Lleida Solano<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: climent Nadeu camprubi <\/li>\n<li>Luis Buera rodriguez (vocal)<\/li>\n<li>Jos\u00e9 Carlos Segura luna (vocal)<\/li>\n<li>alfons Juan  ciscar (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Antonio Miguel Artiaga Esta tesis estudia una serie de contribuciones al modelado ac\u00fastico en reconocimiento de voz. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[2489,13610],"tags":[144851,187924,30527,4155,30793,136305],"class_list":["post-90588","post","type-post","status-publish","format-standard","hentry","category-tecnologia-de-las-telecomunicaciones","category-zaragoza","tag-alfons-juan-ciscar","tag-antonio-miguel-artiaga","tag-climent-nadeu-camprubi","tag-eduardo-lleida-solano","tag-jose-carlos-segura-luna","tag-luis-buera-rodriguez"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/90588","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=90588"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/90588\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=90588"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=90588"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=90588"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}