{"id":114840,"date":"2013-11-11T00:00:00","date_gmt":"2013-11-11T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/channel-selection-and-reverberation-robust-automatic-speech-recognition\/"},"modified":"2013-11-11T00:00:00","modified_gmt":"2013-11-11T00:00:00","slug":"channel-selection-and-reverberation-robust-automatic-speech-recognition","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/tecnologia-de-las-telecomunicaciones\/channel-selection-and-reverberation-robust-automatic-speech-recognition\/","title":{"rendered":"Channel selection and reverberation-robust automatic speech recognition"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Martin Wolf <\/strong><\/h2>\n<p>Los actuales sistemas de reconocimiento del habla muestran a menudo una tasa de error aceptable si la voz es registrada por micr\u00f3fonos pr\u00f3ximos a la boca del hablante, en un entorno controlado y libre de ruido. Sin embargo, el uso de estos micr\u00f3fonos puede ser demasiado restrictivo en muchas aplicaciones. Alternativamente, se pueden emplear micr\u00f3fonos distantes, los cuales a menudo se ubican a varios metros del hablante. Esta configuraci\u00f3n es menos intrusiva ya que el hablante no tiene que llevar encima ning\u00fan micr\u00f3fono, pero el rendimiento del reconocimiento autom\u00e1tico del habla (asr, del ingl\u00e9s automatic speech recognition) en dicho caso se ve fuertemente afectado por el ruido y la reverberaci\u00f3n. Esta tesis se enfoca a aplicaciones asr en el entorno de una sala, donde la reverberaci\u00f3n es la causa predominante de distorsi\u00f3n y se considera tanto el caso de un solo micr\u00f3fono como el de m\u00faltiples micr\u00f3fonos.    si el habla es grabada en paralelo por varios micr\u00f3fonos distribuidos arbitrariamente en la sala, el grado de distorsi\u00f3n puede variar de un canal a otro. Las diferencias de calidad entre las se\u00f1ales grabadas pueden ser m\u00e1s acentuadas si dichos micr\u00f3fonos muestran diferentes caracter\u00edsticas y colocaciones: unos en las paredes, otros sobre la mesa, u otros integrados en los dispositivos de comunicaci\u00f3n de las personas presentes en la sala. En dicho escenario el sistema asr se puede beneficiar enormemente de la utilizaci\u00f3n de la se\u00f1al con mayor calidad para el reconocimiento. Para hallar dicha se\u00f1al se han propuesto diversas t\u00e9cnicas, denominadas cs (del ingl\u00e9s channel selection), las cuales se discuten detalladament en esta tesis.  de hecho, la selecci\u00f3n de canal busca ranquear las se\u00f1ales conforme a su calidad desde la perspectiva asr. Para crear tal ranquin se necesita una medida que tanto estime la calidad intr\u00ednseca de una se\u00f1al, como lo bien que \u00e9sta se ajusta a los modelos ac\u00fasticos del sistema de reconocimiento. En esta tesis proporcionamos un resumen de las medidas cs hasta ahora presentadas en la literatura, compar\u00e1ndolas experimentalmente. Diversas nuevas t\u00e9cnicas son presentadas que superan las t\u00e9cnicas iniciales en cuanto a exactitud de reconocimiento y\/o eficiencia computacional. Tambi\u00e9n se propone una combinaci\u00f3n de diferentes medidas cs para incrementar la exactitud de reconocimiento, o para reducir la carga computacional sin ninguna p\u00e9rdida significativa de rendimiento. Adem\u00e1s mostramos que la cs puede ser empleada junto con otras t\u00e9cnicas robustas de asr y que las mejoras de reconocimiento son hasta cierto punto acumulativas. Una versi\u00f3n online en tiempo real del m\u00e9todo de selecci\u00f3n de canal basado en la varianza del speech sub-band envelopes, que fue desarrolladas en esta tesis, fue dise\u00f1ada e implementada en una sala inteligente. Reportamos una mejora significativa en el rendimiento del reconocimiento al evaluar experimentalmente grabaciones reales de micr\u00f3fonos no pr\u00f3ximos a la boca con hablantes en movimiento.   la otra contribuci\u00f3n de esta tesis, que no requiere m\u00faltiples micr\u00f3fonos, fue desarrollada en colaboraci\u00f3n con los colegas del departamento de comunicaciones multimedia y procesamiento de se\u00f1ales de la universidad de erlangen-nuremberg, erlangen, alemania. Trata sobre el problema de extracci\u00f3n de  caracter\u00edsticas en remos (del ingl\u00e9s reverberation modeling for speech recognition). Remos es un marco conceptual gen\u00e9rico para el reconocimiento robusto del habla con micr\u00f3fonos lejanos. El uso de los m\u00e9todos convencionales para obtener los elementos decorrelados del vector de caracter\u00edsticas, como la transformada coseno discreta, est\u00e1 limitado por el problema de optimizaci\u00f3n inherente a remos, lo que har\u00eda que, utilizando las herramientas convencionales, se volviese un problema irresoluble en un tiempo razonable. Para resolver este problema hemos desarrollado un nuevo m\u00e9todo de extracci\u00f3n de caracter\u00edsticas basado en filtrado frecuencial.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Channel selection and reverberation-robust automatic speech recognition<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Channel selection and reverberation-robust automatic speech recognition <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Martin Wolf <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de catalunya<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 11\/11\/2013<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Climent Nadeu Camprubi<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: peter Jancovic <\/li>\n<li>Alberto Abad gareta (vocal)<\/li>\n<li>  (vocal)<\/li>\n<li>  (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Martin Wolf Los actuales sistemas de reconocimiento del habla muestran a menudo una tasa de error aceptable [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[15596,2489],"tags":[131498,30527,227468,227469],"class_list":["post-114840","post","type-post","status-publish","format-standard","hentry","category-politecnica-de-catalunya","category-tecnologia-de-las-telecomunicaciones","tag-alberto-abad-gareta","tag-climent-nadeu-camprubi","tag-martin-wolf","tag-peter-jancovic"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/114840","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=114840"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/114840\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=114840"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=114840"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=114840"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}