{"id":113667,"date":"2018-03-11T10:41:14","date_gmt":"2018-03-11T10:41:14","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/speaker-diarization-and-tracking-in-multiple-sensor-environments\/"},"modified":"2018-03-11T10:41:14","modified_gmt":"2018-03-11T10:41:14","slug":"speaker-diarization-and-tracking-in-multiple-sensor-environments","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/tecnologia-de-las-telecomunicaciones\/speaker-diarization-and-tracking-in-multiple-sensor-environments\/","title":{"rendered":"Speaker diarization and tracking in multiple-sensor environments"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Jorge Luque Serrano <\/strong><\/h2>\n<p>Esta tesis resume el trabajo realizado en en el \u00e1rea de reconocimiento de hablantes en condiciones reales tales como reuniones en salas, en conversaciones de calidad telef\u00f3nica y en el dominio de programas de tv y radio.  El principal objetivo se centra en la detecci\u00f3n autom\u00e1tica y clasificaci\u00f3n de hablantes en una sala inteligente.  El reconocimiento autom\u00e1tico del hablante se define como el uso de una m\u00e1quina para identificar a un individuo a trav\u00e9s de su voz. El objetivo es el procesamiento de la se\u00f1al ac\u00fastica para convertirla en descripciones simb\u00f3licas que se correspondan con las identidades de los hablantes. Durante los \u00faltimos a\u00f1os, el reconocimiento del hablante en situaciones reales ha atra\u00eddo una sustancial atenci\u00f3n de los investigadores convirti\u00e9ndose en una de las tecnolog\u00edas del habla capaz de aportar calidad, o enriquecer, las transcripciones de grabaciones de audio. En condiciones reales y en concreto, la actividad humana que tiene lugar en salas de reuniones o clases docentes, comparada con la de otros dominios exhibe una mayor complejidad y es un problema arduo debido a la espontaneidad del habla, los efectos reververantes, la presencia de solapamientos entre locutores, la configuraci\u00f3n de la sala y la varibilidad de canal o la gran cantidad de eventos ac\u00fasticos, tanto producidos por las personas como por objetos. Es evidente que discernir tanto la identidad del hablante como su posici\u00f3n en tiempo puede ayudar a describir la actividad y proporcionar el conocimiento y percepci\u00f3n de la situaci\u00f3n por parte de la m\u00e1quina.  En el inicio se busca la mejora de los sistemas  tradicionales de modelado para las tareas de identificaci\u00f3n y verificaci\u00f3n, basados en modelos de mezcla de gaussianas,  a trav\u00e9s de estrategias de decisi\u00f3n m\u00faltiple y procesamiento multi-canal en salas inteligentes. El estudio se centra en t\u00e9cnicas de variabilidad del hablante y de canal tales como adaptaci\u00f3n maximum a posteriori, proyecciones nuisance attribute, an\u00e1lisis factorial, o normalizaci\u00f3n de puntuaciones; intentando encontrar estrategias para atacar dicha problem\u00e1tica. Adem\u00e1s, se describe un original m\u00e9todo para la tarea de verificaci\u00f3n del hablante que utiliza caracter\u00edsticas adaptadas a trav\u00e9s de un reconocedor autom\u00e1tico del habla.  Una segunda l\u00ednea de investigaci\u00f3n se relaciona con la detecci\u00f3n autom\u00e1tica en audio de m\u00faltiples hablantes, d\u00f3nde tanto su n\u00famero y sus identidades son desconocidas de antemano. En ella se desarrollan y adaptan algunas de las anteriores t\u00e9cnicas a un sistema est\u00e1ndard de diarizaci\u00f3n basado en modelos ocultos de markov y clustering  jer\u00e1rquico aglomerado de los datos. Evaluamos la aplicaci\u00f3n de la din\u00e1mica dada por caracter\u00edsticas basadas en retardos entre sensores (tdoa) con intenci\u00f3n de mejorar el clustering o la detecci\u00f3n y tratamiento de los solapamientos entre hablantes; evaluamos el impacto y las sinergias creadas con tecnolog\u00edas como la detecci\u00f3n del habla y la  detecci\u00f3n de eventos ac\u00fasticos, integr\u00e1ndolas con el diarizador y se propone un nuevo m\u00e9todo basado en clustering espectral. Adem\u00e1s se adapta el sistema de diarizaci\u00f3n tanto para el procesamiento de programas de radio y televisi\u00f3n como para el seguimiento de locutores espec\u00edficos.  A lo largo del trabajo se resalta la fusi\u00f3n y combinaci\u00f3n con las modalidades de v\u00eddeo e imagen, tanto en diarizaci\u00f3n como en seguimiento de hablantes. T\u00e9cnicas basadas en ponderaci\u00f3n seg\u00fan acierto o en filtros de part\u00edculas se proponen para combinar puntuaciones y probabilidades generadas por cada modalidad.   Esta tesis se realiz\u00f3 en el contexto de varios proyectos internacionales y nacionales, entre los que se encuentra el proyecto europeo chil y el proyecto catal\u00e1n tecnoparla; y en la participacion en evaluaciones de tecnolog\u00eda como clear, nist rich transcription (rt), nist speaker recognition evaluation (sre) y la evaluaci\u00f3n espa\u00f1ola albayzin en seguimiento<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Speaker diarization and tracking in multiple-sensor environments<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Speaker diarization and tracking in multiple-sensor environments <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Jorge Luque Serrano <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de catalunya<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 21\/12\/2012<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Francisco Javier Hernando Pericas<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: javier Rodr\u00edguez saeta <\/li>\n<li>roberto Barra chicote (vocal)<\/li>\n<li>  (vocal)<\/li>\n<li>  (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Jorge Luque Serrano Esta tesis resume el trabajo realizado en en el \u00e1rea de reconocimiento de hablantes [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[15596,2489],"tags":[49275,135850,225628,225629],"class_list":["post-113667","post","type-post","status-publish","format-standard","hentry","category-politecnica-de-catalunya","category-tecnologia-de-las-telecomunicaciones","tag-francisco-javier-hernando-pericas","tag-javier-rodriguez-saeta","tag-jorge-luque-serrano","tag-roberto-barra-chicote"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/113667","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=113667"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/113667\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=113667"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=113667"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=113667"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}