{"id":113324,"date":"2018-03-11T10:40:46","date_gmt":"2018-03-11T10:40:46","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/sa%c2%adntesis-de-voz-aplicada-a-la-traduccion-voz-a-voz\/"},"modified":"2018-03-11T10:40:46","modified_gmt":"2018-03-11T10:40:46","slug":"sa%c2%adntesis-de-voz-aplicada-a-la-traduccion-voz-a-voz","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/tecnologia-de-las-telecomunicaciones\/sa%c2%adntesis-de-voz-aplicada-a-la-traduccion-voz-a-voz\/","title":{"rendered":"S\u00edntesis de voz aplicada a la traducci\u00f3n voz a voz"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Pablo Daniel Aguero <\/strong><\/h2>\n<p>Dentro de las tecnolog\u00edas del habla, la conversi\u00f3n texto a voz consiste en la generaci\u00f3n, por medios autom\u00e1ticos, de una voz artificial que genera id\u00e9ntico sonido al producido por una persona al leer un texto en voz alta. Dentro del proceso de conversi\u00f3n texto a voz el m\u00f3dulo de prosodia es el que genera la informaci\u00f3n pros\u00f3dica para poder producir la voz: frases entonativas, entonaci\u00f3n de la oraci\u00f3n, duraci\u00f3n y energ\u00eda de los fonemas, etc. La correcta generaci\u00f3n de esta informaci\u00f3n repercutir\u00e1 directamente en la naturalidad y expresividad del sistema. El objetivo de la presente tesis es el desarrollo de nuevos algoritmos para el entrenamiento de modelos de generaci\u00f3n de prosodia para la conversi\u00f3n texto a voz, y su aplicaci\u00f3n en el marco de la traducci\u00f3n voz a voz.  En el caso de los algoritmos de modelado de entonaci\u00f3n, en esta tesis se estudiaron alternativas que combinan la parametrizaci\u00f3n y la generaci\u00f3n del modelo de entonaci\u00f3n en un todo integrado. Dicho enfoque ha resultado exitoso tanto en las evaluaciones objetivas como en las subjetivas.   En lo referente al modelado de la duraci\u00f3n se estudi\u00f3 la influencia de los factores segmentales y suprasegmentales en la duraci\u00f3n de los fonemas. Con los resultados de este estudio se propusieron algoritmos que permiten combinar la informaci\u00f3n segmental y suprasegmental para realizar una predicci\u00f3n de la duraci\u00f3n de los fonemas, tal como se propuso en otras publicaciones del tema en cuesti\u00f3n.  Finalmente, tambi\u00e9n se realiz\u00f3 un an\u00e1lisis de diversos modelos de junturas terminales usando tanto palabras como grupos acentuales: \u00e1rboles de clasificaci\u00f3n (cart), modelos de lenguaje (lm) y transductores de estados finitos (fst). La utilizaci\u00f3n del mismo conjunto de datos para los experimentos permiti\u00f3 obtener conclusiones relevantes sobre las diferencias de los diferentes modelos.  Uno de los objetivos de esta tesis era mejorar la naturalidad, expresividad y consistencia con el estilo del hablante fuente de la conversi\u00f3n texto a voz utilizando la prosodia del hablante fuente disponible en el proceso de traducci\u00f3n voz a voz como informaci\u00f3n adicional. Por ello se han desarrollado una serie de algoritmos para la generaci\u00f3n de la prosodia que permiten la integraci\u00f3n de la informaci\u00f3n adicional en la predicci\u00f3n de la entonaci\u00f3n, la duraci\u00f3n de los fonemas y la ubicaci\u00f3n de junturas terminales.  En ese sentido esta tesis explor\u00f3 diferentes enfoques para la transferencia de la entonaci\u00f3n de un idioma a otro. Se decidi\u00f3 la utilizaci\u00f3n de un enfoque de agrupamiento autom\u00e1tico que permite encontrar un cierto n\u00famero de tipos de movimientos tonales relacionados en los dos idiomas sin utilizar ninguna suposici\u00f3n acerca de su n\u00famero. De esta manera, es posible utilizar esta codificaci\u00f3n para el modelado de la entonaci\u00f3n del idioma destino. Los resultados experimentales demostraron la mejora introducida, que es importante en idiomas cercanos, tales como el espa\u00f1ol y el catal\u00e1n.  Si bien se decidi\u00f3 no realizar una transferencia de la duraci\u00f3n segmental entre idiomas, en esta tesis se propuso transferir el ritmo del idioma origen al destino. Para ello se propuso un m\u00e9todo que combina la transferencia del ritmo y la sincronizaci\u00f3n entre audios. Este \u00faltimo aspecto fue considerado debido al uso de la tecnolog\u00eda de traducci\u00f3n voz a voz en conjunci\u00f3n con video.   Por \u00faltimo, en esta tesis tambi\u00e9n se propuso una t\u00e9cnica de transferencia de pausas en el marco de la traducci\u00f3n voz a voz, mediante la utilizaci\u00f3n de informaci\u00f3n sobre alineamiento. El estudio de los datos de entrenamiento arroj\u00f3 como resultado la ventaja del uso de las tuplas para dicha tarea. Para compensar aquellas pausas que no pueden ser transferidas, estas se predicen utilizando algoritmos convencionales (cart, cart+lm, fst), teniendo en cuenta las pausas ya predichas mediante la transferencia de pausas entre idiomas.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>S\u00edntesis de voz aplicada a la traducci\u00f3n voz a voz<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 S\u00edntesis de voz aplicada a la traducci\u00f3n voz a voz <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Pablo Daniel Aguero <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de catalunya<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 23\/10\/2012<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Antonio Bonafonte C\u00e1vez<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: Mar\u00eda asunci\u00f3n Moreno bilbao <\/li>\n<li>david Escudero mancebo (vocal)<\/li>\n<li>  (vocal)<\/li>\n<li>  (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Pablo Daniel Aguero Dentro de las tecnolog\u00edas del habla, la conversi\u00f3n texto a voz consiste en la [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[15596,2489],"tags":[45785,61100,15976,225104],"class_list":["post-113324","post","type-post","status-publish","format-standard","hentry","category-politecnica-de-catalunya","category-tecnologia-de-las-telecomunicaciones","tag-antonio-bonafonte-cavez","tag-david-escudero-mancebo","tag-maria-asuncion-moreno-bilbao","tag-pablo-daniel-agaero"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/113324","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=113324"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/113324\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=113324"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=113324"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=113324"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}