{"id":65278,"date":"2018-03-09T22:53:21","date_gmt":"2018-03-09T22:53:21","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/intra-lingual-and-cross-lingual-voice-conversion-using-harmonic-plus-stochastic-models\/"},"modified":"2018-03-09T22:53:21","modified_gmt":"2018-03-09T22:53:21","slug":"intra-lingual-and-cross-lingual-voice-conversion-using-harmonic-plus-stochastic-models","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/tecnologia-de-las-telecomunicaciones\/intra-lingual-and-cross-lingual-voice-conversion-using-harmonic-plus-stochastic-models\/","title":{"rendered":"Intra-lingual and cross-lingual voice conversion using harmonic plus stochastic models"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Daniel Erro Eslava <\/strong><\/h2>\n<p>Dentro de las tecnolog\u00edas del habla, la conversi\u00f3n de voz consiste en transformar la voz de un hablante, llamado hablante origen, de tal modo que los  oyentes la perciban como si fuera la de otro hablante, llamado hablante objetivo. Aunque los rasgos de la voz dependientes del hablante son diversos,  la conversi\u00f3n de voz se aplica especialmente a los de naturaleza ac\u00fastica, es decir, los rasgos espectrales y los de frecuencia fundamental. Las  aplicaciones de la conversi\u00f3n de voz son m\u00faltiples, siendo la m\u00e1s destacada permitir a los sistemas de s\u00edntesis de voz generar habla con diferentes  voces sin necesidad de disponer de grandes bases de datos asociadas a cada una de ellas. El prop\u00f3sito de la presente tesis es dotar a los sistemas  de conversi\u00f3n de voz de una mayor calidad y versatilidad que la que actualmente tienen.    como primer paso para la realizaci\u00f3n del presente trabajo de investigaci\u00f3n, se ha desarrollado un sistema de an\u00e1lisis, modificaci\u00f3n y s\u00edntesis de voz  basado en el modelo arm\u00f3nico-estoc\u00e1stico de se\u00f1al. La primera de las contribuciones contenidas en esta tesis son nuevos m\u00e9todos que operan sobre  los par\u00e1metros de dicho modelo y que sirven para la modificaci\u00f3n pros\u00f3dica de la se\u00f1al de voz y para la concatenaci\u00f3n de fragmentos. A diferencia de  otras alternativas existentes, estos m\u00e9todos no requieren tomar como referencia puntos de se\u00f1al sincronizados con su per\u00edodo fundamental. Por lo  tanto, permiten un an\u00e1lisis inicial m\u00e1s flexible y resuelven eficazmente los problemas de fase que se derivan de \u00e9l. Con el fin de demostrar la validez  del nuevo modelo y sus algoritmos asociados para s\u00edntesis de voz, requisito previo para proceder a convertir voces, se compara con td-psola, que a  lo largo de los a\u00f1os se ha consolidado como la t\u00e9cnica m\u00e1s recurrida en el mundo de la s\u00edntesis de voz, en condiciones de modificaci\u00f3n pros\u00f3dica  fuerte, resultando que los oyentes prefieren mayoritariamente el primero.    la primera limitaci\u00f3n encontrada en los sistemas de conversi\u00f3n de voz actuales es el hecho de que convertir una voz en otra significa manipular la  se\u00f1al en una cierta medida, lo cual acarrea un deterioro en su calidad. De este modo, los diferentes m\u00e9todos de conversi\u00f3n existentes presentan un  compromiso entre el grado de conversi\u00f3n alcanzado y la calidad de las se\u00f1ales convertidas. En esta tesis, partiendo de un sistema propio del estado  del arte actual basado en transformaciones lineales y modelos estad\u00edsticos de mezclas gaussianas, se propone un nuevo m\u00e9todo de conversi\u00f3n  llamado weighted frequency warping, que consiste en combinar el m\u00e9todo anterior con la t\u00e9cnica conocida como frequency warping, que se  caracteriza por ser respetuosa con la calidad de la se\u00f1al. El nuevo m\u00e9todo es sometido a la evaluaci\u00f3n subjetiva de varios oyentes, encargados de  puntuar tanto el parecido entre voces convertidas y voces objetivo como la calidad de las se\u00f1ales convertidas resultantes, en una escala de 5 posibles  valores. Se concluye que el nuevo m\u00e9todo es capaz de incrementar la calidad en m\u00e1s de 0.5 puntos con respecto al sistema de partida, mientras que  los resultados de conversi\u00f3n experimentan un leve descenso de menos de 0.1 puntos. La puntuaci\u00f3n en calidad supera los 3.5 puntos, lo cual es  altamente destacable. Tras participar en una evaluaci\u00f3n p\u00fablica a nivel internacional, se observa que los resultados obtenidos gracias al nuevo m\u00e9todo  son muy buenos con respecto al resto de competidores.    la versatilidad de los sistemas de conversi\u00f3n actuales viene limitada por los requerimientos para poder estimar funciones de transformaci\u00f3n  adecuadas a partir de los datos de entrenamiento. Muchos de los sistemas existentes necesitan ser entrenados con frases iguales pronunciadas por  los dos locutores implicados. Aunque durante los \u00faltimos a\u00f1os se han propuesto t\u00e9cnicas que permiten entrenar los sistemas en ausencia de frases  paralelas, algunas de ellas compatibles con contextos multiling\u00ed\u00bces, el rendimiento del sistema resultante se ve perjudicado. Se propone aqu\u00ed una  nueva t\u00e9cnica iterativa para alinear tramas sonoras de frases pronunciadas por distintos hablantes, que tiene como ventaja principal el hecho de  considerar solamente aspectos ac\u00fasticos de la se\u00f1al y no informaci\u00f3n extra de tipo ling\u00ed\u00bc\u00edstico o fon\u00e9tico. Los experimentos presentados confirman que  la nueva t\u00e9cnica de alineamiento permite obtener unos resultados de conversi\u00f3n y calidad muy similares a los del sistema entrenado en condiciones  ideales. Asimismo, se prueba que la misma t\u00e9cnica puede ser aplicada cuando los idiomas origen y objetivo son distintos, con un ligero deterioro en el  rendimiento del sistema. Se incluyen los excelentes resultados alcanzados en una evaluaci\u00f3n p\u00fablica internacional por un sistema de conversi\u00f3n de  voz basado en weighted frequency warping que incorpora la nueva t\u00e9cnica de alineamiento.    finalmente, el sistema de conversi\u00f3n de voz desarrollado es aplicado a la creaci\u00f3n de un sistema de s\u00edntesis de voz multi-hablante. Se realizan  experimentos perceptuales para la evaluaci\u00f3n de dicho sistema en cuanto a conversi\u00f3n y calidad.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Intra-lingual and cross-lingual voice conversion using harmonic plus stochastic models<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Intra-lingual and cross-lingual voice conversion using harmonic plus stochastic models <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Daniel Erro Eslava <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de catalunya<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 16\/06\/2008<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Mar\u00eda Asunci\u00f3n Moreno Bilbao<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: Antonio Bonafonte c\u00e1vez <\/li>\n<li>inmaculada Hern\u00e1ez rioja (vocal)<\/li>\n<li>xavier Serra casals (vocal)<\/li>\n<li>eduardo Rodr\u00edguez banga (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Daniel Erro Eslava Dentro de las tecnolog\u00edas del habla, la conversi\u00f3n de voz consiste en transformar la [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[15596,2489],"tags":[45785,143980,40492,52807,15976,38388],"class_list":["post-65278","post","type-post","status-publish","format-standard","hentry","category-politecnica-de-catalunya","category-tecnologia-de-las-telecomunicaciones","tag-antonio-bonafonte-cavez","tag-daniel-erro-eslava","tag-eduardo-rodriguez-banga","tag-inmaculada-hernaez-rioja","tag-maria-asuncion-moreno-bilbao","tag-xavier-serra-casals"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/65278","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=65278"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/65278\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=65278"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=65278"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=65278"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}