{"id":93061,"date":"2018-03-11T10:12:18","date_gmt":"2018-03-11T10:12:18","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/analisis-y-clasificacion-automatica-de-audio-para-el-diseno-de-un-sistema-de-segmentacion-y-codificacion-inteligente-de-audio\/"},"modified":"2018-03-11T10:12:18","modified_gmt":"2018-03-11T10:12:18","slug":"analisis-y-clasificacion-automatica-de-audio-para-el-diseno-de-un-sistema-de-segmentacion-y-codificacion-inteligente-de-audio","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/inteligencia-artificial\/analisis-y-clasificacion-automatica-de-audio-para-el-diseno-de-un-sistema-de-segmentacion-y-codificacion-inteligente-de-audio\/","title":{"rendered":"Analisis y clasificaci\u00f3n  autom\u00e1tica de audio para el dise\u00f1o de un sistema de segmentaci\u00f3n y codificaci\u00f3n inteligente de audio"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Jos\u00e9 Enrique Mu\u00f1oz Exp\u00f3sito <\/strong><\/h2>\n<p>El crecimiento exponencial de internet, as\u00ed como los \u00faltimos avances en tecnolog\u00edas de redes y de compresi\u00f3n de datos, han hecho posible el acceso f\u00e1cil a grandes cantidades de informaci\u00f3n. Es m\u00e1s que probable que en un futuro cercano los servicios de m\u00fasica disponibles \u00abon line\u00bb superen en importancia a la acostumbrada distribuci\u00f3n de audio almacenado en soportes f\u00edsicos, como los discos compactos o los dvds. Actualmente, la exploraci\u00f3n y administraci\u00f3n de datos de audio est\u00e1 basada en breves informaciones textuales a\u00f1adidas manualmente a los ficheros, lo que supone el empleo de importantes recursos temporales y humanos. M\u00e1s a\u00fan, esta informaci\u00f3n a menudo resulta incompleta, y en ocasiones ni siquiera est\u00e1 disponible. las t\u00e9cnicas de an\u00e1lisis del contenido tienen como objetivo extraer autom\u00e1ticamente de las se\u00f1ales informaci\u00f3n acerca de su contenido, y han hecho posible un gran n\u00famero de nuevas aplicaciones, como clasificaci\u00f3n y recuperaci\u00f3n de informaci\u00f3n basada en el contenido, segmentaci\u00f3n, tratamiento inteligente de se\u00f1ales, separaci\u00f3n ciega de fuentes, etc. la presente tesis aborda el dise\u00f1o, implementaci\u00f3n y evaluaci\u00f3n de un sistema de an\u00e1lisis de contenido de audio y su aplicaci\u00f3n a la clasificaci\u00f3n autom\u00e1tica de fuentes para el dise\u00f1o de un sistema de segmentaci\u00f3n y codificaci\u00f3n inteligente de audio. Las aplicaciones de un sistema de clasificaci\u00f3n autom\u00e1tica de ficheros de audio incluyen, por ejemplo, organizaci\u00f3n autom\u00e1tica de archivos de sonido, tratamiento inteligente de se\u00f1ales, ecualizaci\u00f3n autom\u00e1tica, asignaci\u00f3n inteligente de ancho de banda, codificaci\u00f3n inteligente de audio, segmentaci\u00f3n de flujos de audio o tratamiento de se\u00f1ales de video basado en su banda sonora. De todas estas aplicaciones, nuestro inter\u00e9s se centrar\u00e1 principalmente en la segmentaci\u00f3n de flujos de audio y su aplicaci\u00f3n a la codificaci\u00f3n inteligente de audio y al tratamiento inteligente de se\u00f1ales. el sistema a desarrollar se basa en las t\u00e9cnicas proporcionadas por el campo del reconocimiento de patrones. De cada se\u00f1al a clasificar se extrae una serie de caracter\u00edsticas, las cuales son tomadas como elementos del vector de caracter\u00edsticas asociado a dicha se\u00f1al. De esta forma, cada se\u00f1al est\u00e1 representada por su vector asociado en el espacio de caracter\u00edsticas, de tantas dimensiones como sea el n\u00famero de caracter\u00edsticas extra\u00eddas. Estos vectores se emplean para entrenar a un clasificador, el cual infiere unas reglas de decisi\u00f3n que aplicar\u00e1 para asignar una clase determinada a un vector entrante de naturaleza desconocida. en previas investigaciones relacionadas se han propuesto numerosas combinaciones de caracter\u00edsticas a extraer (de timbre, perceptivas, estad\u00edsticas) y clasificadores (estad\u00edsticos param\u00e9tricos, estad\u00edsticos no param\u00e9tricos, neuronales, etc.) Para llevar a cabo detecci\u00f3n de audio. Sin embargo, determinados aspectos inherentes al proceso de dise\u00f1o de un sistema de clasificaci\u00f3n autom\u00e1tica de audio han merecido s\u00f3lo escasa atenci\u00f3n hasta el momento. Estos son: creaci\u00f3n de una taxonom\u00eda adecuada, estudio de los problemas que conlleva un elevado n\u00famero de dimensiones en el espacio de caracter\u00edsticas, complejidad de las caracter\u00edsticas, tama\u00f1o de las ventanas, estudio del diferente grado de adecuaci\u00f3n de las caracter\u00edsticas en funci\u00f3n de las clases o g\u00e9neros a clasificar. Parte de la motivaci\u00f3n de la presente tesis ha sido investigar la influencia de algunas de estas cuestiones en la realizaci\u00f3n del sistema. se examinar\u00e1n caracter\u00edsticas ya propuestas y se prestar\u00e1 especial atenci\u00f3n al dise\u00f1o de nuevas caracter\u00edsticas, menos complejas y con mayor capacidad de discriminaci\u00f3n que las tradicionalmente utilizadas. Entre las caracter\u00edsticas que se revisar\u00e1n, se encuentran caracter\u00edsticas ya conocidas y utilizadas en sistemas previos de clasificaci\u00f3n de audio o de detecci\u00f3n del habla, como el centroide espectral, el roll off, el flujo espectral, la envolvente temporal o los mfccs (mel frequency cepstral coefficients). para la etapa de toma de decisi\u00f3n, se evaluar\u00e1n clasificadores cl\u00e1sicos como el clasificador estad\u00edstico param\u00e9trico modelo de mezclas gaussianas (gaussian mixture model, gmm) y el clasificador estad\u00edstico no param\u00e9trico k-vecinos m\u00e1s pr\u00f3ximos (k-nearest neighbor, k-nn), as\u00ed como clasificadores m\u00e1s modernos, como los basados en redes neuronales (neural networks, nn), m\u00e1quinas soporte de vectores (support vector machines, svm), sistemas borrosos (fuzzy systems, fs) y sus derivados, etc. El dise\u00f1o del conjunto de caracter\u00edsticas, as\u00ed como los experimentos de evaluaci\u00f3n de las mismas y de los clasificadores se realizar\u00e1 usando matlab. la \u00faltima fase de la tesis consistir\u00e1 en la implementaci\u00f3n de una aplicaci\u00f3n prototipo para la codificaci\u00f3n de fuentes de audio en formato wav. El programa deber\u00eda ser capaz de extraer las caracter\u00edsticas en tiempo real y de diferenciar m\u00fasica y habla con una precisi\u00f3n elevada (pr\u00f3xima al 90%).<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Analisis y clasificaci\u00f3n  autom\u00e1tica de audio para el dise\u00f1o de un sistema de segmentaci\u00f3n y codificaci\u00f3n inteligente de audio<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Analisis y clasificaci\u00f3n  autom\u00e1tica de audio para el dise\u00f1o de un sistema de segmentaci\u00f3n y codificaci\u00f3n inteligente de audio <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Jos\u00e9 Enrique Mu\u00f1oz Exp\u00f3sito <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Ja\u00e9n<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 29\/04\/2009<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Nicol\u00e1s Ruiz Reyes<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: gregorio Fern\u00e1ndez fern\u00e1ndez <\/li>\n<li>Juan  ram\u00f3n Velasco p\u00e9rez (vocal)<\/li>\n<li>Luis Magdalena layos (vocal)<\/li>\n<li>joaquin Ca\u00f1ada bago (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Jos\u00e9 Enrique Mu\u00f1oz Exp\u00f3sito El crecimiento exponencial de internet, as\u00ed como los \u00faltimos avances en tecnolog\u00edas de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[2528,18923,30901],"tags":[16384,153850,192309,45789,16381,40781],"class_list":["post-93061","post","type-post","status-publish","format-standard","hentry","category-inteligencia-artificial","category-jaen","category-radiodifusion-sonido-y-television","tag-gregorio-fernandez-fernandez","tag-joaquin-canada-bago","tag-jose-enrique-munoz-exposito","tag-juan-ramon-velasco-perez","tag-luis-magdalena-layos","tag-nicolas-ruiz-reyes"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/93061","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=93061"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/93061\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=93061"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=93061"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=93061"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}