{"id":104079,"date":"2010-04-10T00:00:00","date_gmt":"2010-04-10T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/combinacion-de-clasificadores-construccion-de-caractera%c2%adsticas-e-incremento-de-la-diversidad\/"},"modified":"2010-04-10T00:00:00","modified_gmt":"2010-04-10T00:00:00","slug":"combinacion-de-clasificadores-construccion-de-caractera%c2%adsticas-e-incremento-de-la-diversidad","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/analisis-de-datos\/combinacion-de-clasificadores-construccion-de-caractera%c2%adsticas-e-incremento-de-la-diversidad\/","title":{"rendered":"Combinaci\u00f3n de clasificadores: construcci\u00f3n de caracter\u00edsticas e incremento de la diversidad"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Jes\u00fas Manuel Maudes Raedo <\/strong><\/h2>\n<p>Los multiclasificadores o ensembles son actualmente un \u00e1rea de inter\u00e9s dentro del reconocimiento de patrones. En esta tesis se presentan fundamentalmente tres m\u00e9todos multiclasificadores:  1) el primer m\u00e9todo: \u00abcascadas para datos nominales\u00bb construye nuevas caracter\u00edsticas num\u00e9ricas en conjuntos de datos nominales, permitiendo que dichos datos puedan ser utilizados de forma adecuada por clasificadores que requieran entradas num\u00e9ricas. La construcci\u00f3n de nuevas caracter\u00edsticas se hace mediante las predicciones hechas por otro clasificador, dando as\u00ed lugar a una configuraci\u00f3n de cascada. Este tipo de cascada es un tipo de clasificador de los que en la tesis se denomina de \u00abdos niveles\u00bb. En el nivel inferior est\u00e1 el clasificador que construye las caracter\u00edsticas y en el superior el clasificador que las utiliza como entradas. El clasificador de nivel inferior ha de poder tratar directamente con datos nominales, como por ejemplo ser\u00eda capaz un \u00e1rbol de decisi\u00f3n. La salida del clasificador de nivel inferior es un vector de probabilidades, cuyas componentes expresan la probabilidad de que la instancia pertenezca a cada una de las clases.  el m\u00e9todo ha sido probado experimentalmente utilizando un \u00e1rboles de decisi\u00f3n c4.5 en el nivel inferior y un svm de kernel lineal en el nivel superior, mejorando los resultados respecto a estos clasificadores en solitario y otras posibles configuraciones de clasificadores de dos niveles, como por ejemplo stacking y grading.  2) el segundo m\u00e9todo: \u00abdisturbing neighbors\u00bb o dn sirve para hacer que los clasificadores base pertenecientes a un multiclasificador sean m\u00e1s diversos, mejorando as\u00ed en la tasa de acierto de sus predicciones. La diversidad es una medida de lo distintas que son las predicciones de los clasificadores base. Si las predicciones de \u00e9stos siempre coincidieran, no tendr\u00eda sentido combinarlos en un multiclasificador. Dn perturba el entrenamiento de los clasificadores base mediante la construcci\u00f3n de un peque\u00f1o conjunto de caracter\u00edsticas adicionales. Estas caracter\u00edsticas proceden de un clasificador de tipo 1-nn construido con un n\u00famero muy reducido de vecinos elegidos al azar. Estos vecinos son distintos para clasificador base, y adem\u00e1s cada 1-nn s\u00f3lo toma en cuenta una parte de las dimensiones del problema (tambi\u00e9n seleccionadas aleatoriamente) a la hora de calcular las distancias euclideas. La salida de cada 1-nn es su predicci\u00f3n junto un vector booleano que expresa a qu\u00e9 region de voronoi pertenece la instancia. Todo ello, permite construir 1-nn distintos, y por tanto clasificadores base distintos.  dn ha sido probado en multiclasificadores que utilizaron como clasificadores base svm y \u00e1rboles de decisi\u00f3n c4.5, si bien admite cualquier otro m\u00e9todo base. Dn puede utilizarse adem\u00e1s en muchos multiclasificadores del estado del arte como bagging, boosting o random subspaces, mejorando experimentalmente los resultados respecto de la versi\u00f3n pura.  la tesis incorpora un an\u00e1lisis de lesiones que pone de manifiesto que el vector de booleanos que representa la pertenencia de las instancias a las regiones de voronoi es el ingrediente esencial del m\u00e9todo.  3) el tercer m\u00e9todo: \u00abrandom feature weights\u00bb o rfw, es un m\u00e9todo que como el anterior debe su \u00e9xito a una mejora en la diversidad, pero que sin embargo \u00fanicamente puede utilizarse con multiclasificadores basados en \u00e1rboles de decisi\u00f3n. Los \u00e1rboles de decisi\u00f3n deciden el atributo por el que bifurcar cada nodo a partir del resultado de una funci\u00f3n de m\u00e9rito, que por ejemplo en el caso de los \u00e1rboles c4.5 est\u00e1 basado en la ganancia de informaci\u00f3n; de manera que en cada nodo se elige el atributo que presenta mejor valor para la funci\u00f3n de m\u00e9rito. Rfw multiplica por un n\u00famero aleatorio distinto a la salida de la funci\u00f3n de m\u00e9rito correspondiente a cada atributo, con lo que influye en el proceso de construcci\u00f3n del \u00e1rbol. El n\u00famero aleatorio por el que se multiplica la funci\u00f3n de m\u00e9rito de cada atributo es el mismo para todos los nodos del \u00e1rbol y se eleva a un exponente que es el \u00fanico par\u00e1metro del m\u00e9todo. Cuanto mayor es el exponente m\u00e1s se altera el proceso normal de construcci\u00f3n del \u00e1rbol.  la combinaci\u00f3n de este tipo de \u00e1rboles mediante un simple esquema de voto por mayor\u00eda ya permite experimentalmente obtener unos resultados competitivos con otros multiclasificadores del estado del arte como random forests, random subspaces, bagging y boosting. Adem\u00e1s el m\u00e9todo es significativamente mejor que casi todos estos m\u00e9todos cuando a los datos de la validaci\u00f3n experimental se les introduce ruido artificial.  rfw s\u00f3lo act\u00faa sobre la construcci\u00f3n de los \u00e1rboles, por lo que puede ser utilizado como parte del esquema de combinaci\u00f3n de los mismos multiclasificadores contra los que ha competido en la validaci\u00f3n experimental anteriormente referida, mejorando generalmente la versi\u00f3n con rfw a la versi\u00f3n pura.  adem\u00e1s de los tres m\u00e9todos propuestos, la tesis aporta dos nuevos tipos de diagramas para representar la posible ganancia de diversidad y\/o acierto de los clasificadores base de dos multiclasificadores que se quieran comparar. Estos diagramas son los diagramas de movimiento kappa-error y los diagramas de movimiento relativo kappa-error.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Combinaci\u00f3n de clasificadores: construcci\u00f3n de caracter\u00edsticas e incremento de la diversidad<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Combinaci\u00f3n de clasificadores: construcci\u00f3n de caracter\u00edsticas e incremento de la diversidad <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Jes\u00fas Manuel Maudes Raedo <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Burgos<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 04\/10\/2010<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Juan  Jos\u00e9 Rodr\u00edguez Diez<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: pedro Larra\u00f1aga mugica <\/li>\n<li>nicol\u00e1s Garc\u00eda pedrajas (vocal)<\/li>\n<li>colin Fyfe (vocal)<\/li>\n<li>Carlos Javier Alonso gonzalez (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Jes\u00fas Manuel Maudes Raedo Los multiclasificadores o ensembles son actualmente un \u00e1rea de inter\u00e9s dentro del reconocimiento [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[2207,37674,2528],"tags":[210526,210525,210524,155784,38081,45386],"class_list":["post-104079","post","type-post","status-publish","format-standard","hentry","category-analisis-de-datos","category-burgos","category-inteligencia-artificial","tag-carlos-javier-alonso-gonzalez","tag-colin-fyfe","tag-jesus-manuel-maudes-raedo","tag-juan-jose-rodriguez-diez","tag-nicolas-garcia-pedrajas","tag-pedro-larranaga-mugica"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/104079","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=104079"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/104079\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=104079"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=104079"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=104079"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}