{"id":97409,"date":"2018-03-11T10:17:55","date_gmt":"2018-03-11T10:17:55","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/categorizacion-semisupervisada-de-documentos-usando-la-web-como-corpus\/"},"modified":"2018-03-11T10:17:55","modified_gmt":"2018-03-11T10:17:55","slug":"categorizacion-semisupervisada-de-documentos-usando-la-web-como-corpus","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/inteligencia-artificial\/categorizacion-semisupervisada-de-documentos-usando-la-web-como-corpus\/","title":{"rendered":"Categorizaci\u00f3n semisupervisada de documentos usando la web como corpus"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Rafael Guzm\u00e1n Cabrera <\/strong><\/h2>\n<p>La mayor\u00eda de los m\u00e9todos para la categorizaci\u00f3n autom\u00e1tica de documentos est\u00e1 basada en t\u00e9cnicas de aprendizaje supervisado y por consecuencia, tienen el problema de requerir un gran n\u00famero de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo m\u00e9todo semi-supervisado para la categorizaci\u00f3n de documentos, el cual considera la extracci\u00f3n autom\u00e1tica de ejemplos no etiquetados de la web y su incorporaci\u00f3n al conjunto de entrenamiento. Los ejemplos no etiquetados que se incorporan al conjunto de entrenamiento son seleccionados por medio de un m\u00e9todo basado en aprendizaje autom\u00e1tico. Este modelo incremental permite la selecci\u00f3n s\u00f3lo de los mejores ejemplos no etiquetados en cada iteraci\u00f3n. Sin embargo, en algunos dominios esta t\u00e9cnica no permite mejorar la precisi\u00f3n de clasificaci\u00f3n, principalmente cuando los datos etiquetados son dispersos. esto es, entre m\u00e1s relaci\u00f3n tengan los ejemplos etiquetados con la categor\u00eda a la que pertenecen, mejores resultados se obtendr\u00e1n con este m\u00e9todo. \u00e9ste es independiente del dominio y del lenguaje, su funcionamiento resulta m\u00e1s adecuado en aquellos escenarios en los cuales no se cuenta con suficientes instancias de entrenamiento manualmente etiquetadas. La evaluaci\u00f3n experimental del m\u00e9todo se llev\u00f3 a cabo con tres experimentos de categorizaci\u00f3n de documentos tanto tem\u00e1tica (utilizando colecciones con diferentes caracter\u00edsticas de documentos, como son: muy pocos ejemplos de entrenamiento y un alto grado de traslape) as\u00ed como no tem\u00e1tica (tarea de atribuci\u00f3n de autor\u00eda). Un cuarto experimento se llev\u00f3 a cabo para la tarea de la desambiguaci\u00f3n dellenguaje sentido de las palabras. Los resultados obtenidos en cada uno de estos experimentos nos permiten ver la efectividad de incorporar datos no etiquetados descargados de la web al conjunto de entrenamiento.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Categorizaci\u00f3n semisupervisada de documentos usando la web como corpus<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Categorizaci\u00f3n semisupervisada de documentos usando la web como corpus <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Rafael Guzm\u00e1n Cabrera <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de Valencia<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 24\/11\/2009<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Paolo Rosso<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: manuel Palomar sanz <\/li>\n<li>Luis Villase\u00f1or pineda (vocal)<\/li>\n<li>grigori Sidorov (vocal)<\/li>\n<li>paloma Martinez fernandez (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Rafael Guzm\u00e1n Cabrera La mayor\u00eda de los m\u00e9todos para la categorizaci\u00f3n autom\u00e1tica de documentos est\u00e1 basada en [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[13880,2528,16820],"tags":[199617,199616,37679,62933,86707,199615],"class_list":["post-97409","post","type-post","status-publish","format-standard","hentry","category-informatica","category-inteligencia-artificial","category-politecnica-de-valencia","tag-grigori-sidorov","tag-luis-villasenor-pineda","tag-manuel-palomar-sanz","tag-paloma-Martinez-fernandez","tag-paolo-rosso","tag-rafael-guzman-cabrera"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/97409","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=97409"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/97409\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=97409"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=97409"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=97409"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}