{"id":108587,"date":"2018-03-11T10:33:30","date_gmt":"2018-03-11T10:33:30","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/algoritmos-de-clustering-paralelos-en-sistemas-recuperacion-de-informacion-distribuidos\/"},"modified":"2018-03-11T10:33:30","modified_gmt":"2018-03-11T10:33:30","slug":"algoritmos-de-clustering-paralelos-en-sistemas-recuperacion-de-informacion-distribuidos","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/ciencia-de-los-ordenadores\/algoritmos-de-clustering-paralelos-en-sistemas-recuperacion-de-informacion-distribuidos\/","title":{"rendered":"Algoritmos de clustering paralelos en sistemas recuperaci\u00f3n de informaci\u00f3n distribuidos"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Daniel Jim\u00e9nez Gonz\u00e1lez <\/strong><\/h2>\n<p>La informaci\u00f3n es \u00fatil si cuando se necesita est\u00e1 disponible y se puede hacer uso de ella. La disponibilidad suele darse f\u00e1cilmente cuando la informaci\u00f3n est\u00e1 bien estructurada y ordenada, y adem\u00e1s, no es muy extensa. Pero esta situaci\u00f3n no es la m\u00e1s com\u00fan, cada vez se tiende m\u00e1s a que la cantidad de informaci\u00f3n ofrecida crezca de forma desmesurada, que est\u00e9 desestructurada y que no presente un orden claro. La estructuraci\u00f3n u ordenaci\u00f3n manual es inviable debido a las dimensiones de la informaci\u00f3n a manejar. Por todo ello se hace clara la utilidad, e incluso la necesidad, de buenos sistemas de recuperaci\u00f3n de informaci\u00f3n (sri). Adem\u00e1s, otra caracter\u00edstica tambi\u00e9n importante es que la informaci\u00f3n tiende a presentarse de forma natural de manera distribuida, lo cual implica la necesidad de sri que puedan trabajar en entornos distribuidos y con t\u00e9cnicas de paralelizaci\u00f3n.  esta tesis aborda todos estos aspectos desarrollando y mejorando m\u00e9todos que permitan obtener sri con mejores prestaciones, tanto en calidad de recuperaci\u00f3n como en eficiencia computacional, los cuales adem\u00e1s permiten trabajar desde el enfoque de sistemas ya distribuidos.   el principal objetivo de los sri ser\u00e1 proporcionar documentos relevantes y omitir los considerados irrelevantes respecto a una consulta dada. Algunos de los problemas m\u00e1s destacables de los sri son: la polisemia y la sinonimia; las palabras relacionadas (palabras que juntas tienen un significado y separadas otro); la enormidad de la informaci\u00f3n a manejar; la heterogeneidad de los documentos; etc. De todos ellos esta tesis se centra en la polisemia y la sinonimia, las palabras relacionadas (indirectamente mediante la lematizaci\u00f3n sem\u00e1ntica) y en la enormidad de la informaci\u00f3n a manejar.   el desarrollo de un sri comprende b\u00e1sicamente cuatro fases distintas: el preprocesamiento, la modelizaci\u00f3n, la evaluaci\u00f3n y la utilizaci\u00f3n. El preprocesamiento que conlleva las acciones necesarias para transformar los documentos de la colecci\u00f3n en una estructura de datos con la informaci\u00f3n relevante de los documentos ha sido una parte importante del estudio de esta tesis. En esta fase nos hemos centrado en la reducci\u00f3n de los datos y estructuras a manejar, maximizando la informaci\u00f3n contenida. La modelizaci\u00f3n, ha sido la fase m\u00e1s analizada y trabajada en esta tesis, es la que se encarga de definir la estructura y comportamiento del sri. Solamente se ha trabajado sobre el modelo vectorial, dejando a parte otros modelos como el probabil\u00edstico y el l\u00f3gico. En la fase de evaluaci\u00f3n que se encarga de determinar la calidad del sri, se han utilizado m\u00e9todos ya definidos, ampliamente usados y corroborados, todos ellos basados directa o indirectamente en la precisi\u00f3n (precision) y la cobertura (recall). Por \u00faltimo, en la tesis no se ha abordado la fase de utilizaci\u00f3n.   debido a la gran cantidad de m\u00e9todos de clustering existentes en multitud de \u00e1mbitos y para una extensa variedad de sistemas de informaci\u00f3n, se ha buscado trabajar a partir de dos de los principales y m\u00e1s importantes m\u00e9todos de la literatura: k-means y dbscan. Y, entonces, mejorar su calidad, intentando no perder su funcionalidad ni sus prestaciones computacionales, e incluso mejor\u00e1ndolas. Concretamente se ha desarrollado un m\u00e9todo menos sensible que el k-means a la inicializaci\u00f3n de sus par\u00e1metros, a-bisecting spherical k-means. Tambi\u00e9n se ha desarrollado el m\u00e9todo vdbscan que obtiene los mismos clusters que el dbscan pero en casi la mitad de tiempo y eliminando la elecci\u00f3n aleatoria de los par\u00e1metros de inicializaci\u00f3n cuando no se tiene informaci\u00f3n suficiente sobre el sri (fijando a un valor constante uno de sus par\u00e1metros y el otro obteni\u00e9ndolo de una forma heur\u00edstica tambi\u00e9n desarrollada en esta tesis). Todos estos m\u00e9todos se han creado con el objetivo de trabajar en entornos distribuidos y por ello una parte importante de la tesis se centra en los aspectos de paralelizaci\u00f3n.  tras el estudio experimental de la calidad de recuperaci\u00f3n de informaci\u00f3n y de las prestaciones computacionales se ha concluido que el m\u00e9todo vdbscan obtiene una mejor calidad respecto al m\u00e9todo a-bisecting spherical k-means. Aunque el vdbscan tiene una modelizaci\u00f3n claramente m\u00e1s costosa, responde mejor a la paralelizaci\u00f3n. El tiempo de respuesta del a-bisecting spherical k-means siempre es un poco m\u00e1s r\u00e1pido que el del vdbscan. As\u00ed y todo el vdbscan obtiene mejores valores de speed up y sensiblemente mejores resultados de eficiencia. En conclusi\u00f3n, el vdbscan ser\u00e1 elegido siempre que se considere primordial la calidad de recuperaci\u00f3n. Mientras que el a-bisecting spherical k-means, cuando la fase de modelizaci\u00f3n se repita muchas veces, por su menor coste computacional.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Algoritmos de clustering paralelos en sistemas recuperaci\u00f3n de informaci\u00f3n distribuidos<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Algoritmos de clustering paralelos en sistemas recuperaci\u00f3n de informaci\u00f3n distribuidos <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Daniel Jim\u00e9nez Gonz\u00e1lez <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de Valencia<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 20\/05\/2011<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Vicente Emilio Vidal Gimeno<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: Antonio  manuel Vidal maci\u00e1 <\/li>\n<li>marcelo Luis Errecalde (vocal)<\/li>\n<li>violeta Migallon gomis (vocal)<\/li>\n<li>Jos\u00e9 Manuel Badia contelles (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Daniel Jim\u00e9nez Gonz\u00e1lez La informaci\u00f3n es \u00fatil si cuando se necesita est\u00e1 disponible y se puede hacer [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[1890,13880,16820],"tags":[147180,151240,196212,217595,46112,41712],"class_list":["post-108587","post","type-post","status-publish","format-standard","hentry","category-ciencia-de-los-ordenadores","category-informatica","category-politecnica-de-valencia","tag-antonio-manuel-vidal-macia","tag-daniel-jimenez-gonzalez","tag-jose-manuel-badia-contelles","tag-marcelo-luis-errecalde","tag-vicente-emilio-vidal-gimeno","tag-violeta-migallon-gomis"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/108587","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=108587"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/108587\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=108587"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=108587"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=108587"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}