{"id":64974,"date":"2008-05-06T00:00:00","date_gmt":"2008-05-06T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/arquitectura-de-depuracion-de-informacion-caso-practico-sobre-datos-en-lengua-castellana\/"},"modified":"2008-05-06T00:00:00","modified_gmt":"2008-05-06T00:00:00","slug":"arquitectura-de-depuracion-de-informacion-caso-practico-sobre-datos-en-lengua-castellana","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/bases-de-datos\/arquitectura-de-depuracion-de-informacion-caso-practico-sobre-datos-en-lengua-castellana\/","title":{"rendered":"Arquitectura de depuraci\u00f3n de informaci\u00f3n. caso pr\u00e1ctico sobre datos en lengua castellana"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Mirari M\u00e1rquez Cid <\/strong><\/h2>\n<p>En este trabajo se presenta una arquitectura de depuraci\u00f3n de datos denominada uvduplicate. Esta combina las ventajas de una arquitectura distribuida con un conjunto de m\u00f3dulos que permiten cubrir todo el proceso de depuraci\u00f3n de datos. La flexibilidad de uvduplicate es una de sus mayores ventajas. Adem\u00e1s, su caracter\u00edstica de modular hace que sea f\u00e1cil incluir nuevos m\u00f3dulos adaptados a las necesidades de cada usuario sin que esto implique grandes cambios en el conjunto de la aplicaci\u00f3n. Uvduplicate es la primera herramienta que consigue cubrir todas las fases del proceso de depuraci\u00f3n de datos en lengua castellana y, adem\u00e1s, lo hace de forma eficaz y eficiente. la arquitectura desarrollada con su dise\u00f1o modular permite intercomunicar sistemas uvduplicate para que puedan ejecutar tareas y compartir informaci\u00f3n en entornos de red. Esto ha sido conseguido, a trav\u00e9s de la abstracci\u00f3n y modularidad planteada como base de uvduplicate, la construcci\u00f3n de un sistema en el que cada uno de sus componentes se encuentra desplegado en distintos nodos de una red. en este trabajo se ha seguido una aproximaci\u00f3n de eliminaci\u00f3n de ruido en los datos mediante reglas. Las reglas se han implementando mediante funciones propias de cada sistema de almacenamiento y poseen bater\u00edas de excepciones. Adem\u00f1as, se ha optado por depurar la mayor cantidad de datos posibles sin que esto signifique p\u00e9rdida de informaci\u00f3n. Los resultados obtenidos justifican la hip\u00f3tesis inicial de que una fase previa de eliminaci\u00f3n de ru\u00eddo es fundamental para que el resto de procesos dentro de la depuraci\u00f3n de los datos maximicen su eficacia. la bibliograf\u00eda sobre este tema hace referencia principalmente a dos formas de realizar normalizaci\u00f3n, una basada en reglas y otra basada en modelos ocultos de markov (hmms); en esta tesis se implementan las dos formas de manera complementaria. Se ha desarrollado una bater\u00eda de reglas para transformar los datos de entrada en formas normales. Se han incluido diccionarios de nombres, apellidos y direcciones para etiquetar cada elemento de entrada con el fin de llevarlo a un campo de salida correcto. Se ha implementado m\u00e9todos de entrenamiento de los hmms dirigidos por el usuario a partir de ficheros con datos de entrada etiquetados. Los resultados demuestran que la normalizaci\u00f3n de las variables, sobre todo aquellas que forman parte de los cl\u00fasteres o de los cruces, es imprescindible para conseguir una alta eficacia en el proceso de eliminaci\u00f3n de duplicados y cruce de datos. en cuanto al enlace de registros y b\u00fasqueda de duplicados, se ha desarrollado un m\u00f3dulo capaz de cruzar dos conjuntos de datos de forma determinista o de forma probabil\u00edstica. Se implementan t\u00e9cnicas de clustering, atendiendo al orden alfab\u00e9tico de las variables utilizadas para hacer cl\u00fasteres, para reducir el espectro de comparaciones, incluye 14 m\u00e9todos de comparaci\u00f3n de cadenas, uno de ellos ha sido reimplementado para, sin perder eficacia, maximizar su eficiencia.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Arquitectura de depuraci\u00f3n de informaci\u00f3n. caso pr\u00e1ctico sobre datos en lengua castellana<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Arquitectura de depuraci\u00f3n de informaci\u00f3n. caso pr\u00e1ctico sobre datos en lengua castellana <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Mirari M\u00e1rquez Cid <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Vigo<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 05\/06\/2008<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Javier Rodeiro Iglesias<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: jos\u00e9 Samos jim\u00e9nez <\/li>\n<li>v\u00edctor Mu\u00f1oz garz\u00f3n (vocal)<\/li>\n<li>antonino Santos del riego (vocal)<\/li>\n<li>carmen Redondo marey (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Mirari M\u00e1rquez Cid En este trabajo se presenta una arquitectura de depuraci\u00f3n de datos denominada uvduplicate. Esta [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[6314,30277,8295,18657],"tags":[85626,143339,46464,37683,143337,143338],"class_list":["post-64974","post","type-post","status-publish","format-standard","hentry","category-bases-de-datos","category-sistemas-automatizados-de-control-de-calidad","category-sistemas-de-control-del-entorno","category-vigo","tag-antonino-santos-del-riego","tag-carmen-redondo-marey","tag-javier-rodeiro-iglesias","tag-jose-samos-jimenez","tag-mirari-marquez-cid","tag-victor-munoz-garzon"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/64974","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=64974"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/64974\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=64974"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=64974"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=64974"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}