{"id":117793,"date":"2015-05-07T00:00:00","date_gmt":"2015-05-07T00:00:00","guid":{"rendered":""},"modified":"2015-05-07T00:00:00","modified_gmt":"2015-05-07T00:00:00","slug":"microplanificacion-de-asignacion-tarda%c2%ada-y-almacenamiento-temporal-distribuidos-para-flujos-de-trabajo-intensivos-en-datos-distributed-late-binding-micro-scheduling-and-data-caching-for-data-int","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/complutense-de-madrid\/microplanificacion-de-asignacion-tarda%c2%ada-y-almacenamiento-temporal-distribuidos-para-flujos-de-trabajo-intensivos-en-datos-distributed-late-binding-micro-scheduling-and-data-caching-for-data-int\/","title":{"rendered":"Microplanificaci\u00f3n de asignaci\u00f3n tard\u00eday almacenamiento temporal distribuidos para flujos de trabajo intensivos en datos (distributed late-binding micro-scheduling and data caching for data-intensive workflows)"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Antonio Delgado Peris <\/strong><\/h2>\n<p>El mundo de hoy en d\u00eda se encuentra inundado por ingentes cantidades de informaci\u00f3n digital procedente de muy diversas fuentes. Todo apunta, adem\u00e1s, a que esta tendencia se agudizar\u00e1 en el futuro. Ni la industria, ni la sociedad en general, ni, muy particularmente, la ciencia, permanecen indiferentes ante este hecho. Al contrario, se esfuerzan por obtener el m\u00e1ximo provecho de esta informaci\u00f3n, lo que significa que deben capturarla, transferirla, almacenarla y procesarla puntual y eficientemente, utilizando una amplia gama de recursos  computacionales. Pero esta tarea no es siempre sencilla. Un ejemplo representativo de los desaf\u00edos que suponen el manejo y procesamiento de grandes cantidades de datos es el de los experimentos de f\u00edsica de part\u00edculas del large hadron collider (lhc), en  ginebra, que cada a\u00f1o deben gestionar decenas de petabytes de informaci\u00f3n. Bas\u00e1ndonos en la experiencia de una de estas colaboraciones, hemos estudiado los principales problemas relativos a la gesti\u00f3n de vol\u00famenes de datos masivos y a la ejecuci\u00f3n de vastos flujos de trabajo que necesitan consumirlos. en este contexto, hemos desarrollado una arquitectura de prop\u00f3sito general para la planificaci\u00f3n y ejecuci\u00f3n de flujos de trabajo con importantes requisitos de datos, que hemos llamado task queue. Este nuevo sistema aprovecha el modelo de asignaci\u00f3n tard\u00eda basado en agentes que ha ayudado a los experimentos del lhc a superar los problemas asociados con la heterogeneidad y la complejidad de las grandes infraestructuras grid de computaci\u00f3n. Nuestra propuesta presenta varias mejoras con respecto a los sistemas existentes. Los agentes de ejecuci\u00f3n de la arquitectura task queue comparten una tabla hash distribuida (distributed hash table, dht) y realizan la asignaci\u00f3n de tareas de una manera cooperativa. De esta forma, se evitan los problemas de escalabilidad de los algoritmos centralizados de asignaci\u00f3n y se mejoran los tiempos de ejecuci\u00f3n. Esta escalabilidad nos permite realizar una microplanificaci\u00f3n de grano fino lo cual posibilita nuevas funcionalidades, como la implementaci\u00f3n de una cache distribuida en los nodos de ejecuci\u00f3n y el uso de la informaci\u00f3n de ubicaci\u00f3n de los datos en las decisiones de asignaci\u00f3n de tareas. Esto mejora la eficiencia del procesado de datos y ayuda a aliviar los habitualmente congestionados servicios de almacenamiento del grid. Adem\u00e1s, nuestro sistema es m\u00e1s robusto frente a problemas en la interacci\u00f3n con la cola central de tareas y ofrece mejor comportamiento en situaciones con patrones de acceso a datos exigentes o en ausencia de servicios de almacenamiento locales. Todo esto ha sido demostrado en una amplia serie de pruebas de evaluaci\u00f3n. dado que nuestro procedimiento de planificaci\u00f3n de tareas distribuido requiere el uso de mensajes de broadcast, tambi\u00e9n hemos realizado un profundo estudio de las posibles aproximaciones a la implementaci\u00f3n de esta operaci\u00f3n sobre el dht kademlia, el cual es utilizado para la cache de datos compartida. Kademlia ofrece enrutamiento a nodos individuales pero no incluye ninguna primitiva de broadcast. Nuestro trabajo expone las peculiaridades de este sistema, particularmente su m\u00e9trica basada en la operaci\u00f3n xor, y estudia anal\u00edticamente qu\u00e9 t\u00e9cnicas de broadcast pueden ser usadas con \u00e9l. Tambi\u00e9n se ha desarrollado un modelo que estima la cobertura de nodos en funci\u00f3n de la probabilidad que cada mensaje individual alcance su destino correctamente. Como validaci\u00f3n, los algoritmos se han implementado y se han evaluado exhaustivamente. Adem\u00e1s, proponemos varias t\u00e9cnicas para mejorar los protocolos en situaciones adversas, por ejemplo cuando el sistema presenta una alta rotaci\u00f3n de nodos o la tasa de error en las entregas no es despreciable. Esta t\u00e9cnicas incluyen redundancia, reenv\u00edo e inundaci\u00f3n (flooding), as\u00ed como combinaciones de las mismas. Presentamos un an\u00e1lisis de las fortalezas y debilidades de los diferentes algoritmos y las mencionadas t\u00e9cnicas complementarias.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Microplanificaci\u00f3n de asignaci\u00f3n tard\u00eday almacenamiento temporal distribuidos para flujos de trabajo intensivos en datos (distributed late-binding micro-scheduling and data caching for data-intensive workflows)<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Microplanificaci\u00f3n de asignaci\u00f3n tard\u00eday almacenamiento temporal distribuidos para flujos de trabajo intensivos en datos (distributed late-binding micro-scheduling and data caching for data-intensive workflows) <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Antonio Delgado Peris <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Complutense de Madrid<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 05\/07\/2015<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Eduardo Huedo Cuesta<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: Rafael aurelio Moreno vozmediano <\/li>\n<li>nicanor Colino arriero (vocal)<\/li>\n<li>Jos\u00e9 Flix molina (vocal)<\/li>\n<li>Mar\u00eda  de los santos P\u00e9rez hern\u00e1ndez (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Antonio Delgado Peris El mundo de hoy en d\u00eda se encuentra inundado por ingentes cantidades de informaci\u00f3n [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[4810,986,13593,16555,2535],"tags":[231922,156463,171087,69534,137397,225235],"class_list":["post-117793","post","type-post","status-publish","format-standard","hentry","category-arquitectura-de-ordenadores","category-complutense-de-madrid","category-fiabilidad-de-sistemas","category-planificacion","category-tecnologia-de-los-ordenadores","tag-antonio-delgado-peris","tag-eduardo-huedo-cuesta","tag-jose-flix-molina","tag-maria-de-los-santos-perez-hernandez","tag-nicanor-colino-arriero","tag-rafael-aurelio-moreno-vozmediano"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/117793","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=117793"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/117793\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=117793"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=117793"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=117793"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}