{"id":101530,"date":"2010-11-06T00:00:00","date_gmt":"2010-11-06T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/estudio-y-aplicacion-de-nuevos-metodos-de-compresion-de-texto-orientada-a-palabras\/"},"modified":"2010-11-06T00:00:00","modified_gmt":"2010-11-06T00:00:00","slug":"estudio-y-aplicacion-de-nuevos-metodos-de-compresion-de-texto-orientada-a-palabras","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/ciencia-de-los-ordenadores\/estudio-y-aplicacion-de-nuevos-metodos-de-compresion-de-texto-orientada-a-palabras\/","title":{"rendered":"Estudio y aplicaci\u00f3n de nuevos m\u00e9todos de compresi\u00f3n de texto orientada a palabras"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Miguel \u00e1ngel Mart\u00ednez Prieto <\/strong><\/h2>\n<p>La demanda de informaci\u00f3n se ha multiplicado en los \u00faltimos a\u00f1os gracias, principalmente, a la globalizaci\u00f3n en el acceso a la www. Esto ha propiciado un aumento sustancial en el tama\u00f1o de las colecciones de texto disponibles en formato electr\u00f3nico, cuya compresi\u00f3n no s\u00f3lo permite obtener un ahorro espacial sino que, a su vez, aumenta la eficiencia de sus procesos de entrada\/salida y de transmisi\u00f3n en red.  la compresi\u00f3n de texto trata con informaci\u00f3n expresada en lenguaje natural. Por lo tanto, la identificaci\u00f3n de la redundancia subyacente a este tipo de textos requiere adoptar una perspectiva orientada a palabras, considerando \u00e9sta como la unidad m\u00ednima de informaci\u00f3n utilizada en los procesos de comunicaci\u00f3n entre personas. Esta tesis aborda el estudio del contexto anterior desde tres perspectivas complementarias cuyos resultados se traducen en la obtenci\u00f3n de un conjunto de compresores de texto espec\u00edficos.  el lenguaje natural posee unas propiedades particulares, tanto en lo relativo al tama\u00f1o del vocabulario de palabras identificado en el texto como a la distribuci\u00f3n de frecuencia que muestra cada una de ellas. Sin embargo, las t\u00e9cnicas universales de compresi\u00f3n no son capaces de identificar, espec\u00edficamente, estas propiedades al no restringir el tipo de mensajes que toman como entrada. La primera propuesta de esta tesis se centra en la construcci\u00f3n de un esquema de preprocesamiento (denominado word-codeword improved mapping: wcim) que transforma el texto original en una representaci\u00f3n m\u00e1s redundante del mismo que favorece su compresi\u00f3n con t\u00e9cnicas cl\u00e1sicas. A pesar de su sencillez y efectividad, esta propuesta no gestiona un aspecto relevante en lenguaje natural: la relaci\u00f3n existente entre las palabras.  la familia de t\u00e9cnicas edge-guided (e-g) utilizan la relaci\u00f3n de adyacencia entre s\u00edmbolos como base para la representaci\u00f3n del texto. El compresor e-g1 construye un modelo de orden 1 orientado a palabras, cuya representaci\u00f3n se materializa en las aristas de un grafo dirigido. Por su parte, e-gk considera la extensi\u00f3n del vocabulario original con un conjunto de secuencias de palabras (frases) significativas que se representan a trav\u00e9s de una gram\u00e1tica libre de contexto. El modelo de grafo original evoluciona de tal forma que pasa a representar un modelo de orden 1 orientado a frases en el que la relaci\u00f3n de jerarqu\u00eda, existente entre las palabras que las constituyen, puede ser aprovechada a trav\u00e9s de la informaci\u00f3n almacenada en la gram\u00e1tica. Tanto e-g1 como e-gk utilizan la informaci\u00f3n almacenada en las aristas del grafo para la construcci\u00f3n de sus esquema de codificaci\u00f3n basado en un c\u00f3digo de huffman.  los corpus paralelos biling\u00ed\u00bces (bitextos) est\u00e1n formados por dos textos, en lenguaje natural, que expresan la misma informaci\u00f3n en dos idiomas diferentes. Esta propiedad suma un tipo de redundancia no tratada en los casos anteriores: la redundancia sem\u00e1ntica. Nuestras propuestas, en este contexto, se centran en la representaci\u00f3n de bitextos alineados, cuya utilizaci\u00f3n es un aspecto esencial en numerosas aplicaciones relacionadas con la traducci\u00f3n. Para ello introducimos el concepto de bipalabra como unidad simb\u00f3lica de representaci\u00f3n y se plantean sendas t\u00e9cnicas basadas en sus propiedades estructurales (translation relationship-based compressor : trc) y sem\u00e1nticas (two-level compressor for aligned bitexts: 2lcab). Ambas propuestas analizan el efecto, en la compresi\u00f3n, asociado al hecho de utilizar diferentes estrategias de alineamiento del bitexto. Complementariamente, 2lcab plantea un mecanismo de b\u00fasqueda, basado en pattern-matching, que permite llevar a cabo diferentes tipos de operaciones sobre el texto comprimido.  los procesos de experimentaci\u00f3n, llevados a cabo sobre corpus de referencia en cada uno de los contextos, demuestran la competitividad de cada una de los compresores propuestos. Los resultados obtenidos con la t\u00e9cnica 2lcab son especialmente significativos ya que soportan la primera propuesta conocida que facilita la consulta monoling\u00ed\u00bce y transling\u00ed\u00bce sobre un bitexto comprimido. Esta propiedad a\u00edsla el idioma en el que se recuperan los resultados del utilizado en la consulta, planteando 2lcab como una alternativa competitiva para su uso como motor de b\u00fasqueda en diferentes herramientas de traducci\u00f3n.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Estudio y aplicaci\u00f3n de nuevos m\u00e9todos de compresi\u00f3n de texto orientada a palabras<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Estudio y aplicaci\u00f3n de nuevos m\u00e9todos de compresi\u00f3n de texto orientada a palabras <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Miguel \u00e1ngel Mart\u00ednez Prieto <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Valladolid<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 11\/06\/2010<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Pablo De La Fuente Redondo<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: ricardo Baeza yates <\/li>\n<li>Antonio Fari\u00f1a Martinez (vocal)<\/li>\n<li>Rafael Carlos Carrasco jimenez (vocal)<\/li>\n<li>nieves Rodriguez brisaboa (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Miguel \u00e1ngel Mart\u00ednez Prieto La demanda de informaci\u00f3n se ha multiplicado en los \u00faltimos a\u00f1os gracias, principalmente, [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[1890,12500,4149,13880,12451],"tags":[160041,206316,36418,206317,144852,16549],"class_list":["post-101530","post","type-post","status-publish","format-standard","hentry","category-ciencia-de-los-ordenadores","category-codigo-y-sistemas-de-codificacion","category-diseno-y-componentes-de-sistemas-de-informacion","category-informatica","category-valladolid","tag-antonio-farina-Martinez","tag-miguel-angel-Martinez-prieto","tag-nieves-rodriguez-brisaboa","tag-pablo-de-la-fuente-redondo","tag-rafael-carlos-carrasco-jimenez","tag-ricardo-baeza-yates"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/101530","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=101530"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/101530\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=101530"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=101530"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=101530"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}