{"id":99111,"date":"2010-12-02T00:00:00","date_gmt":"2010-12-02T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/corpus-linga%c2%bca%c2%adsticos-estruturados-de-grandes-dimensions-metodoloxa%c2%ada-e-sistemas-de-recuperacion-de-informacion\/"},"modified":"2010-12-02T00:00:00","modified_gmt":"2010-12-02T00:00:00","slug":"corpus-linga%c2%bca%c2%adsticos-estruturados-de-grandes-dimensions-metodoloxa%c2%ada-e-sistemas-de-recuperacion-de-informacion","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/linguistica-computacional\/corpus-linga%c2%bca%c2%adsticos-estruturados-de-grandes-dimensions-metodoloxa%c2%ada-e-sistemas-de-recuperacion-de-informacion\/","title":{"rendered":"Corpus lingu\u00edsticos estruturados de grandes dimensi\u00f3ns: metodolox\u00edae sistemas de recuperaci\u00f3n de informaci\u00f3n"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Francisco Mario Barcala Rodriguez <\/strong><\/h2>\n<p>La reciente evoluci\u00f3n de internet ha permitido el acceso a un volumen de informaci\u00f3n enorme, pero toda esta no resulta \u00fatil si no existe una manera precisa de encontrar lo que se necesita en un momento dado. Por eso, casi paralelamente al crecimiento de internet se han ido desarrollando sistemas de recuperaci\u00f3n de informaci\u00f3n (ri) que permit\u00edan localizar la informaci\u00f3n relevante en cada caso, dando lugar a lo que hoy conocemos como buscadores. Pero uno de los principales problemas que presentan estos sistemas radica en que, en general, la informaci\u00f3n que utilizan est\u00e1 muy poco estructurada, lo que limita en cierto modo sus posibilidades: no se pueden delimitar secciones en los documentos, ni aplicar filtros de b\u00fasqueda, etc., Es decir, solo se permite introducir una expresi\u00f3n de b\u00fasqueda que se intenta encontrar en toda la base documental.  debido a estas carencias, al mismo tiempo tambi\u00e9n se han ido desarrollando sistemas de ri que requer\u00edan que la informaci\u00f3n estuviera organizada de alg\u00fan modo particular. Estos sistemas no est\u00e1n dise\u00f1ados para hacer b\u00fasquedas en internet en general, sino que act\u00faan sobre un conjunto m\u00e1s grande o m\u00e1s peque\u00f1o de informaci\u00f3n disponible y ofrecen m\u00e1s oportunidades de b\u00fasqueda.  estas dos vertientes evolutivas, la de utilizar informaci\u00f3n desestructurada y la de tenerla organizada, llegaron a la actualidad propiciando la aparici\u00f3n de distintas herramientas de b\u00fasqueda. Por un lado, tenemos los buscadores de internet, que permiten localizar documentos que satisfacen una b\u00fasqueda concreta y, por la otra, los sistemas que utilizan informaci\u00f3n estructurada, que cubren aspectos como la obtenci\u00f3n de datos de clientes, facturaci\u00f3n, control de stock, etc. Finalmente, incluso hai entornos que pueden combinar en diferente grado estas dos vertientes (herramientas de miner\u00eda de datos, sistemas de predicci\u00f3n, etc.)  en este trabajo tratamos un caso particular de los sistemas de ri que utilizan informaci\u00f3n estructurada: el de los sistemas ling\u00ed\u00bc\u00edsticos que trabajan con grandes colecciones de documentos (corpus), lo que enmarca la presente tesis de doctorado dentro de la ling\u00ed\u00bc\u00edstica computacional y, m\u00e1s concretamente, en la ling\u00ed\u00bc\u00edstica de corpus. Aunque en este campo tambi\u00e9n hai un \u00e1mplio espectro de posibilidades, nos centramos en aquellos en los que la informaci\u00f3n que necesitan los usuarios, normalmente ling\u00ed\u00bcistas, est\u00e1 relacionada con la frecuencia de ocurrencia de palabras o con la visualizaci\u00f3n de ejemplos en su contexto.  la evoluci\u00f3n de estos sistemas ha sido practicamente simult\u00e1nea al desarrollo de la inform\u00e1tica. Desde las primeras herramientas de b\u00fasqueda monol\u00edticas que utilizaban colecciones textuales, consideradas ahora de reducidas dimensiones, se ha ido evolucionando gracias al incremento de la capacidad de los ordenadores, hasta los actuales sistemas de consulta a trav\u00e9s de la red que manejan corpus de gran tama\u00f1o. Nos centramos en estos \u00faltimos, analizando las diferentes posibilidades y tecnolog\u00edas disponibles actualmente para desarrollarlos pero, adem\u00e1s, tambien hacemos una propuesta metodol\u00f3gica gen\u00e9rica para la creaci\u00f3n de corpus, que son el sustento de datos de estos sistemas de ri.  ofrecemos, pues, una visi\u00f3n de conjunto que abarca, tanto la construcci\u00f3n de corpus como su posterior explotaci\u00f3n, teniendo siempre en mente la utilizaci\u00f3n de los est\u00e1ndares m\u00e1s actuales. Adem\u00e1s, ilustramos nuestras propuestas gen\u00e9ricas con su aplicaci\u00f3n al caso concreto del corpus de referencia do galego actual (corga), desarrollado en el centro ram\u00f3n pi\u00f1eiro para a investigaci\u00f3n en humanidades, lo que permite aclarar c\u00f3mo se concretan los conceptos abstractos en un caso pr\u00e1ctico.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Corpus lingu\u00edsticos estruturados de grandes dimensi\u00f3ns: metodolox\u00edae sistemas de recuperaci\u00f3n de informaci\u00f3n<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Corpus lingu\u00edsticos estruturados de grandes dimensi\u00f3ns: metodolox\u00edae sistemas de recuperaci\u00f3n de informaci\u00f3n <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Francisco Mario Barcala Rodriguez <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 A coru\u00f1a<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 12\/02\/2010<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Manuel Vilares Ferro<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: laurence Danlos <\/li>\n<li>sunny Paris (vocal)<\/li>\n<li>xulio Sousa fern\u00e1ndez (vocal)<\/li>\n<li>ga\u00ed\u00abl harry Dias (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Francisco Mario Barcala Rodriguez La reciente evoluci\u00f3n de internet ha permitido el acceso a un volumen de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[18576,6314,13880,2302],"tags":[202397,202401,202398,40288,202399,202400],"class_list":["post-99111","post","type-post","status-publish","format-standard","hentry","category-a-coruna","category-bases-de-datos","category-informatica","category-linguistica-computacional","tag-francisco-mario-barcala-rodriguez","tag-gail-harry-dias","tag-laurence-danlos","tag-manuel-vilares-ferro","tag-sunny-paris","tag-xulio-sousa-fernandez"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/99111","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=99111"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/99111\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=99111"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=99111"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=99111"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}