{"id":104587,"date":"2018-03-11T10:27:39","date_gmt":"2018-03-11T10:27:39","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/toponym-disambiguation-in-information-retrieval\/"},"modified":"2018-03-11T10:27:39","modified_gmt":"2018-03-11T10:27:39","slug":"toponym-disambiguation-in-information-retrieval","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/linguistica-computacional\/toponym-disambiguation-in-information-retrieval\/","title":{"rendered":"Toponym disambiguation in information retrieval"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Davide Buscaldi <\/strong><\/h2>\n<p>En los \u00faltimos a\u00f1os, la geograf\u00eda ha adquirido una importancia cada vez mayor en el contexto de la recuperaci\u00f3n de la informaci\u00f3n (information retrieval, ir) y, en general, del procesamiento de la informaci\u00f3n en textos. Cada vez son m\u00e1s comunes dispositivos m\u00f3viles que permiten a los usuarios de navegar en la web y al mismo tiempo informar sobre su posici\u00f3n, as\u00ed como las aplicaciones que puedan explotar estos datos para proporcionar a los usuarios alg\u00fan tipo de informaci\u00f3n localizada, por ejemplo instrucciones para orientarse o anuncios publicitarios. Por tanto, es importante que los sistemas inform\u00e1ticos sean capaces de extraer y procesar la informaci\u00f3n geogr\u00e1fica contenida en textos electr\u00f3nicos. La mayor parte de este tipo de informaci\u00f3n est\u00e1 formado por nombres de lugares, llamados tambi\u00e9n emph{top\u00f3nimos}.   la ambig\u00ed\u00bcedad de los top\u00f3nimos constituye un problema importante en la tarea de recuperaci\u00f3n de informaci\u00f3n geogr\u00e1fica (geographical information retrieval o gir), dado que en esta tarea las peticiones de los usuarios est\u00e1n vinculadas geogr\u00e1ficamente. Ha habido un gran esfuerzo por parte de la comunidad de investigadores para encontrar m\u00e9todos de ir espec\u00edficos para gir que sean capaces de obtener resultados mejores que las t\u00e9cnicas tradicionales de ir. La ambig\u00ed\u00bcedad de los top\u00f3nimos es probablemente un factor muy importante en la incapacidad de los sistemas gir actuales por conseguir una ventaja a trav\u00e9s del procesamiento de las informaciones geogr\u00e1ficas. Recientemente, algunas tesis han tratado el problema de resoluci\u00f3n de ambig\u00ed\u00bcedad de top\u00f3nimos desde distintas perspectivas, como el desarrollo de recursos para la evaluaci\u00f3n de los m\u00e9todos de desambiguaci\u00f3n de top\u00f3nimos (leidner) y el uso de estos m\u00e9todos para mejorar la resoluci\u00f3n de lo &#8216;scope\u00bb geogr\u00e1fico en documentos electr\u00f3nicos (andogah). En esta tesis se ha introducido un nuevo m\u00e9todo de desambiguaci\u00f3n basado en wordnet y por primera vez se ha estudiado atentamente la ambig\u00ed\u00bcedad de los top\u00f3nimos y los efectos de su resoluci\u00f3n en aplicaciones como gir, la b\u00fasqueda de respuestas (question answering o qa), y la recuperaci\u00f3n de informaci\u00f3n en la web.  esta tesis empieza con una introducci\u00f3n a las aplicaciones en las cuales la desambiguaci\u00f3n de top\u00f3nimos puede producir resultados \u00fatiles, y con una an\u00e1lisis de la ambig\u00ed\u00bcedad de los top\u00f3nimos en las colecciones de noticias. No ser\u00eda posible estudiar la ambig\u00ed\u00bcedad de los top\u00f3nimos sin estudiar tambi\u00e9n los recursos que se usan como bases de datos de top\u00f3nimos; estos recursos son el equivalente de los diccionarios de idiomas, que se usan para encontrar los significados diferentes de una palabra. Un resultado importante de esta tesis consiste en haber identificado la importancia de la elecci\u00f3n de un particular recurso, que tiene que tener en cuenta la tarea que se tiene que llevar a cabo y las caracter\u00edsticas espec\u00edficas de la aplicaci\u00f3n que se est\u00e1 desarrollando. Se ha identificado un factor especialmente importante constituido por la &#8216;localidad\u00bb de la colecci\u00f3n de textos a procesar. La elecci\u00f3n de un algoritmo apropiado de desambiguaci\u00f3n de top\u00f3nimos es igualmente importante, dado que el conjunto de &#8216;features\u00bb disponible para discriminar las referencias a los lugares puede cambiar en funci\u00f3n del recurso elegido y de la informaci\u00f3n que este puede proporcionar para cada top\u00f3nimo. En este trabajo se desarrollaron dos m\u00e9todos para este fin: un m\u00e9todo basado en la densidad conceptual y otro basado en la distancia media desde centroides en mapas. Ha sido presentado tambi\u00e9n un caso de estudio de aplicaci\u00f3n de m\u00e9todos de desambiguaci\u00f3n a un corpus de noticias en italiano.   se han estudiado los efectos derivados de la elecci\u00f3n de un particular recurso como diccionario de top\u00f3nimos sobre la tarea de gir, encontrando que la desambiguaci\u00f3n puede resultar \u00fatil si el tama\u00f1o de la query es peque\u00f1o y el recurso utilizado tiene un elevado nivel de detalle. Se ha descubierto que el nivel de error en la desambiguaci\u00f3n no es relevante, al menos hasta el 60% de errores, si el recurso tiene una cobertura peque\u00f1a y un nivel de detalle limitado. Se observ\u00f3 que los m\u00e9todos de ordenaci\u00f3n de los resultados que utilizan criterios geogr\u00e1ficos son m\u00e1s sensibles a la utilizaci\u00f3n de la desambiguaci\u00f3n, especialmente en el caso de recursos detallados. Finalmente, se detect\u00f3 que la desambiguaci\u00f3n de top\u00f3nimos no tiene efectos relevantes sobre la tarea de qa, dado que los errores introducidos por este proceso constituyen una parte trascurable de los errores que se generan en el proceso de b\u00fasqueda de respuestas.  en la tarea de recuperaci\u00f3n de informaci\u00f3n geogr\u00e1fica, la mayor\u00eda de las peticiones de los usuarios son del tipo &#8216;x en p\u00bb, d\u00f3nde p representa un nombre de lugar y x la parte tem\u00e1tica de la query. Un problema frecuente derivado de este estilo de formulaci\u00f3n de la petici\u00f3n ocurre cuando el nombre de lugar no se puede encontrar en ning\u00fan recurso, trat\u00e1ndose de una regi\u00f3n delimitada de manera difusa o porqu\u00e9 se trata de nombres vern\u00e1culos. Para solucionar este problema, se ha desarrollado geooreka!, Un prototipo de motor de b\u00fasqueda web que usa una interfaz gr\u00e1fica basada en mapas. Una evaluaci\u00f3n preliminar se ha llevado a cabo en esta tesis, que ha permitido encontrar una aplicaci\u00f3n particularmente \u00fatil de la desambiguaci\u00f3n de top\u00f3nimos, la desambiguaci\u00f3n de los top\u00f3nimos en los documentos web, una tarea necesaria para estimar correctamente las probabilidades de encontrar ciertos lugares en la web, una tarea necesaria para la miner\u00eda de texto y encontrar informaci\u00f3n relevante.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Toponym disambiguation in information retrieval<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Toponym disambiguation in information retrieval <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Davide Buscaldi <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de Valencia<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 29\/10\/2010<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Paolo Rosso<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: emilio Sanchis arnal <\/li>\n<li>diana Santos (vocal)<\/li>\n<li>mark Sanderson (vocal)<\/li>\n<li>paul Clough (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Davide Buscaldi En los \u00faltimos a\u00f1os, la geograf\u00eda ha adquirido una importancia cada vez mayor en el [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[2302,16820,13542,16104],"tags":[211322,211323,17028,211324,86707,211325],"class_list":["post-104587","post","type-post","status-publish","format-standard","hentry","category-linguistica-computacional","category-politecnica-de-valencia","category-sistemas-de-informacion-geografica","category-teoria-de-la-informacion","tag-davide-buscaldi","tag-diana-santos","tag-emilio-sanchis-arnal","tag-mark-sanderson","tag-paolo-rosso","tag-paul-clough"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/104587","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=104587"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/104587\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=104587"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=104587"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=104587"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}