{"id":96510,"date":"2009-09-10T00:00:00","date_gmt":"2009-09-10T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/web-people-search\/"},"modified":"2009-09-10T00:00:00","modified_gmt":"2009-09-10T00:00:00","slug":"web-people-search","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/ciencia-de-los-ordenadores\/web-people-search\/","title":{"rendered":"Web people search"},"content":{"rendered":"<h2>Tesis doctoral de <strong> JavierFelipe Artiles Picon <\/strong><\/h2>\n<p>En esta tesis hemos abordado el problema de la ambig\u00ed\u00bcedad de nombres en la b\u00fasqueda de personas en la web. Al inicio de nuestro trabajo, en 2004, hab\u00eda muy pocos art\u00edculos de investigaci\u00f3n sobre este tema, y ning\u00fan buscador web comercial ofrec\u00eda este tipo de servicio. Por esta raz\u00f3n, nuestra metodolog\u00eda de investigaci\u00f3n se enfoc\u00f3 inicialmente en el dise\u00f1o y la organizaci\u00f3n (junto con el dr. Satoshi sekine de la universidad de nueva york) de una campa\u00f1a de evaluaci\u00f3n competitiva para sistemas de b\u00fasqueda de personas en la web. Tras la celebraci\u00f3n de dos campa\u00f1as de evaluaci\u00f3n, utilizamos las colecciones de prueba elaboradas para realizar nuestros propios estudios emp\u00edricos sobre la naturaleza y los desaf\u00edos de la tarea.   la campa\u00f1a de evaluaci\u00f3n, weps, tuvo lugar en 2007 (como una tarea de semeval 2007) y en 2009 (como un workshop de la conferencia www 2009). Esta campa\u00f1a fue crucial para sentar las bases para un estudio cient\u00edfico del problema de la b\u00fasqueda de personas en la web. \u00e9stos fueron los principales logros:  estandarizaci\u00f3n del problema: ahora la mayor\u00eda de investigadores enfocan el problema como una tarea de miner\u00eda de resultados de busqueda (clustering &#8212; agrupaci\u00f3n &#8212; y extracci\u00f3n de informaci\u00f3n), tal y como lo definimos en weps.  creaci\u00f3n de un est\u00e1ndar para la comparaci\u00f3n de sistemas: desde la primera campa\u00f1a weps en 2007, el n\u00famero de publicaciones relacionadas con la b\u00fasqueda de personas en la web ha crecido sustancialmente, y la mayor\u00eda usa colecciones de prueba desarrolladas en weps.  dise\u00f1o de m\u00e9tricas de evaluaci\u00f3n para la tarea: hemos realizado un cuidadoso an\u00e1lisis, basado en restricciones formales, de varias m\u00e9tricas extr\u00ednsecas de evaluaci\u00f3n de sistemas de clustering, y hemos conclu\u00eddo que las m\u00e9tricas bcubed son las m\u00e1s adecuadas para la tarea.  hemos introducido una nueva funci\u00f3n para la combinaci\u00f3n de m\u00e9tricas, el unanimous improvement ratio (uir) o ratio de mejora un\u00e1nime, el cual, al contrario que la funci\u00f3n f de van rijsbergen, no requiere un pesado a-priori de las m\u00e9tricas (en nuestro caso, bcubed precision y recall).    utilizando las colecciones de prueba desarrolladas en las dos campa\u00f1as de evaluaci\u00f3n weps, hemos realizado una serie de estudios emp\u00edricos orientados a obtener una mejor comprensi\u00f3n tanto de la naturaleza de la tarea como de la manera de resolverla:  en primer lugar, hemos estudiado los efectos potenciales de usar refinamientos de consultas (interactivos) para realizar la tarea de b\u00fasqueda de personas en la web. Hemos descubierto que, aunque en la mayor\u00eda de las ocasiones existe una expresi\u00f3n que puede ser utilizada como refinamiento casi perfecto para recuperar todos y s\u00f3lo los documentos que refieren a una persona, la naturaleza de esto refinamientos ideales es impredecible y son muy dif\u00edciles de encontrar por un usuario.   en segundo lugar, hemos estudiado la utilidad de los rasgos ling\u00ed\u00bc\u00edsticos (computacionalmente costosos) en comparaci\u00f3n con n-gramas de palabras y otros rasgos &#8216;baratos&#8217; para resolver nuestro problema de agrupaci\u00f3n. Sorprendentemente, las entidades nombradas, que son son el tipo de rasgo m\u00e1s popular despu\u00e9s de las aproximaciones basadas en \u00abbolsas de palabras\u00bb, no parecen aportar una ventaja competitiva directa para resolver la tarea.   como efecto secundario de nuestro estudio emp\u00edrico, hemos construido un sistema que, utilizando la confianza de un clasificador binario (el cual detecta si dos documentos son o no correferentes) como m\u00e9trica de similitud entre pares de documentos para alimentar al algoritmo de agrupaci\u00f3n aglomerativa jer\u00e1rquica, aporta los mejores resultados para la tarea que conocemos f0,5=0,83 frente a 0,82 del mejor sistema en weps-2), sin utilizar rasgos ling\u00ed\u00bc\u00edsticos computacionalmente costosos.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Web people search<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Web people search <\/li>\n<li><strong>Autor:<\/strong>\u00a0 JavierFelipe Artiles Picon <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Nacional de educaci\u00f3n a distancia<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 09\/10\/2009<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Julio Gonzalo Arroyo<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: felisa Verdejo maillo <\/li>\n<li>Manuel Palomar sanz (vocal)<\/li>\n<li>maarten De rijke (vocal)<\/li>\n<li>horacio Rodr\u00edguez hontoria (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de JavierFelipe Artiles Picon En esta tesis hemos abordado el problema de la ambig\u00ed\u00bcedad de nombres en la [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[1890,17070],"tags":[5082,13269,198150,52765,198151,37679],"class_list":["post-96510","post","type-post","status-publish","format-standard","hentry","category-ciencia-de-los-ordenadores","category-nacional-de-educacion-a-distancia","tag-felisa-verdejo-maillo","tag-horacio-rodriguez-hontoria","tag-javierfelipe-artiles-picon","tag-julio-gonzalo-arroyo","tag-maarten-de-rijke","tag-manuel-palomar-sanz"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/96510","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=96510"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/96510\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=96510"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=96510"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=96510"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}