{"id":103477,"date":"2010-03-09T00:00:00","date_gmt":"2010-03-09T00:00:00","guid":{"rendered":"https:\/\/www.deberes.net\/tesis\/sin-categoria\/multimodal-interactive-transcription-of-handwritten-text-images\/"},"modified":"2010-03-09T00:00:00","modified_gmt":"2010-03-09T00:00:00","slug":"multimodal-interactive-transcription-of-handwritten-text-images","status":"publish","type":"post","link":"https:\/\/www.deberes.net\/tesis\/sistemas-de-reconocimiento-de-caracteres\/multimodal-interactive-transcription-of-handwritten-text-images\/","title":{"rendered":"Multimodal interactive transcription of handwritten text images"},"content":{"rendered":"<h2>Tesis doctoral de <strong> Ver\u00f3nica Romero G\u00f3mez <\/strong><\/h2>\n<p>En esta tesis se presenta un nuevo marco interactivo y multimodal para la transcripci\u00f3n de documentos manuscritos. Esta aproximaci\u00f3n, lejos de proporcionar la transcripci\u00f3n completa pretende asistir al experto en la dura tarea de transcribir. hasta la fecha, los sistemas de reconocimiento de texto manuscrito disponibles no proporcionan transcripciones aceptables por los usuarios y, generalmente, se requiere la intervenci\u00f3n del humano para corregir las transcripciones obtenidas. Estos sistemas han demostrado ser realmente \u00fatiles en aplicaciones restringidas y con vocabularios limitados (como es el caso del reconocimiento de direcciones postales o de cantidades num\u00e9ricas en cheques bancarios), consiguiendo en este tipo de tareas resultados aceptables. Sin embargo, cuando se trabaja con documentos manuscritos sin ning\u00fan tipo de restricci\u00f3n (como documentos manuscritos antiguos o texto espont\u00e1neo), la tecnolog\u00eda actual solo consigue resultados inaceptables.   el escenario interactivo estudiado en esta tesis permite una soluci\u00f3n m\u00e1s efectiva. En este escenario, el sistema de reconocimiento y el usuario cooperan para generar la transcripci\u00f3n final de la imagen de texto. El sistema utiliza la imagen de texto y una parte de la transcripci\u00f3n previamente validada (prefijo) para proponer una posible continuaci\u00f3n. Despu\u00e9s, el usuario encuentra y corrige el siguiente error producido por el sistema, generando as\u00ed un nuevo prefijo mas largo. Este nuevo prefijo, es utilizado por el sistema para sugerir una nueva hip\u00f3tesis. La tecnolog\u00eda utilizada se basa en modelos ocultos de markov y n-gramas. Estos modelos son utilizados aqu\u00ed de la misma manera que en el reconocimiento autom\u00e1tico del habla. Algunas modificaciones en la definici\u00f3n convencional de los n-gramas han sido necesarias para tener en cuenta la retroalimentaci\u00f3n del usuario en este sistema. Para implementar el proceso de decodificaci\u00f3n en un solo paso, tal y como se hace en los sistemas convencionales de reconocimiento de texto, dos aproximaciones han sido estudiadas. La primera de ellas consiste en la construcci\u00f3n de un modelo de lenguaje especial, y la segunda se basa en la utilizaci\u00f3n de grafos de palabras. En esta \u00faltima aproximaci\u00f3n, se integran t\u00e9cnicas eficientes de correcci\u00f3n de errores, con el fin de garantizar el bajo tiempo de respuesta y un m\u00ednimo de precisi\u00f3n en las transcripciones. La calidad del sistema ha sido medida autom\u00e1ticamente con tres corpus. Dos de ellos contienen texto manuscrito en espa\u00f1ol e ingles moderno, mientras que, el tercer corpus consiste en un texto manuscrito antiguo del siglo xix. Los resultados obtenidos con los tres corpus sugieren que utilizar el escenario interactivo propuesto puede reducir considerablemente el esfuerzo realizado por el usuario si lo comparamos con el sistema convencional de reconocimiento de texto. En este nuevo escenario interactivo, el usuario esta repetidamente interactuando con el sistema, por lo tanto, la calidad y ergonom\u00eda en el proceso interactivo es crucial para su \u00e9xito.    en esta tesis, se han estudiado diferentes formas de interactuar con el sistema y diferentes niveles de interacci\u00f3n (palabras completas o caracteres). Adem\u00e1s, se han utilizado interfaces multimodales m\u00e1s ergon\u00f3micas, con la intenci\u00f3n de obtener sistemas m\u00e1s confortables y de f\u00e1cil uso para el usuario. Entre todas las posibles modalidades de retroalimentaci\u00f3n, nos centramos en la comunicaci\u00f3n mediante una pantalla t\u00e1ctil, que es, quiz\u00e1s, la forma m\u00e1s natural de proporcionarle al sistema la retrolimentaci\u00f3n. El subsistema de reconocimiento de texto manuscrito on-line utilizado para la decodificaci\u00f3n de la retroalimentaci\u00f3n tambi\u00e9n esta basado en modelos ocultos de markov. Para entrenar los modelos del subsistema de retroalimentaci\u00f3n, y testear la versi\u00f3n multimodal del escenario interactivo, se ha utilizado un corpus manuscrito on-line. Las palabras que debe introducir el usuario en el proceso multimodal han sido generadas concatenando muestras aleatorias de caracteres de tres categor\u00edas diferentes: d\u00edgitos, letras min\u00fasculas y s\u00edmbolos. Los resultados obtenidos muestran que, a pesar de la perdida del determinismo que proporcionan el teclado y el rat\u00f3n, la aproximaci\u00f3n multimodal puede ahorrar una cantidad significativa de esfuerzo humano.<\/p>\n<p>&nbsp;<\/p>\n<h3>Datos acad\u00e9micos de la tesis doctoral \u00ab<strong>Multimodal interactive transcription of handwritten text images<\/strong>\u00ab<\/h3>\n<ul>\n<li><strong>T\u00edtulo de la tesis:<\/strong>\u00a0 Multimodal interactive transcription of handwritten text images <\/li>\n<li><strong>Autor:<\/strong>\u00a0 Ver\u00f3nica Romero G\u00f3mez <\/li>\n<li><strong>Universidad:<\/strong>\u00a0 Polit\u00e9cnica de Valencia<\/li>\n<li><strong>Fecha de lectura de la tesis:<\/strong>\u00a0 03\/09\/2010<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h3>Direcci\u00f3n y tribunal<\/h3>\n<ul>\n<li><strong>Director de la tesis<\/strong>\n<ul>\n<li>Enrique Vidal Ruiz<\/li>\n<\/ul>\n<\/li>\n<li><strong>Tribunal<\/strong>\n<ul>\n<li>Presidente del tribunal: horst Bunke <\/li>\n<li>ergina Kavallieratou (vocal)<\/li>\n<li>bertrand Co\u00ed\u00bcasnon (vocal)<\/li>\n<li>basilis Gatos (vocal)<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tesis doctoral de Ver\u00f3nica Romero G\u00f3mez En esta tesis se presenta un nuevo marco interactivo y multimodal para la transcripci\u00f3n [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-gradient":""}},"footnotes":""},"categories":[16820,12858],"tags":[209517,209516,17029,209515,96261,209514],"class_list":["post-103477","post","type-post","status-publish","format-standard","hentry","category-politecnica-de-valencia","category-sistemas-de-reconocimiento-de-caracteres","tag-basilis-gatos","tag-bertrand-coiasnon","tag-enrique-vidal-ruiz","tag-ergina-kavallieratou","tag-horst-bunke","tag-veronica-romero-gomez"],"_links":{"self":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/103477","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/comments?post=103477"}],"version-history":[{"count":0,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/posts\/103477\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/media?parent=103477"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/categories?post=103477"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.deberes.net\/tesis\/wp-json\/wp\/v2\/tags?post=103477"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}