martes, 13 de abril de 2010

Participo en el desafío Abredatos



Hace unas semanas os hablaba sobre el desafío Abredatos 2010, un concurso "express" en un fin de semana, para desarrollar aplicaciones que reutilicen información de la administración pública.
Pues bien, he decidido apuntarme al desafío (con Daniel, un diseñador que se encargará de toda la parte gráfica), para realizar un proyecto de búsquedas y alertas en el Boletín Oficial de la Comunidad de Madrid.Es una idea que me lleva rondando la cabeza bastante tiempo, y esta parece una buena oportunidad para hacerla realidad.
Como os comento, se trata de un sistema que permitirá definir alertas en el BOCM, de manera que cuando ciertas palabras aparezcan en dicho Boletín, se enviará un correo electrónico al usuario con un enlace directo a la página en la que aparece dicha(s) palabra(s).
Además, tendrá un motor de búsqueda que permitirá realizar búsquedas puntuales desde la propia aplicación sin necesidad de definir alertas.
La aplicación va a constar de varios módulos:

  • Módulo Crawler+Indexador que descargará diariamente los pdfs del BOCM y los indexará para poder realizar búsquedas.
  • Módulo de Alertas, que periódicamente ejecutará las alertas de los usuarios y enviará los resultados por correo electrónico.
  • Módulo Web/Buscador que permitirá realizar búsquedas ad-hoc, así como registro de usuarios y edición de alertas.
La idea es que en el futuro, si el proyecto resulta interesante para los usuarios, se amplíe para aglutinar información de más boletines oficiales, así como para extraer información semántica de algunas verticales (pliegos para realización de proyectos, contratación de proyectos de la administración, becas, subvenciones, empleo público, etc.).
Las tecnologías a utilizar:

  • HttpURLConnection para descargar la página del BOCM y los pdf's
  • Expresiones regulares para extraer los enlaces a los archivos pdf del contenido de la página principal
  • Apache Lucene para la indexación y búsqueda
  • pdfbox para extraer el texto de los pdfs
  • javamail para enviar los correos electrónicos
  • Mysql para almacenar la información de los usuarios y las alertas

¿Qué os parece? ¿Os resulta interesante el proyecto?
Un poco ambicioso para hacerlo en un fin de semana, pero vamos a intentarlo (como os comento ya he hecho pruebas con todas las tecnologías para no quedarme atascado y avanzar rápido con el desarrollo).

2 comentarios:

aanton dijo...

Hola Pere!

A mi me parece interesante el propio desarrollo :) Ya nos contarás que tal te ha ido!

Suerte!

Manuel Pereira dijo...

Hola Arman!
La verdad es que la idea yo creo que es potente, el único peligro es que no me dé tiempo a implementarla completa el fin de semana... pero vamos a intentarlo, ya os contaré ;-)