El otro día escribía en el café de la Wikipedia en Español preguntando por la posibilidad de hacer un mashup basado en los contenidos de Wikipedia. La idea deriva del intento de enciclopedia aeronáutica que hicimos en el Portal Aeronáutico de la Asociacion Aire. Con el CMS que usábamos antes (php-Nuke) uno de los módulos permitía hacer algo similar a una enciclopedia. Tenía dos defectos graves a mi modo de ver. El primero que los términos no se mostraban ordenados alfabéticamente y el segundo que no contenía un formulario ni procedimiento para recoger las aportaciones de los usuarios. No obstante la razón fundamental por la que no siguió adelante es que me pareció queera una duplicidad de esfuerzos.
El tema sirve para cualquier enciclopedia temática. ¿Para qué voy a esforzarme esn escribir artículos sobre un tema si ya existen en la Wikipedia?. Y si no existen, ¿Por qué no escribirlos para la Wikipedia?. Si lo que deseamos es difundir el conocimiento en un área, lo normal es que escribamos para el mayor número de personas y eso lo conseguimos en la Wikipedia. Si deseamos disponer para nuestra propia web de esos contenidos no hay ningún problema pues los contenidos de wikipedia son libres.
Pero se presenta un problema práctico. Primero andar copiando y pegando texto de un lugar a otro es tedioso y luego, ¿Como mantener actualizado el texto de cada artículo?. Es evidente que no puede hacerse de forma manual y quelo más práctico es que existiera una interfaz de tipo XML que me permitiera mostrar en mi web temática los contenidos actualizados de Wikipedia.
El usuario Chabacano me contesta que puedo utilizar los dumps, y que en XML y SQL están normalmente más actualizados que en HTML. Les echo un vistazo y veo que no es tan sencillo, en principio está pensado para hacer copias de seguridad más o menos completas o para exportar informacion y luego importarla desde otra instalación de Mediawiki, el software de la Wikipedia y en primera impresión me parece que se trata de un proceso pensado para realizarse en diferido, con actualizaciones cada cierto tiempo y no de forma directa.
¿Podría usar wget y analizar la respuesta para extraer lo interesante?. Creo que por ahora no voy a encontrar una respuesta y que tendré que seguir estudiando el problema, si a alguien se le ocurren ideas, agradecería cualquier orientación.