Limpiado Ad-Free Blogs (II), esta vez de verdad!

Hace un rato me he acordado de que aún tenía esto pendiente por hacer, el script fallaba con todas las páginas que usaban redirecciones (debido a que éstas usan frames para hacer la redirección), lo cual he arreglado modificando ligeramente el código.
 
El funcionamiento del script es sencillo, creamos un fichero de texto que se llame “content.txt” que tenga la página del wiki de microsiervos, ejecutamos el script (está en perl y requiere un paquete, $ sudo aptitude install libterm-progressbar-perl) y este creará tres ficheros de texto como salida

  • out.txt: con los blogs buenos.
  • out.txt.malos: con los blogs malos.
  • errores.txt: con blogs que no ha podido analizar, debido a errores diversos, desde URL inexistentes (404) a falta de permisos debido a la configuración del servidor (403), etc, etc…

Una vez terminada la ejecución (unos 20min le ha costado), he comprobado los blogs malos que da como resultado (unos cuantos solo, si comprobase todos no tendría sentido el script xD) y creo que esta vez no hay fallos. Los que salen como errores son debido a su mayoría a páginas no encontradas (error 404) o timeouts del servidor (error 500), aunque había algún otro error misterioso (415 por ejemplo) que lo he pasado a blogs buenos y ya está. En resumen, resultados:

En total de 399 blogs. Hay 153 MALOS, 212 BUENOS y 34 que han fallado!

Es decir, 38% son malos! WTF?. Acabo de editarlo en el wiki de microsiervos, pero si alguien se aburre mucho, mucho y encuentra fallos en la lista (o en el código del script), que no dude en cagarse en mis muertos y mencionarlo para corregirlo cuanto antes. Ahora tendremos 216 blogs en ad-free :).
 
No voy a pegar todo el código pues es similar al anterior, he aquí un tar.gz con el código y ficheros resultado.

Comments are closed.

Post Navigation