Category Archives: Desarrollo De Software

Salidas profesionales para la Ingeniería Informática

Los Ingenieros Informáticos Españoles tienen tres salidas: por Tierra, por Mar y por Aire

La puta realidad, y una de las razones por las que me estoy planteando, una vez que termine la carrera, no ejercer y ponerme a estudiar/trabajar en otros temas. Qué se le va a hacer, Spain is different…
 
Visto en mundogeek vía menéame.

Bases de Datos Temporales

Cuando empecé a investigar sobre las bases de datos temporales me sorprendí por dos motivos, primero porque al final he tenido que recurrir a libros que me han sido mucho más útiles que todo lo que he podido llegar a encontrar en Internet (donde todos los textos eran muy ligeros o escasos en cuanto a profundización en la materia), y segundo por la complejidad del tema, puesto que en realidad lo elegí porque parecía simple, error, craso error.
 
Antes he hecho la presentación y, en conclusión, me podría apostar un bote de palomitas a que nadie se ha enterado de lo que en realidad es una base de datos temporal, al menos, no el profesor, pues por las preguntas y afirmaciones que ha hecho al final, eso se podía deducir, y dado que la mitad de la gente se dedicaba a hablar con los demás, o pensar en maneras de hacerme callar lenta y dolorosamente, creo que ganaría ese bote de palomitas 🙂
 
Como he dicho antes, encontré muy poco material sobre el tema, no hablemos ya en castellano. Así que voy a dejar aquí colgada la presentación, la cual intenté hacerla algo así como unos mini-apuntes que pudiesen tener contenido completo por ellos mismos. Y además un par de pdf’s sobre TSQL2, la especificación y un ejemplo práctico.

  • BD Temporales (si se te ve muy grande, reduce el tamaño de letra o ponlo a pantalla completa)
  • TSQL2

Bases de datos: paradigmas y tendencias

Debido a una asignatura de la carrera, Bases de datos avanzadas, he tenido que investigar sobre bases de datos temporales. Pero, en verdad, existen muchos tipos de paradigmas y/o tendencias en las BD, muchas de ellas en verdad interrelacionadas entre sí. Voy a intentar hacer un resumen de todas ellas o, al menos, de las que considero más relevantes.

  • Relacionales, es la base de todo. El modelo más estudiado, comercializado y utilizado. No por ello el mejor, sino que ciertos aspectos (estar en el momento justo, en el lugar indicado) han hecho que así llegue a ser. En definitiva, actualmente hablar de BD es hablar de BD relacionales. Pero todo está cambiando, sino no escribiría este post realmente. Si no sabes qué es el modelo relacional, significa que no sabes que es una BD, por lo que no creo que entiendas el resto de cosas que voy a contar y no se ni para que me lees este tochaco, pero bueno.
  • Orientadas a objeto, si todas nuestras aplicaciones son con objetos, es tontería querer mantener el modelo relacional por debajo, ¿no?. Existen diferentes ORM que permiten solventar ese inmenso puente entre un modelo de objetos y el modelo relacional, pero si podemos prescindir de él, ¿qué mejor que nuestro SGBD nos entienda directamente y nos guarde objetos directamente?. Hay ciertas cosas bastante llamativas en una BDOO, como que no es necesario tener claves primarias, o las claves ajenas en verdad ahora son referencias. Se podría hablar mucho sobre este tema, pero resumiendo una BDOO son simplemente nuestros objetos hechos persistentes. ¡Capas de persistencia nunca mais! 🙂
  • Activas, una SGBD activo es aquel, que bajo ciertas condiciones, y de manera automática ejecuta acciones anteriormente especificadas, todo ello sin intervención del usuario. Es decir una especie de BD + super-triggers (BD relacional con triggers no es una BD activa). Se puede subdividir en dos modelos que lo constituyen:
    • Modelo del conocimiento: especifica las reglas del sistema, en resumen serían tuplas (Evento, Condición, Acción).
    • Modelo de ejecución: se encarga de realizar un seguimiento de la situación y de gestionar el comportamiento. Vamos, el jefe que dice qué hacer y cómo.
  • Deductivas, un SGBD deductivo es aquel que es capaz, a partir de un conjunto de axiomas deductivos y reglas de inferencias que ya posee, deducir hechos. Una especie de BD + lógica (BD + prolog, imagínate sql + prolog, dios que miedo!). Un esquema global podría ser que recibida una consulta concreta, el SGBD deductivo según unas determinadas reglas de inferencia consulta sus datos para obtener una respuesta. Este modelo está muy ligado a las BD Activas, y tienden a converger. Tanto las BD Activas y como las Deductivas podrían englobarse en el área de representación del conocimiento, quizá por ello tiendan a converger.
  • Temporales, ¡no existen los datos!, adiós datos; bienvenidos los datos temporales (dato + tiempo). Cada dato tendrá información de tiempo válido (cuando ese dato es, o ha sido, válido en el MundoReal) y de tiempo transaccional (cuando ese dato ha estado en la BD). Es decir, ahora no se guarda información, bueno si, pero se guarda junto con su evolución en el tiempo. Todavía es un campo muy ligado a la investigación, a pesar de que son realmente muy interesantes.
  • Difusas, casi toda la información que manejamos acerca del MundoReal es incompleta, imprecisa y vaga. Las BD Difusas se basan en la lógica difusa que a su vez se basa en álgebra de conjuntos difusa, que viene a ser mayormente que dado un conjunto de elementos se le da un valor a cada elemento, entre 0 y 1, que indica el grado de pertenencia que tiene dicho elemento en ese conjunto. Este modelo se una ampliación de las BD relaciones, y amplía los operadores del álgebra relacional para poder adaptarlos a los nuevos elementos que se definen. Emocionante.
  • Multimedia, actualmente estamos desbordados por audio, video, imagenes, texto, en definitiva documentos multimedia. Éstos por poder se pueden guardar en campos “Blobs” (binary large objets), pero ya que hacemos modelos de BD para todo lo que se nos ocurre, pues que mejor que una BD Multimedia?. El principal inconveniente está en que una BD tradicional carece de una interfaz de usuario para poder tratar con estos datos multimedia, sin mencionar el problema de la inclusión de metadatos (que se podría solventar, si. Pero serían todo soluciones muy “ad-hoc”, eso de ingieneril tiene poco). Las BD Multimedia proponen tres niveles: Un nivel monomedia que trataría con un solo tipo de datos (p.ej. audio), un nivel central que hablaría con todos los niveles inferiores y desde el cual se gestionarían las preguntas y se guardarían los metadatos de todos los elementos de la BD; y un último nivel con una interfaz de usuario para poder manejar cada formato multimedia. Todo esto quizá es muy ambicioso, hay BD actualmente usándose como las BD Documentales que serían un subconjunto de las Multimedia. Quizá sea porque, evidentemente, el texto ha sido lo primero que se ha querido salvar en una BD, tiempo al tiempo…

No son todas las que están, ni están todas las que son. Se podría añadir al conjunto, BD Distribuidas, Federadas, Almacenes de datos (aunque no son BD en el sentido estricto de la palabra), Paralelas, etc… Pero no las considero como un “paradigma” de BD :). Por cierto, si has llegado a leer hasta aquí eres macgyver!

Datos geográficos libres!

Existe un proyecto desde la comisión europea que consiste en una infraestructura europea de datos espaciales (Infrastructure for Spatial Information in Europe, INSPIRE). Esto viene a ser, así a grosso modo, dictar unas reglas y protocolos a seguir por cada miembro en su implementación de las diversas herramientas que se puedan ir creando que vayan a usar los datos geográficos, de esta forma, teóricamente, se podrá desarrollar la aplicación/servicio ‘x’ desde cada pais miembro e implicitamente integrarse entre sí independientemente de su implementación.
 
El problema es que todo esto, datos, protocolos y estandares son totalmente cerrados, se ganaría muchísimo si fuesen públicos (como debería ser), no tiene sentido que en un proyecto que está siendo pagado por los impuestos de la Unión Europea, los ciudadanos no puedan luego usar esos datos (que son muuuuchos). Se podrían llegar a hacer multitud de cosas (toda una oportunidad para pequeñas pymes, por ejemplo…). Esta página promueve esto, datos geográficos libres! Una firmica, o que?.

Motores de almacenamiento de MySQL

mysql_100x52-64.gifComo bien sabrás, querido picacódigo, MySQL es una base de datos relacional de licencia GPL, ésto implica que usa tablas para guardar los datos, visto desde su representación lógica (como lo vemos nosotros, los usuarios). Pero, por dentro, usa un motor de almacenamiento (storage engine) que será el encargado de guardar de verdad los datos a ficheros, según una determinada estrategia. Este motor es totalmente clave a la hora de evaluar la rápidez y las funcionalidades que puede tener el SGBD. MySQL tiene la opción (para cada tabla que se vaya a crear) de establecer explicitamente qué motor usar.

  • MyISAM, el motor por defecto, permite lo típico, pero no permite transacciones, toda las consultas se realizan con autocommit. Por lo demás no hay mucho que comentar, como curiosidad decir que los BLOB o TEXT pueden ser indices, e incluso un campo que sea indice puede tomar valor NULL. Usa Arboles B internamete para los indices (separado de los datos) y tiene herramientas para chequeo y reparación de tablas.
  • BLACKHOLE: si tiene un nivel de inglés tan patetico como el mio (o superior) fijo que descubres que hace este motor (blackhole = agujero negro). Sería el equivalente a /dev/null mayormente. Y dirás, ¿y esto para que cojones lo quiero yo?, pues puede llegar a ser útil, pues cuando realizas una transacción con este motor, auque no se guardan los datos, ni te va a devolver nada, si que crea LOG de la sentencia SQL que se “ha ejecutado”. El caso típico podría ser establecer un servidor esclavo para que de ese modo guardará el log de lo que pasa en el master
  • CSV, motor completamente trivial, que guarda cada tabla en un fichero y cada fila de datos es una linea con los datos separados por comas. Queda claro, no?. Para hacer la gracia decir que no soporta indices (imagina buscar en ficheros… coste secuencial! O(n) OMFG!). Este formato sería usado mas bien para crear archivos listos para ser importados por otros programas.
  • ARCHIVE, el motor almacen almacen, solo soporta INSERT’s y SELECT’s, es decir un almacen!. Además, siempre que escribes datos se comprimen (con zlib), así que es el motor típico para una base de datos histórica o cuando vamos a tener una cantidad realmente enorme de datos (quizás sea la idonea para GIS?, habría que meditarlo…). Decir que si se realizan muchos SELECT a la vez que se realizan INSERT provocaría que el motor se hiciese la picha un lio, ¿por qué? Porque cuando se hace un INSERT los datos van a un buffer (para no tener que recomprimir, con zlib, para cada puta linea que se inserta supongo…) y éstos datos serán flusheados cuando se realice el SELECT, ahora piensa cientos de INSERT y SELECT en paralelo. Da miedo, eh?
  • EXAMPLE, este no sirve para nada, jaja. Es solo un ejemplo de motor, para poder mirar su código y crear motores hechos y derechos
  • FEDERATED, motor nuevo que se incorporó en la versión 5 de MySQL, para poder crear bases de datos federadas, esto significa que estaremos consultando a una bases de datos remota, es decir en nuestro servidor creamos la tabla pero le decimos, oye que esta tabla esta en otro lado, si eso, le preguntas, que fijo que te responde. Este modelo tiene ciertas limitaciones, no permite ALTER’s ni transacciones.
  • MERGE, este es facil, si tienes dos tablas con motor MyISAM y con la misma estructura, al crear una tabla MERGE, juntarás los datos de ambas tablas. Un caso para el cual puede ser útil este motor, podría ser, por ejemplo, diferentes tablas de log en diferentes servidores y te creas en uno de ellos tablas FEDERATED de esas tablas (que serán MyISAM) y entonces creas una tabla de “log_principal” (usando MERGE) que tendrá el log de todos los servidores. arrr marinero.
  • MEMORY, tablas que se guardan en memoria, es decir, cuando reinicies MySQL, adios datos. No le encuentro ninguna utilidad la verdad, si quieres un almacenamiento temporal, que sentido tiene entonces usar un SGBD? Pues ninguno!.
  • Berkeley DB (BDB para los friends), una de las bases de datos openSource más famosa y utilizada. El motor es independiente de MySQL, con las ventajas e inconvenientes que esto pueda acarrear. Permite transacciones (COMMIT & ROLLBACK) y solo puede ejecutarse en sistemas operativos soportados (Linux x86 y Windows, si; Mac OS X feo y Linux AMD64/Alpha, no). Como curiosidad decir que su organización de ficheros se basa en solo dos, puesto que utiliza árboles B donde, en cada nodo, están tanto los datos como el índice primario (lo cual implica que será algo más lento a la hora de recorrerlo secuencialmente)
  • InnoDB, es el motor más avanzado (junto con BDB) en cuanto a opciones y funcionalidad. Permite transacciones seguras (COMMIT y tal) y está orientado a manejar grandes cantidad de datos. Realiza el bloqueo usando como granualidad la fila (BDB lo hace a nivel de página, es decir mayor salvo casos raros de filas enormes) e incluso soporta lecturas consistentes tanto bloqueantes como no bloqueantes.

Como reflexión final decir que los únicos motores que soportar transacciones seguras son BDB e InnoDB. BDB es externo a MySQL (se usa en muchos otros proyectos, como OpenLDAP por ejemplo…) y fue comprado por ORACLE hace unos meses (febrero)… lo mosqueante es que InnoDB también ha sido comprado por ORACLE (antes de la compra de BDB), por lo que así a lo tonto, ORACLE se ha hecho con el control de los únicos motores de MySQL que soportan transacciones, intrigante… y quizás preocupante… Y con esto y un bizcocho…