Cassandra

Juan Mellado, 26 Junio, 2010 - 09:50

FacebookFacebook es la red social de más éxito hoy en día, y desde un punto de vista puramente técnico, sus datos son realmente espectaculares. Presume de tener del orden de unos 30.000 servidores capaces de servir unos 570 billones de páginas al mes. Hace una semana publicaron un artículo con algunos detalles del software que utilizan en sus máquinas.

Aunque empiezan diciendo que se consideran un sistema de tipo LAMP (Linux Apache MySQL PHP), enseguida aclaran que más bien es un "LAMP con heteroides". Utilizan versiones de Linux, MySQL y PHP que ellos mismos han optimizado. Además de mucho otro software, naturalmente, propio y ajeno, la mayoría de código abierto.

- HipHop para PHP es uno de los desarrollos propios de Facebook más conocidos, y se trata básicamente de un compilador cruzado que toma código escrito en PHP y genera código equivalente en C++ que puede ser compilado con g++ para una ejecución de forma nativa más óptima. Con este enfoque aseguran haber conseguido hasta una reducción de un 50% del consumo de CPU en sus servidores.

- Thrift es un desarrollo propio de Facebook que liberó y ahora forma parte de la fundación Apache. Sirve para poder realizar llamadas entre distintos lenguajes de programación, que en el caso de Facebook son unos cuantos: PHP, C++, Java, Erlang, ... La idea es que en un fichero de texto plano se definen las estructuras de datos y las funciones públicas, y la librería genera el código fuente correspondiente para el lenguaje de programación que se le indique. La librería garantiza que los datos serán serializados en el cliente y reconstruidos en el servidor donde quieran que se ejecuten estos de una forma totalmente transparente y eficiente. O sea, un RPC (posibilidad de realizar llamadas remotas) con su propio IDL (lenguaje de definición de interfaces). No obstante es un proyecto que ha decaido un poco, sobre todo por el auge de Avro que el mes pasado se convirtió en un proyecto "raíz" de Apache. De características similares, pero con un enfoque más atractivo, ya que no obliga a utilizar código fuente generado de forma automática por una herramienta.

- Cassandra es otro de los productos estrella de Facebook. Es un sistema de almacenamiento distribuido altamente escalable y con una gran tolerancia a fallos. Es uno de los baluartes actuales de las base de datos "NoSQL" para el almacenamiento de pares (clave, valor). Hace un tiempo escribí un post explicando el modelo de datos en el que se basa su funcionamiento. Es un software muy interesante y que ha entrado a formar parte también de la fundación Apache.

- Hadoop es un conjunto de proyectos de código abierto originales de la fundación Apache con los que se persigue que los desarrolladores tengamos las herramientas necesarias para poder generar programas distribuidos, escalables y con alta disponibilidad. Se compone de un núcleo de librerías comunes, varios frameworks, y una serie de software más específico implementado sobre los anteriores. Uno de los más populares es MapReduce que implementa las funciones Map y Reduce utilizadas para el procesamiento de grandes cantidades de información en entornos principalmente de cloud computing. La idea básica es que se parte de unos vectores con los datos a procesar a los que aplica la función Map para generar nuevos vectores en un dominio distinto, y luego se aplica la función Reduce para agrupar los vectores generados al dominio de salida deseado. Recomiendo leer el artículo de la Wikipedia para entenderlo mejor. Es muy interesante.

- Hive es un subproyecto dentro de Hadoop, aunque es un desarrollo original de Facebook que luego liberó. Es un datawarehouse cuyo objetivo es permitir acceder a través de consultas SQL a los enormes vectores de información utilizados normalmente con Hadoop con el propósito de realizar análisis estadísticos o de tipo data-mining.

- BigPipe es una de las "armas secretas" de Facebook. Es un servidor de páginas webs dinámicas que introduce el concepto de pagelets con el que descompone una página web en varias partes, de forma que cada una de ellas pueda generarse en paralelo. La idea es que cuando se solicita una página web esta se devuelva lo antes posible, pero con una estructura mínima que se compone de bloques vacíos (perfil, búsqueda, chat, ...). Estos bloques son las pagelets que se van generando en paralelo en el servidor, y que cuando están listas se envian al cliente y se renderizan con JavaScript. De esta forma se consigue que la generación de una única página web se haga en paralelo, en vez de forma secuencial como es lo más habitual, y que el fallo en un subsistema (perfil, búsqueda, chat, ...) no impida servir una página, aunque esté incompleta.

- Memcached es un proyecto externo de código abierto muy popular al que Facebook ha contribuido optimizando algunas partes. Es un sistema distribuido de cache de objetos con un alto rendimiento. La idea es evitar tener que hacer consultas pesadas almacenando resultados previos en memoria, de forma que pueden ser servidos directamente en vez de ejecutando cada vez las consultas. O sea, el funcionamiento normal de una cache pero aplicado a gran escala, sobre queries que atacan una base de datos, clientes que solicitan páginas webs, o cualquier otro tipo de pares (clave, valor). Pero no es mágico, no es un software que se pone entre cliente y servidor y lo hace todo. Hay que programar. En los clientes hay que llamar a la cache para ver si tiene el dato, y si no lo tiene hacer la consulta de la forma habitual, y entonces llamar a la cache para que almacene el dato durante el tiempo que se quiera que sea válido.

- Varnish es un acelerador de HTTP de código abierto. Se coloca entre los clientes y uno o más servidores web actuando como balanceador de carga. Pero es un software que ofrece mucha más funcionalidad que la de mero balanceador. Ofrece un servicio de cache para responder a las peticiones de forma inmediata sin tener que realizar realmente las llamadas a los servidores web, y permite ejecutar procesos a medida para prácticamente cualquier tipo de información o evento que se produce en una comunicación HTTP. Facebook lo utiliza sobre todo para servir las fotos e imágenes de los perfiles, ¡unos cuantos billones de ficheros cada día!

- Scribe es el sistema de log desarrollado por Facebook y liberado como código abierto. La idea es que los cliente envian a servidores dedicados, a través del anteriormente mencionado Thrift, las trazas en forma de pares (categoría, mensaje). Y los servidores organizan todos los mensajes recibidos en función de sus categorías escribiéndolos finalmente en ficheros alojados en algún tipo de filesystem distribuido, ¡unas cuantas decenas de billones de mensajes cada día!

Juan Mellado, 27 Marzo, 2010 - 11:07

CassandraCassandra es una de las piezas de software clave dentro de las complejas infraestructuras de una red social de tanto éxito hoy en día como es Facebook. De hecho, es un desarrollo original de la propia Facebook que ha liberado como código abierto. Otros sitios tan populares como Twitter o Digg también están apostando por este software.

Cassandra se define a si misma como una base de datos distribuida de segunda generación altamente escalable. Sin embargo, el término "base de datos" resulta engañoso para los que estamos acostumbrados a trabajar con las tradicionales base de datos relacionales. Cassandra no sigue el modelo relacional. No es un "RDBMS". Es una base de datos "NoSQL".

¿Pero cómo son las bases de datos "NoSQL"? Pues una de sus principales características es que carecen de una estructura fija de tablas. Es decir, se componen de un conjunto de entidades básicas, pero estas carecen de una definición fija de atributos. Es como si cada fila de cada tabla, en un modelo relacional, pudiera tener el número de columnas que quisiera. Algo que de entrada resulta bastante extraño para los que estamos acostumbrados a trabajar con modelos relacionales. Y motivo por el que la mayor parte de los artículos que pueden encontrarse por Internet tratan de explicar como trabajar con estos nuevos modelos comparándolos con los antiguos relacionales.

El ejemplo comparativo más clásico es el propuesto por Jonathan Ellis, desarrollador principal de Cassandra, y que consiste en definir una base de datos para un servicio web, llamémoslo "Multiblogs", similar al popular Blogger, que permite a sus usuarios crearse sus propios blogs y dejar comentarios en los mismos. En Cassandra esta tarea es tan sencilla como editar un fichero de configuración llamado "storage-conf.xml" y añadir las siguientes líneas:

<Keyspace Name="Multiblogs">
  <ColumnFamily CompareWith="TimeUUIDType" Name="Blogs"/>
  <ColumnFamily CompareWith="TimeUUIDType" Name="Comments"/>
</Keyspace>

Y no hay más. En serio. ¿Y dónde están los nombres de los atributos? ¿Dónde están los clásicos "title", "author", ...? ¿Y los tipos de cada atributo? ¿Y se permiten NUMBER, VARCHAR, DATE, ...? ¿Y cómo se definen las claves primarias? ¿Y qué ocurre con las foreign keys? ¿Y ...? A mi particularmente la definición del modelo me resultó tan poco natural la primera vez que la ví, que creo que intentar explicarla en base al modelo relacional es un error que desvirtúa su verdadera naturaleza. Mejor ver primero como se estructura, y luego hacer las comparaciones.

Cassandra Data Model

El modelo de datos de Cassandra se compone de los siguientes elementos:

- Column: Es el elemento de menor granularidad al que se puede hacer referencia por un nombre. Como un pixel dentro de un bitmap. Lo interesante es que no es un valor escalar, sino un estructura compuesta por tres atributos: name: binary, value: binary y timestamp: int64.

Un ejemplo de una instancia de este tipo de estructura en notación JSON:

{ name: "address", value: "Baker Street", timestamp: 123456789 }

No hay restricciones con respecto a lo que pueden contener los atributos. Todos los valores los deben suministrar los clientes de la base de datos, incluido el timestamp. Como una "variable" definida dentro de un programa en cualquier lenguaje de programación. Y ahí reside precisamente la diferencia con los modelos relaciones tradicionales. El modelo apenas proporciona al gestor información acerca del dominio de la aplicación. No se define hasta el último detalle lo que puede insertarse o no en la base de datos. De hecho, en la práctica puede insertarse cualquier tupla de la forma (nombre, valor, fecha) que se quiera. Cassandra, a lo que se dedica en realidad, es a gestionar de forma muy eficiente colecciones distribuidas verdaderamente enormes de este tipo de tuplas, del orden de billones, de una manera altamente escalable.

El resto de elementos del modelo de datos de Cassandra sirven para agrupar estas simples tuplas.

- Super Column: Es una agregación de columns que puede referenciarse por un nombre. Se implementa como una estructura que se compone de dos atributos: name: binary y columns: list<Column>. En la práctica se la considera igual que una column, sólo que en vez de almacenar un valor almacena una lista de columns. Es un recurso bastante útil, ya que permite tener una colección de valores anidados asociados a otro valor.

Un ejemplo de una instancia de este tipo de estructura:

{ name: "profile",
  columns: {
    firstName: { name: "firstName", value: "Arthur", timestamp: 1 },
    lastName: { name: "lastName", value: "Doyle", timestamp: 2 },
    city: { name: "city", value: "London", timestamp: 3 }
  }
}

De igual forma que antes, no hay restricción acerca de lo que deben contener. Nada impediría insertar en el ejemplo una nueva column con cualquier tipo de información en tiempo de ejecución por parte del cliente.

Repito. El contenido de estas agrupaciones se define en tiempo de ejecución, en función del uso que las aplicaciones clientes hagan de ellas. Como una "estructura" definida dentro de un programa en cualquier lenguaje de lenguaje de programación. Evidentemente aportan una flexibilidad enorme a los modelos que ya se encuentran en producción, pero también un descontrol enorme si no se documenta exhaustivamente el uso que se quiere hacer de ellos.

- Row: Es una agregación de columns o super columns que se referencian con un nombre. No hay más, sólo un nombre contenido dentro de un vulgar String. Ese nombre es la "clave" (key) que identifica de forma unívoca a un registro.

En el siguiente ejemplo puede verse una row que agrupa tres columns, o lo que es lo mismo, tres columns almacenadas bajo una misma clave:

{ baskerville: {
    title: { name: "title", value: "Baskerville", timestamp: 0 },
    year: { name: "year", value: "1902", timestamp: 0 },
    publisher: { name: "publisher", value: "George", timestamp: 0 }
  }
}

En este punto es importante no confundir una row con una super column. La row es sólo una palabra "clave", no es una estructura, carece de atributos.

La mayoría de la gente parece sentirse cómoda pensando en las rows como el equivalente a la clave primaria de cada registro en las tablas del modelo relacional.

- Column Family: Es una agregación de rows que se referencia con un nombre. Y tampoco hay más, sólo un nombre contenido dentro de un vulgar String.

En el siguiente ejemplo puede verse una instancia de este tipo de colección, que consta de dos rows de super columns que a su vez contienen columns (he añadido comentarios por claridad):

{ friends: {  <-- Column Family
    watson: {  <-- Row
      profile: {  <-- Super Column
        name: "profile",
        columns: {  <-- Columns
          firstName: { name: "firstName", value: "John", timestamp: 0 },
          lastName: { name: "lastName", value: "Watson", timestamp: 0 }
        }
      },
      statistics: {  <-- Super Column
        name: "statistics",
        columns: {  <-- Columns
          marriages: { name: "marriages", value: "3", timestamp: 0 }
        }
      }
    },
    lestrade: {  <-- Row
      profile: {  <-- Super Column
        name: "profile",
        columns: {  <-- Columns
          lastName: { name: "lastName", value: "Lestrade", timestamp: 0 },
          phone: { name: "phone", value: "555-123", timestamp: 0 }
        }
      }
    }
  }
}

Insisto. No hay estructura predefinida. Cassandra lo gestiona todo como arrays asociativos. Como las propiedades de los objetos en JavaScript. O como las clases Dictionary en ActionScript. O como las clases HashMap en Java. Cassandra mantiene colecciones ordenadas de objetos a los que se accede por un nombre (clave), que en la terminología de Cassandra se llama row (key). El modelo en realidad es un hash de varias dimensiones, donde las columns se sitúan en el nivel más bajo, las super columns son un hash de columns, las rows son un hash de columns o super columns, y las column families son un hash de rows. Teniendo la cadena de nombres (claves) se puede acceder a todos los elementos que la componen.

Es importante destacar que los nombres de las column families que quieran utilizarse en Cassandra han de definirse en su fichero de configuración "storage-conf.xml". Y cuando se añade o elimina una column family en este fichero es necesario reiniciar el servidor. Además, para cada column family se debe especificar un método de ordenación de sus columns. O dos, si se compone de super columns, para indicar como se ordenan por defecto en primer lugar las super columns, y luego las columns que contienen cada una de ellas.

Eso de las ordenaciones es algo bastante importante, ya que Cassandra almacena físicamente cada column family en un fichero distinto ordenado por los criterios dados. En consecuencia, se debe tratar de almacenar la información relacionada en una misma column family, y ordenada de la forma en la que más habitualmente se vaya a acceder a ella.

La mayoría de la gente parece sentirse cómoda pensando en las column families como el equivalente a las tablas en el modelo relacional.

- Keyspace: Es una agregación de column families que puede referenciarse por un nombre. No es una estructura con atributos, es tan sólo otro contenedor al que se accede por un String con su nombre.

La mayoría de la gente parece sentirse cómoda pensando en las keyspaces como el equivalente a los esquemas (conjunto de tablas) en el modelo relacional.

- Cluster: Es el elemento de más alto nivel que puede referenciarse por un nombre. Es de naturaleza más física que los anteriores, más relacionado con el hardware, ya que agrupa los nodos (máquinas) sobre los que se ejecuta Cassandra. Puede contener uno o más keyspaces.

Y esa es a muy grandes rasgos toda la estructura del modelo. Que no es poco. Y espero que haya quedado claro a estas alturas que Cassandra almacena pares de datos compuestos por una clave y un valor (más un timestamp), que no asegura ningún tipo de integridad referencial, que no permite hacer joins, y es más, que no permite ejecutar ningún tipo de sentencia SQL. Todos los pares de valores que almacena se insertan/modifican/borran/recuperan con una cadena de la forma keyspace.columnfamily[row][column] o keyspace.columnfamily[row][supercolumn][column], aunque se permite operar de una sola vez con todas las columns de una clave o de una supercolumn, y también con rangos de claves.

No obstante, utilizar este esquema no significa renunciar a las buenas prácticas aprendidas a lo largo de años de uso de los tradicionales modelos relacionales. Por ejemplo, para las rows (claves) nada nos impide seguir utilizando por comodidad algún tipo de secuencial o UUID generado automáticamente, como se hace en la actualidad para las claves primarias con las columnas AUTOINCREMENT o las SEQUENCES de Oracle:

{ users: {  <-- Column Family
    359701f8-a75b-b801-05e7-86a970002701: {  <-- Row
      userName: { name: "userName", value: "jsmith", timestamp: 0 },
      firstName: { name: "firstName", value: "John", timestamp: 0 },
      lastName: { name: "lastName", value: "Smith", timestamp: 0 }
    },
    7805640e-e92c-52d7-a836-352755992000: {  <-- Row
      userName: { name: "userName", value: "ssmith", timestamp: 0 },
      firstName: { name: "firstName", value: "Sarah", timestamp: 0 },
      lastName: { name: "lastName", value: "Smith", timestamp: 0 }
    }
  }
}

De igual forma, el concepto de foreign key se debe seguir utilizando (aunque en ningún caso se garantice su integridad). Cassandra no pone ninguna restricción a la hora de que una misma clave que identifica una row aparezca en varias column families distintas. Es más, los desarrolladores enfatizan este hecho, ya que teniendo la clave de un objeto se pueden obtener todos los objetos relacionados en cualquier otra column family:

{ friends: {  <-- Column Family
    359701f8-a75b-b801-05e7-86a970002701: {  <-- Row
      7805640e-e92c-52d7-a836-352755992000: {  <-- Column
        name: "7805640e-e92c-52d7-a836-352755992000", value: "Girlfriend", ...},
      a9780021-4b91-786a-ee02-458a23761202: {  <-- Column
        name: "a9780021-4b91-786a-ee02-458a23761202", value: "Old chap", ...}
    },
    7805640e-e92c-52d7-a836-352755992000: {  <-- Row
      359701f8-a75b-b801-05e7-86a970002701: {  <-- Column
        name: "359701f8-a75b-b801-05e7-86a970002701", value: "Boyfriend", ...},
    }
  }
}

Y la necesidad de índices la podemos satisfacer creando column families específicas a nuestras necesidades. Para, por ejemplo, dado un "nombre de usuario" averiguar cual es su "clave":

{ usersIndex: {  <-- Column Family
    jsmith: {  <-- Row
      rowid: { name: "rowid", value: "359701f8-a75b-b801-05e7-86a970002701", ...}
    },
    ssmith: {  <-- Row
      rowid: { name: "rowid", value: "7805640e-e92c-52d7-a836-352755992000", ...}
    }
  }
}

Pero, ¿por qué las webs más grandes de Internet no utilizan base de datos tradicionales? ¿Acaso no tienen "usuarios", "artículos", "comentarios", ... y todo ese tipo de entidades que tan bien casan tabla por tabla con el modelo relacional? ¿MySQL y Oracle se están quedando obsoletos? ¿Por qué se necesita otro paradigma? No creo que se pueda responder con una sola palabra clave a todas estas preguntas. De hecho, si tuviera que hacerlo yo, no me decidiría por una única palabra, sino por dos: "rendimiento" y "escalabilidad".

Las base de datos relacionales no están respondiendo de forma adecuada a los retos que los grandes sitios webs actuales les plantean. Y por tanto se supone que tampoco lo harán a las necesidades de los futuros desarrollos que seguirán la línea marcada por estos. El problema no es que los modelos relacionales no puedan almacenar de forma ordenada la ingente cantidad de información que gestionan estos sitios. El problema es que sus tiempos de respuesta no son los más adecuados para lo que los usuarios demandan, y sus requerimientos de hardware no son lo suficientemente flexibles como para poder adecuarlos de forma óptima a las cambiantes necesidades del negocio. Las grandes webs se hartaron de desnormalizar sus modelos de datos e invertir dinero en mejorar el hardware de sus ordenadores, así que optaron por utilizar directamente modelos desnormalizados y altamente escalables horizontalmente (añadir más ordenadores a la red para aumentar el rendimiento).

Sin embargo, el párrafo anterior no viene a significar que haya que desechar todo el conocimiento adquirido hasta la fecha y rehacer los desarrollos actuales sobre modelos relacionales. No es eso. Lo que trata de resaltar es que a los grandes sitios de Internet las soluciones tradicionales no les valen. No hay ningún incoveniente en que las pequeñas, medianas y grandes empresas, que no tengan que manejar Petabytes de datos en tiempo real, puedan seguir trabajando con sus base de datos actuales. Lo importante es saber que esas propuestas alternativas están ahí, y conocer un mínimo acerca de la filosofía de funcionamiento de las mismas. Dentro un tiempo puede llegar a ser tan natural trabajar en una base de datos "NoSQL" como lo es hoy en día trabajar con un "RDBMS".

Para terminar, algunas páginas de referencia:

- http://wiki.apache.org/cassandra/API: API de Cassandra. Muy recomendable echarle un vistazo a las funciones, parámetros y valores retornados.

- http://wiki.apache.org/cassandra/ClientExamples: Ejemplos de clientes en varios lenguajes de programación. Muy recomendable para ver que en la práctica todo se reduce al uso del API.

- http://arin.me/blog/wtf-is-a-supercolumn-cassandra-data-model: Un artículo de un ingeniero de Digg describiendo el modelo de datos de Cassandra con bastantes ejemplos.

- http://blog.evanweaver.com/articles/2009/07/06/up-and-running-with-cassandra: Un artículo de naturaleza bastante práctica en el que se puede ver a Cassandra en funcionamiento.