Alpha's Manifesto

A black and white figure's thought-hive

Link del día: Interrelacionando datos

Para quienes es sólo una palabra difícil, interpolación significa en el ámbito de funciones matemáticas, calcular valores aproximados de datos que no tenemos realmente. Esto se lleva al punto en donde para interpolar, podemos calcular una fórmula que rige los valores con los que estamos trabajando. Cuando estas funciones realmente predicen los datos con los que estamos trabajando, logramos obtener la “regla” por la que estos valores se guían.

Y esto es interesante cuando tenemos un conjunto de valores y luego tenemos que predecir su comportamiento en el futuro. Más que nada, en casos de la vida cotidiana. ¿A qué hora estará peor el tránsito? ¿Cuántas llamadas voy a recibir en cada momento del día?

Eureqa es un software que nos permite hacer este trabajo. Tomando un conjunto de datos y permitiéndonos cierto margen de error (muchos algoritmos de interpolación los permiten) nos permite identificar con cierta exactitud una fórmula que describa el comportamiento de nuestros datos. Se hace generando distintos bloques de operaciones aritméticas que den lugar a un resultado más o menos cercano a nuestro conjunto de datos. Personalmente no reconozco si este es un algoritmo de interpolación en particular, o sólo se trata de un algoritmo de búsqueda (en pocas palabras: prueba y error).

Muy relacionado, quiero dejar un link a Google Correlate, uno de los productos de Google que ahora se encuentran en sus laboratorios, que básicamente nos devuelve cuáles son las búsquedas más íntimamente relacionadas en cuanto a números con una búsqueda que a nosotros nos interese. Como extra, nos permite loggearnos y relacionar nuestro propio conjunto de datos con los que ellos tienen de sus búsqueda. O mejor aún, podemos dibujar nuestro propio gráfico y saber qué búsquedas tuvieron esa característica de interés (por ejemplo, una curva creciente y luego decreciente, algo que a la gente ya le aburrió).

Soy un zorrinito de datos relacionados.

Link del día: Social Datamining

Este es mi tercer post hablando sobre un artículo publicado sobre la gente de OkCupid. ([1], [2]). Para quien no lo sepa, es un sitio de citas (dicen ellos, el más grande que hay), con un blog realmente fantástico y con un valor científico muy importante (o eso considero yo). Ellos hacen análisis basados en la relaciones que su sitio maneja, y personalmente creo que sus estudios pueden bien ser de ayuda para la sociología u otras ciencias.

En este caso en particular, quiero aproximar este siguiente post desde el punto de vista de la ingeniería social. Ellos analizaban el siguiente problema: en una primera cita hay mucho que uno quiere conocer de la otra persona, pero son cosas que no se pueden preguntar porque son preguntas invasivas, o porque simplemente incomodarían a la otra persona.

El datamining y las probabilidades entran en acción. Analizando el total de la gente, han logrado separa bajo distintos factores aquellas preguntas que sí se pueden analizar, y cuál es el factor de correlación con las que no se pueden contestar. Por ejemplo, que alguien te responda que le gusta el sabor de la cerveza implica un 60% de posibilidades de sexo en una primera cita (a muchos les hubiera gustado saber esto antes, verdad?)

Llevenló al aspecto de la seguridad. ¿Cuántas cosas sore la seguridad interna de un sistema o empresa podríamos saber haciendo otro tipo de preguntas?

Sin más explicación, los dejo con el artículo: The Best Questions for a First Date.

Soy un zorrinito social.

Link del día: BigQuery

Gracias a un tweet de Woork me enteré de un proyecto que actualmente forma parte de Google Labs llamado BigQuery.

BigQuery es la posibilidad que nos ofrece Google de utilizar su capacidad de tratamiento de grandes cantidades de información de una manera similar a cómo haríamos con tablas SQL. El problema en este caso es que no se trata realmente de una base de datos relacional, con lo que tenemos que tener cierto tratamiento especial con los datos. La entrada y la salida del mismo por ahora será a través de texto (CSV para importar datos, JSON para obtenerlos), y el lenguaje utilizado es muy similar a SQL, con algunas pequeñas modificaciones y limitaciones.

Tenemos también la posibilidad de integrar la API de BigQuery a nuestros sistemas, si es que podemos sacar provecho de eso, y sin duda utilizarlo de forma programática. Así tendremos la posibilidad de analizar gigabytes o terabytes de data con el poder de Google, instantáneo. No dudo que en el futuro esto logrará mayor funcionalidad y características que puedan llegar a convertirlo en un sistema de datamining muy poderoso. Aún no, pero no creo que estemos lejos.

Soy un zorrinito con muchos datos.