The futute of soicial analysis => Deb Roy TED Talk: The birth of a word

MIT researcher Deb Roy wanted to understand how his infant son learned language -- so he wired up his house with videocameras to catch every moment (with exceptions) of his son's life, then parsed 90,000 hours of home video to watch "gaaaa" slowly turn into "water." Astonishing, data-rich research with deep implications for how we learn.

Via | TED Talks

Volkswagen: Print Ad Test Drive

How do you persuade drivers of the benefits of a car, via print advertising? And without getting them to do a real-life test drive? Volkswagen in Norway addressed this by creating an app which allows users to 'test drive' the car within a print ad, using Augmented Reality.

The print ads appeared in some of Norway's most popular print publications. Having downloaded the app, readers held their phone over the print ad to make the car 'drive' and could test out three different features of the vehicle: Lane Assist, Adaptive Lights and Cruise Control. 


Via | Creativity

No se corte solo (en Data Mining)

Nunca es bueno cortarse solo, pero en un proyecto de Data Mining esto puede ser una causa muy directa de su fracaso, aun teniendo el mejor software de data mining disponible y un equipo técnico insuperable. Un buen conocimiento de los métodos de modelización y un dominio de las técnicas de preparación de datos son muy importantes, pero no son garantía de nada. Es indispensable un pensamiento estratégico y fundamentalmente un conocimiento experto del dominio en el que se va a aplicar el proyecto de data mining.

Los proyectos de data mining son proyectos de equipo, de un equipo interdisciplinario. Si un data miner no conoce los detalles "específicos" (de dominio) de un proyecto o si meramente recibe un conjunto de datos pero no conoce el contexto de los mismos, muy probablemente los errores, problemas y déficits del modelo que producirá serán tan notables que relativizarán o incluso inutilizarán la aplicabilidad del modelo. Es que no bastan los datos brutos, se requiere también mucha información de contexto, buena comprensión de los objetivos de un proyecto y su aplicabilidad posterior. Claramente, la parte más importante de la información necesaria no radica en los datos que ingresarán en un modelo sino en un vasto conocimiento de negocio que muchas veces el analista de data mining no posee, pero otras personas en la empresa sí. Algunas de estas son justamente buenas candidatas para incluir en un equipo de data mining.

¿Cómo debe estar conformado el equipo que respalde un proyecto de data mining? Obviamente se necesitan una o dos personas especialistas en data mining, pero el resto no tiene por qué serlo. Los demás deberán aportar el conocimiento que el miner habitualmente no posee: conocimiento de dominio y tal vez conocimiento sobre los recursos de información de la empresa. La conformación exacta del equipo dependerá del tipo de proyecto. Si este involucra cuestiones de marketing es probable que el conocimiento que puedan aportar quienes vienen haciendo esa tarea en la empresa sea importante, también especialistas o gerentes de los productos o servicios involucrados. Si el proyecto involucra cuestiones de precios, algún especialista en pricing puede ser fundamental. Además, es muy probable que un especialista de IT, con amplio conocimiento de las bases de datos y otros recursos de información existentes en la empresa sea muy importante.

La dinámica del grupo puede también ser muy variable y dependerá de su conformación, las características de sus integrantes y la naturaleza del proyecto. El grupo debe ser "interdisciplinario", de modo que los tecnicismos estadísticos o de data mining están fuera de lugar e, incluso, resultarían contraproducentes. Lo que se espera del miner es que pueda explicar simplemente cuál es el objetivo del proyecto, para o por qué se plantea su realización, y especialmente en qué podría ayudar al resto de los integrantes el que ellos lo ayuden a él. Estos deberían ser capaces de responder las distintas inquietudes del miner, suministrar información nueva específica a su área, hacer advertencias sobre problemas potenciales del proyecto desde su punto de vista, especialmente en su desarrollo y aplicación, sugerir estrategias de recolección de datos, reformulaciones de los objetivos, interpretaciones de los resultados y potenciales aplicaciones.

Además de ayudarle a corregir los objetivos de un proyecto, el planteo general o su aplicación, las contribuciones de los especialistas de dominio pueden ser fundamentales en áreas relativamente técnicas del proyecto. Para solo mencionar algunas:

  • Recolección de datos. Cualquiera que haya llevado a cabo un proyecto de data mining sabe de lo engorroso de esta tarea. Puede llegar a constituir un 90% del tiempo empleado en un proyecto. Datos de múltiples fuentes deben ser identificados, probablemente transformados e integrados en una tabla única de análisis. La búsqueda de los datos apropiados, incluso con la ayuda de personas de IT, puede tomar muchísimo tiempo y su resultado es incierto. Los especialistas de dominio en su empresa probablemente tengan una idea mucho más clara de cuáles son las fuentes de datos apropiadas, sus características, etc., después de todo trabajan con estas fuentes todos los días.
  • Interpretación y evaluación de datos. Conocer el nombre, tipo y distribución de valores de cada variable constituye una tarea importante para el data miner. Sin embargo, esto es claramente insuficiente para poder manejar en forma exitosa un conjunto de variables en un modelo. Es esencial poder interpretar cada variable en función del contexto (el problema que se desea resolver), conocer cuál es la escala de medición apropiada, como se relaciona con otras variables, etc. Algo que, evidentemente, los especialistas de dominio pueden aportar dentro de un equipo. Lograr un nivel equivalente de conocimiento le tomaría al data miner meses de trabajo y cometer no pocos errores que podrían perjudicar seriamente el proyecto o al menos su credibilidad. Existen muchas anécdotas al respecto. De una buena comprensión de las variables disponibles surgirán buenas elecciones para tareas importantes de preparación de datos como decidir qué estrategias usar para resolver el problema de los valores faltantes, cómo transformar variables con problemas distribucionales, qué hacer con los valores extremos o atípicos (e incluso detectarlos), generar nuevas variables, más informativas que las variables "brutas" (muchas veces tasas o índices que los especialistas conocen muy bien y son de uso común) e incluso qué variables seleccionar para un modelo.
  • Selección de datos. La selección de variables y casos es una etapa fundamental para asegurar una modelización apropiada y relevante. Es bien conocido el aforismo "entra basura, sale basura". Esto no solo se refiere a la calidad de los datos sino, también, a los propios datos utilizados. El aporte de un equipo interdisciplinario es vital en este respecto.
  • Desarrollo e interpretación de modelos. El desarrollo de modelos no es una tarea lineal, parecida al montaje de una fábrica en la que entran los insumos por un extremo, se introducen y ensamblan las piezas y sale por el otro extremo el producto terminado. Muy por el contrario, el desarrollo de modelos es una tarea iterativa de refinamiento progresivo con no pocas vueltas atrás. Data mining es un trabajo fundamentalmente exploratorio. En este proceso, muchas veces costoso, de desarrollo de un modelo apropiado y útil, la colaboración de especialistas es sumamente importante para hacer que la búsqueda sea lo más focalizada y eficiente posible.
  • Presentación de los resultados. A menos que los proyectos de data mining ya hayan encontrado un nicho "natural" en una empresa, y el manejo y aplicación de modelos sea una actividad rutinaria (algo que todavía no es del todo frecuente), los proyectos de data mining hay que "venderlos" internamente. Esta promoción se basa en la presentación de sus resultados, pero hay que saber hacerlo, principalmente desde el punto de vista político. Por lo general, el data miner tiene un rol más técnico, más alejado de la política de una empresa, de modo que el aporte de los especialistas de dominio del equipo, en especial si tienen un rol gerencial, es crucial para orientar políticamente la venta interna de este tipo de proyectos.

En síntesis, un proyecto exitoso de data mining es el resultado de la colaboración de un equipo interdisciplinario de personas con distintos roles en la empresa. El data miner es el recurso más técnico, pero muchas veces es también el que posee menos conocimiento y experiencia en el dominio de aplicación del proyecto. Debe poder comunicarse eficazmente con el resto de los integrantes del equipo, para facilitar que estos puedan hacer los aportes que tanto necesita. Esto requiere de buenas estrategias comunicativas y también de una conocimiento mínimo razonable del dominio en el que trabajará, no tanto para sustituir al resto de los integrantes (y así cortarse solo, algo que nunca es una buena idea) sino para poder encontrar más fácilmente un "terreno común" con el resto del equipo. Para esto último, podrían serle útiles los siguientes cursos de capacitación:

Analytics aplicado a la industria bancaria
Analytics aplicado a la salud
Analytics aplicado a las telecomunicaciones
Analytics aplicado a manufactura
Data Mining Criminológico
Modelización del churn
Modelización predictiva para CRM

Vía | Prensa SAS

The difference between TV and the internet was how far you sat from the screen

Nethierarchy

It might be about the size of the screen and whether or not you're standing up.

Start at the bottom. For the first five years of the Internet, the most used function was email. Email remains a bedrock of every device and system that's been built on top of the internet, though sometimes it looks like a text message or a mobile check in. This is the layer for asynchronous person to person connection, over time.

Moving from left to right, we see how the way we use the thing we call the internet has evolved over time. We also see how devices and technology and bandwidth have changed the uses of the net and, interestingly, how a growth in mass has led to a growth in self-motivated behavior.

Early online projects were things like Archie and Veronica and checking in changes to the Linux code base. You needed patience, a big screen and a sense of contribution.

Layer on top of this a practice that is getting ever more professional, which is creating content for others to consume. Sometimes in groups, sometimes using sophisticated software and talented cohorts.

As we move to the right (and through time) we see the birth of online shopping. Still to this day, most online shopping happens on traditional devices, often sitting down.

The sitting down part is not a silly aside. Ted Leonsis theorized twenty years ago that the giant difference between TV and the internet was how far you sat from the screen. TV was an 8 foot activity, and you were a consumer. The internet was a 16 inch activity, and you participated. I think the sitting down thing is similar. You're not going to buy an armoir while standing on the subway.

Moving over in time and device and intent, we see the idea of consuming content. While tablets get their share of shopping, this is where they really shine. I think 2011 is going to be the year of the tablet, from the Kindle to the iPad to the thing we used to call a phone.

It's in the last two categories that these other devices, things that don't involve sitting down, are superior, not just a mobile substitute. The social graph is a very low bandwidth, peripheral attention interaction, perfect for this audience and this medium. And the last category--tell me where I am, where to eat, who's near me, what's the weather, get me a cab right now--is all about me and now and here.

I don't believe this is a winner take all situation, any more than one bestselling book makes all other books obsolete. I think different pillars work for different devices, and there will continue to be winners in all of them.

Via | Seth Godin's blog

Nadie acabará con los libros

Bill Gates

Cover of Bill Gates

En Nadie acabará con los libros, de Umberto Eco y Jean-Claude Carrière, el semiólogo y escritor italiano incluye una frase que lo dice todo: “Con Internet hemos vuelto a la era alfabética. Si alguna vez pensamos que  habíamos entrado en la civilización de las imágenes, pues bien, el ordenador nos ha vuelto a introducir en la galaxia Gutenberg y todos se ven de nuevo obligados a leer”.
Por su lado, Bill Gates, el cofundador de Microsoft, asegura: “Todos sabemos que hubo avances en cosas como el audio y el video digital. Pero el principal medio de comunicación para la raza humana es el texto”.
En verdad, podría afirmarse que nunca se escribió tanto como ahora: mensajes de texto o SMS, comentarios o posteos en las redes sociales, blogs, e-mails, e-mailings, newsletters, e-magazines, sitios web.

Vía | Blog AMDIA