Data Quality, por qué y para qué

Los datos son un recurso crítico de una organización. Los datos y la información elaborada a partir de ellos son vitales para cualquier organización en el siglo XXI: son un factor fundamental para su supervivencia. Iniciativas estratégicas como CRM, BI y supply chain management requieren grandes conjuntos de datos de buena calidad. La mayoría de las organizaciones sobreestiman considerablemente la calidad de sus datos y subestiman el impacto de una baja calidad.

Problemas producidos por una baja calidad de datos

 Una baja calidad de datos hace que las empresas incurran en costos innecesarios de imprenta, envíos postales y recursos humanos. Erosiona la credibilidad de una organización desde el punto de vista de clientes y proveedores. Impide o dificulta decisiones correctas basadas en información precisa. El problema de una baja calidad de datos empeora con el tiempo: expertos estiman que un 2% de los registros de una base de clientes se vuelven obsoletos en un mes, debido a que estos se mueren, se divorcian, se casan, se mudan, etc. Los errores de data entry, las migraciones de sistemas, los cambios en los sistemas fuente, etc. generan muchísimos nuevos errores.

Las fuentes de una baja calidad son diversas, como lo muestra el siguiente gráfico:
Figura 1 Fuentes de baja calidad de datos.

Figura 1 – Fuentes de baja calidad de datos.
 

Según un estudio del Data Warehousing Institute, los dos principales desafíos que enfrentan las compañías que implementan soluciones de CRM son el manejo de la calidad de datos y la consistencia de los mismos (46% de las empresas evaluadas), y reconciliar los registros de los clientes (40% de las empresas). En el mismo estudio se estima que un 40% de las empresas sufrieron pérdidas, problemas o costos debido a una baja calidad de datos y que un 43% de las empresas probablemente experimentaron problemas similares, pero no detectaron la cuestión.
Figura 2 - Impacto de una baja calidad de datos.

Figura 2 - Impacto de una baja calidad de datos.
 

Los costos de no enfrentar el problema son onerosos. El Data Warehousing Institute estimó en 2002 que los problemas de calidad de datos costaron a las empresas estadounidenses 611 mil millones de dólares anuales. Larry English estima que de un 10 a un 25% de los ingresos operativos de una compañía se emplean en resolver los problemas ocasionados por una baja calidad de datos.

Algunos ejemplos concretos

  • Una compañía de seguros recibe 2 millones de reclamos mensuales, con 377 elementos de datos por reclamo. A una tasa de error de .001, los datos de los reclamos contienen 754.000 errores por mes y más de 9.04 millones por año. Una estimación muy básica de los costos incurridos debido a los errores es de 10 millones de dólares anuales.
  • Una empresa de telecomunicaciones perdió 8 millones de dólares en un mes solo en facturaciones erróneas a sus clientes debido a errores de data entry.
  • Un banco estimó el ROI de su proyecto de calidad de datos en 100.000 dólares anuales.
  • Una empresa internacional de educación en línea ahorra anualmente 500.000 dólares en correo, a partir de la implementación de un programa de calidad de datos. La empresa envía anualmente 20 millones de piezas de correo a clientes y prospectos.

¿Qué es calidad de datos?

Calidad de datos es adecuar las características de los datos de un negocio a sus necesidades. Las características que colectivamente conforman la calidad de los datos son:

  • Precisión
  • Integridad
  • Consistencia
  • Completitud
  • Validez
  • Oportunidad
  • Accesibilidad

Los conjuntos de datos totalmente libres de errores son sospechosos antes de un trabajo de calidad de datos y una utopía después de este.

Las claves para resolver el problema de una baja calidad de datos son:

  • Considerar los datos como un recurso estratégico.
  • Desarrollar un programa de calidad de datos con un fuerte compromiso de los estamentos gerenciales superiores.
  • Utilizar profesionales experimentados en calidad de datos para monitorear y llevar a cabo el programa.
  • Utilizar herramientas computacionales apropiadas de calidad de datos.
  • Monitorear y mantener la calidad de datos una vez alcanzado un cierto nivel de calidad.


Metodología de calidad de datos

Una metodología más o menos estándar de calidad de datos consiste en:

  1. Lanzar un programa de calidad de datos que involucre a toda la empresa, especialmente la capa gerencial superior
  2. Desarrollar un plan (o planes) del proyecto
  3. Construir un equipo de calidad de datos
  4. Revisar los procesos de negocios y la arquitectura de datos
  5. Evaluar la calidad de datos
  6. Limpieza de datos
  7. Monitoreo de datos

 

Etapas específicas de un proceso de calidad de Datos

Las etapas básicas de un proceso de calidad de datos son:

  • Auditoría o profiling: evaluación de la calidad de datos en las áreas clave
  • Construcción de reglas, esquemas, gramáticas y métricas de calidad de datos
  • Aplicación de las herramientas construidas a la limpieza de datos
  • Monitoreo y detección en tiempo real de nuevos errores


Herramientas de calidad de datos

Si bien un buen programa de calidad de datos es el resultado de una apropiada administración de personas y procesos, las herramientas tecnológicas tienen un papel importante. Muchas empresas realizan tareas de limpieza de datos con herramientas caseras, programas en SQL o herramientas limitadas incluidas en productos de ETL. El mercado de herramientas de calidad de datos es aun pequeño, pero se encuentra en expansión. Aproximadamente un tercio de las empresas tienen actualmente herramientas específicas de calidad de datos.

La funcionalidad esperable de las herramientas de calidad de datos consiste de:

  • Profiling de datos
  • Parsing de datos
  • Estandarización o normalización
  • Verificación
  • Matching
  • Consolidación

Dentro del conjunto de herramientas de calidad de datos, sobresalen las de DataFlux, una empresa de SAS. Sus herramientas son consideradas líderes en su tipo, como lo ilustra el siguiente “cuadrado mágico” de Gartner.
Figura 3 - Gartner Magic Quadrant for Data Quality Tools 2009

Figura 3 - Gartner Magic Quadrant for Data Quality Tools 2009
 

Algunos “tips”

  • Una herramienta de calidad de datos puede, en forma “out of the box”, resolver un 80% de los problemas de calidad de datos de una empresa, el resto debe resolverse complementando las herramientas con nuevas reglas, esquemas y gramáticas que surgen del análisis de los datos existentes.
  • Una herramienta debe incluir una base de conocimiento del lenguaje regional (español argentino, por ejemplo) y un “locale” apropiado (Argentina). La aplicación de bases o locales más genéricos (p. ej. español) disminuyen notablemente la efectividad de las herramientas de calidad de datos.
  • Herramientas de ETL, text minining, data mininig, estadísticas, etc. tienen funcionalidades sumamente limitadas de calidad de datos. No son apropiadas como herramientas centrales en un programa de calidad de datos.
  • Los criterios fundamentales para evaluar una herramienta de calidad de datos son: performance en relación con el precio, funcionalidades, facilidad de uso e integración con las herramientas existentes.
  • Algunas herramientas se concentraron históricamente en la calidad de datos de Nombres y Direcciones. Actualmente esto es insuficiente.
Fuente: Por José Alvarez - SAS Educación

Las limitaciones de la práctica del análisis de supervivencia

Las técnicas de data mining tradicional predicen la ocurrencia de sucesos específicos en un cierto intervalo (relativamente breve) de tiempo futuro, no cuándo ocurrirán. Es decir, predicen, por ejemplo, qué clientes probablemente desertarán el mes que viene, pero NO cuándo desertarán durante los próximos dos años.

 Como alternativa, el data mining basado en el análisis de supervivencia agrega el elemento de cuándo ocurren las cosas. La supervivencia es particularmente valiosa para ganar en comprensión de los clientes y cuantificar esa comprensión. Una estimación de cuánto durarán los clientes es útil para cálculos de valor, además de comparaciones directas entre diversos grupos. La estimación de la duración de la relación con el cliente puede refinarse en base a las características del periodo inicial de análisis, además de con los sucesos que ocurren durante su ciclo de vida.

 El análisis de supervivencia consiste en el análisis del tiempo transcurrido hasta un suceso o hasta la repetición n-ésima de un suceso. Sus conceptos, herramientas y terminología provienen de la medicina, donde se intenta estimar, por ejemplo, cuánto tiempo sobrevivirán los pacientes en base a alguna intervención médica. Puede medir los efectos de variables (covariables iniciales o covariables dependientes del tiempo) sobre el tiempo de supervivencia y es una herramienta natural para comprender la relación con los clientes

El enfoque tradicional y el de supervivencia son complementarios. Uno u otro es más apropiado para diferentes problemas. Por ejemplo, para una campaña específica de marketing basada en el ROI, el enfoque tradicional usualmente funciona mejor que el enfoque de supervivencia, porque la campaña ocurre durante un periodo particular de tiempo. Para la comprensión de las relaciones con los clientes y cuantificar resultados en el tiempo, el análisis de supervivencia es preferible.
 
 En términos generales, el análisis de supervivencia busca comprender:

  • Cuándo ocurren sucesos particulares
  • Comprender qué factores afectan el cuándo
  • Cuantificar qué ocurre a lo largo del tiempo

El análisis de supervivencia plantea al data mining tradicional novedades a nivel de los conceptos y herramientas involucrados. En cuanto a los conceptos, los siguientes son esenciales: “tenure” (antigüedad o permanencia), riesgo y su estimación no sesgada, supervivencia, censura, truncado a izquierda, efecto y tipos de covariables, predicción por tipo de cliente. En cuanto a las herramientas, las siguientes son las más utilizadas: gráficos de función de riesgo, gráficos de función de supervivencia, estratificación, regresión de Cox y tiempo mediano residual.

Figura 3 – Ejemplo de función empírica de riesgo. Clientes suscriptos a un servicio particular (por ejemplo, telefonía celular).

Figura 3 – Ejemplo de función empírica de riesgo. Clientes suscriptos a un servicio particular (por ejemplo, telefonía celular).

Fuente: Por José Alvarez - SAS Argentina | Educación

 

Data Quality and the Cupertino Effect

The city seal of Cupertino from 1999 to 2007.

Image via Wikipedia

The Cupertino Effect can occur when you accept the suggestion of a spellchecker program, which was attempting to assist you with a misspelled word (or what it “thinks” is a misspelling because it cannot find an exact match for the word in its dictionary). 

Although the suggestion (or in most cases, a list of possible words is suggested) is indeed spelled correctly, it might not be the word you were trying to spell, and in some cases, by accepting the suggestion, you create a contextually inappropriate result.

It’s called the “Cupertino” effect because with older programs the word “cooperation” was only listed in the spellchecking dictionary in hyphenated form (i.e., “co-operation”), making the spellchecker suggest “Cupertino” (i.e., the California city and home of the worldwide headquarters of Apple, Inc.,  thereby essentially guaranteeing it to be in all spellchecking dictionaries).

By accepting the suggestion of a spellchecker program (and if there’s only one suggested word listed, don’t we always accept it?), a sentence where we intended to write something like:

“Cooperation is vital to our mutual success.”

Becomes instead:

“Cupertino is vital to our mutual success.”

And then confusion ensues (or hilarity—or both).

Beyond being a data quality issue for unstructured data (e.g., documents, e-mail messages, blog posts, etc.), the Cupertino Effect reminded me of the accuracy versus context debate.

Via | SmartDataCollective

 

 

Las limitaciones de la práctica de las reglas de asociación

Логотип SAS Institute

Image via Wikipedia

El paradigma general del análisis de reglas de asociación es:

  1. Generar reglas de asociación limitando soporte y confianza.
  2. Seleccionar las reglas “interesantes” usando lift, confianza y soporte.
  3. Usar la “lógica del ítem ausente”: recomendar el ítem ausente en una regla aplicada a un segmento de clientes.

Sin embargo, este paradigma tiene serios problemas y limitaciones. No conocerlos y saber cómo superarlos conduce directamente a aplicaciones triviales o erróneas del análisis de reglas de asociación.

La cantidad de reglas obtenidas es función de la cantidad de transacciones, la cantidad de ítems y la composición de las transacciones. Cuanto mayor el número de reglas obtenido, más difícil es la selección de las reglas útiles o relevantes. Para la selección se utilizan las medidas de soporte, confianza y lift representadas en tablas o gráficos. Pero estas medidas son muchas veces insuficientes. Las reglas interesantes no pueden determinarse automáticamente a partir de lift, confianza o soporte. Las reglas con lift elevado frecuentemente representan “rarezas” que no son generales o suficientemente confiables (efectos de nicho). Las reglas con confianza elevada frecuentemente representan patrones conocidos por un especialista de dominio. Las reglas con soporte elevado son usualmente triviales o no interesantes. Las reglas que tienen lift, soporte y confianza elevados son raras.

Suele ser conveniente alguna tarea adicional para seleccionar reglas útiles, por ejemplo, ordenamiento de las reglas por rango en base a su valor potencial o real para el negocio, focalización en ítems o combinación de ítems de interés, etc. Las tareas adicionales requieren manipulación de la tabla de reglas (vía programación probablemente). Pero existe el inconveniente de que los datos relevantes para muchas de estas tareas adicionales no suelen incorporarse al análisis, aunque podrían ser muy valiosos: monto de la transacción, costo o ganancia de los ítems de la transacción, cantidad de ítems comprados, etc.

Además, la aplicación y especialmente utilidad de las reglas de asociación tienen una fuerte dependencia del dominio. Algunos ejemplos:

  • Las reglas de asociación no son muy útiles en sectores donde la adquisición o tenencia de ítems depende fuertemente de campañas de marketing.
  • No son útiles en sectores con adquisición o tenencia de pocos productos.
  • En fraude, seguros y otros se buscan las combinaciones infrecuentes, no las frecuentes.
  • Algunos problemas requieren identificar las asociaciones negativas, no las positivas.
  • Problemas médicos, entre otros, requieren encontrar asociaciones positivas y negativas.

Estas cuestiones hacen que las reglas de asociación no sean buena elección para construir modelos de cross-selling en industrias como bancos minoristas porque las reglas terminan describiendo promociones previas. También en la industria bancaria minorista, los clientes típicamente inician con uno o dos productos. La diferenciación entre productos solo aparece cuando los clientes tienen más productos. Recién en ese momento puede ser interesante la aplicación de un análisis de reglas de asociación.
 
 Las técnicas simples de análisis de asociación calculan el soporte para la combinación de tipos específicos de ítems. Estos soportes podrían no ser suficientemente grandes como para generar reglas. Este problema es tanto más probable cuanto mayor sea la diversidad de ítems. Sin embargo, si se calcula el soporte de la combinación de cualquier tipo de ítem dentro de categorías, el valor obtenido podría superar el umbral de soporte. Esto lleva a la utilización de reglas de asociación “generalizadas”, es decir, no solo entre los ítems individuales, sino entre ítems y clases de ítems (categorías) o incluso incorporando ítems “virtuales”. Una jerarquía puede también ayudar a evitar los efectos de ítems con frecuencias muy desiguales. Se agregan los ítems infrecuentes usando la jerarquía para generar clases de ítems más frecuentes, mientras que los ítems frecuentes se mantienen en su nivel.

Los ítems “virtuales” son características o propiedades que no forman parte de los ítems considerados o de una jerarquía de los mismos. Pueden ser características vinculadas a las transacciones (p. ej., día de la semana, modo de pago, etc.), a los clientes que realizaron las transacciones (características demográficas) o clases de ítems que atraviesan la jerarquía (por ejemplo, marcas, fabricantes, etc.). El propósito de los ítems virtuales es permitir que el análisis pueda usar información que va más allá de los ítems individuales o una jerarquía de productos.

Finalmente, el análisis de reglas de asociación puede ser una muy buena herramienta para caracterizar diferencialmente segmentos de clientes o para generar nuevas variables relacionales con las cuales alimentar modelos predictivos.

La práctica usual de análisis de reglas de asociación es la mencionada al principio, la que surge del paradigma de “ítem ausente”. Muy raramente se ve la utilización de las distintas técnicas y consideraciones mencionadas. Resulta, entonces, una aplicación insuficiente de esta herramienta.

Fuente: Por José Alvarez - SAS Argentina | Educación

Errores de concepción sobre las redes neuronales

Existen diversos errores de concepción sobre las redes neuronales que hacen que estas no se apliquen en los contextos apropiados o de un modo adecuado. Algunos de estos errores se vinculan con lo siguiente:

  • Qué limitaciones de los métodos tradicionales superan
  • Son métodos ineficientes (computacionalmente complejos) para hacer predicciones (scoring)
  • Son difíciles de interpretar

Los métodos más tradicionales, como el análisis de regresión tradicional, son muy limitados respecto del número de variables predictoras que pueden considerar:

  • es difícil especificar la forma funcional de modelos no lineales y polinomiales con más de unas pocas variables
  • la regresión no paramétrica puede fallar debido a la escasez relativa de datos en altas dimensiones

Una red neuronal, en cambio, tiene, por lo general, buena performance en espacios ralos de dimensión elevada. La función que describe la relación de entrada-salida no necesita ser especificada… ni siquiera comprendida. Basta una especificación genérica en términos de cantidad de capas ocultas, unidades en cada capa, tipo de función de activación, tipo de conexión, etc. Dada una cantidad suficiente de unidades y tiempo, una red neuronal puede modelizar cualquier relación de entrada/salida, con cualquier grado deseado de precisión. Es decir, las redes neuronales son “aproximadores universales”.

Muchas veces se confunde el hecho de que una red neuronal puede ser un “aproximador universal” con una capacidad predictiva casi mágica. Uno de los aspectos principales en esta confusión es una concepción difusa sobre lo que se debe modelizar (la “señal”) y lo que no (el “ruido”). A una tasa señal/ruido apropiada y para una función de entrada/salida a modelizar suficientemente compleja, una red neuronal es claramente la mejor técnica. Cuando la tasa señal/ruido es suficientemente baja una red neuronal no ofrece ningún valor agregado y, al contrario, su gran flexibilidad puede ser contraproducente. Para funciones de entrada/salida simples, nuevamente, una red neuronal no plantea grandes ventajas, si bien puede generar modelos tan precisos como cualquier otra técnica. Estas situaciones se ilustran en el siguiente gráfico.

Figura 2 Modelización y tasa señal/ruido.

Figura 2 – Modelización y tasa señal/ruido.

Muchas veces se confunde el entrenamiento de una red neuronal (que puede ser más costoso que otros modelos, aunque este es un costo de “única vez” y cada vez menos pesado dada la potencia computacional actual) con su utilización para hacer predicciones (scoring). En un sentido genérico (pero falaz) se dice que la red es más costosa computacionalmente. Esto no es cierto cuando hablamos de su aplicación a la predicción. Una red neuronal es uno de los algoritmos más veloces para scoring, lo que lo hace muy apropiado para predicciones en línea, filtrado de grandes volúmenes de datos, etc.

También es famosa la objeción de “caja negra”, usada frecuentemente para evitar el uso de redes neuronales. Es difícil interpretar una red neuronal, especialmente si se intentan interpretar los pesos de sus conexiones al estilo de lo que se hace con los valores de los parámetros de una regresión lineal. Pero esta no es la única manera de interpretar una red neuronal. El método de modelo subrogante es sencillo y bastante satisfactorio. Este método consiste en aplicar otra técnica de modelización, típicamente un árbol de decisiones, para “abrir” la caja negra, es decir, un modelo fácilmente interpretable que predice la predicción de la red neuronal.

Sin despejar estos errores de concepción sobre las redes neuronales, no es posible usar esta técnica de un modo “experto”, ni siquiera de una manera apropiada.

Fuente: Por José Alvarez - SAS Argentina | Educación

Las limitaciones de la práctica de Data Mining I: La regresión logística

Uso inapropiado de las técnicas: regresión logística

La regresión logística es una técnica paramétrica de modelización. Es decir, adopta supuestos sobre la distribución de las variables involucradas. Un supuesto de la regresión logística es que la relación entre la variable target transformada (el logit) y las variables predictoras es lineal. Una consecuencia de vulnerar el supuesto de linealidad es el deterioro de la capacidad predictiva del modelo. En el análisis de regresión lineal es una práctica estándar examinar gráficos de dispersión de la variable target contra cada variable predictora. Cuando la variable target es binaria estos gráficos no son apropiados. En cambio, se debe usar la técnica de graficar los logits empíricos, mediante los cuales puede observarse si la relación entre cada variable predictora y el logit de la variable target es razonablemente lineal. De no serlo, las curvas sugieren posibles transformaciones adecuadas. Esta técnica, muy simple, rara vez es usada entre quienes utilizan regresiones logísticas, con las consecuencias del caso.

Figura 1 Gráficos de logits empíricos

Figura 1 – Gráficos de logits empíricos.

Fuente: Por José Alvarez - SAS Argentina | Educación

Seth's Blog: Information about information

A Zara store at Liat Towers, Singapore.

Image via Wikipedia

The first revolution hit when people who made stuff started to discover that information was often as valuable as the stuff itself. Knowing where something was or how it performed or how it interacted with you can be worth more than the item itself.

Frito Lay dominates the snack business because of the information infrastructure they built on top of their delivery model. 7 Eleven in Japan dominated for a decade or more because they used information to change their inventory. Zara in Europe is an information business that happens to sell clothes.

You've probably already guessed what's now: information about information. That's what Facebook and Google and Bloomberg do for a living. They create a meta-layer, a world of information about the information itself.

And why is this so valuable? Because it compounds. A tiny head start in access to this information gives you a huge advantage in the stock market. Or in marketing. Or in fundraising.

Many people and organizations are contributing to this mass of data, but few are taking advantage of the opportunity to collate it and present it to people who desperately need it. Think about how much needs to be sorted, compared, updated and presented to people who want to choose or learn or trade on it.

The race to deliver this essential scalable asset isn't over, it's just beginning.

Via | Seth's Blog

Campaña "Wheels are the Champions" de Metzeler España

Metzeler logo

Image via Wikipedia

Metzeler, la marca de neumáticos de moto del Grupo Pirelli, lanza un nuevo concurso internacional a través de su web para acercar la marca de nuevo a sus usuarios finales: “Wheels are the Champions”; una propuesta que se enmarca en su estrategia de comunicación, bautizada como Interact ™ with ME.

Esta estrategia de comunicación, bautizada como Interact ™ with ME, está basada en una filosofía de interacción entre Metzeler, sus neumáticos y los clientes, que tiene como objetivo que éstos puedan vivir con intensidad el mundo de la moto, mientras colaboran con la marca en el desarrollo de sus productos.

“Wheels are the Champions  es un concurso de vídeo en el que se pide a los participantes que simulen, a través de sus webcams, el sonido del motor y los gestos de pilotaje que realizarían si estuvieran recorriendo los circuitos y vías off road que Metzeler permite visionar previamente en la página web del concurso. Tras grabarse realizando esta prueba, los usuarios deben distribuir el video entre sus conocidos para conseguir el mayor número de votos posible entre éstos. El ganador será aquel participante que logre acumular un mayor apoyo entre sus amigos.
 
Este concurso, que se inició el 12 de julio y finaliza el próximo 13 de septiembre, otorga un gran premio especial: una Honda VFR1200F 2010 equipada con Roadtec Z8 Interact ™, además de sortear diez juegos de estos mismos neumáticos entre todos los participantes.
 
Para participar en “Wheels are the Champions” es necesario ser mayor de edad y tener carnet de conducir moto en el país de residencia. Las instrucciones de participación, los vídeos de los concursantes y los resultados finales se irán actualizando a través de http://www.wheelsarethechampions.com y en la página web de Metzeler http://www.metzelermoto.es

Vía |
autoprofesional.com

Las limitaciones de la práctica en el análisis de las redes sociales

El análisis de redes sociales (SNA) constituye un conjunto de métodos relacionales para comprender e identificar conexiones entre actores (puntos, nodos o agentes) que tienen su origen en la sociología matemática (inicialmente el estudio de sociogramas). Representa un enfoque que intenta superar las limitaciones de las técnicas no relacionales (independencia entre los casos, atributos en lugar de relaciones, etc.). Utiliza técnicas matemáticas (especialmente teoría de grafos) e importantes recursos computacionales. Las redes sociales pueden involucran un gran número de objetos (p. ej., 60 millones de celulares, 300-400 millones de vínculos, 7-9 millones de subredes, etc.) y estructuras (subredes) anidadas. Unos cuantos problemas importantes en inteligencia de negocios como churn, fraude, difusión de servicios o productos, marketing directo involucran de un modo fundamental a las redes sociales.

Debido a que lo importante es la relación entre los actores, es difícil implementar muestreos aleatorios de observaciones independientes. Frecuentemente se debe considerar una estructura “multimodal”: subredes anidadas en otras (red de relaciones familiares anidada en la red de relaciones sociales de grupos, anidada en la red de relaciones sociales de comunidades, etc.). Muchos análisis solo representan una relación o vínculo entre los actores. Algunos pocos análisis son multirrelacionales. Las relaciones pueden ser binarias, nominales, ordinales o de intervalo.

En cuanto a las novedades conceptuales planteadas por el análisis de redes sociales encontramos principalmente: varios niveles de análisis (no solo los casos individuales), contagio, difusión, cohesión, roles, muestreo agrupado en lugar de muestreo simple o estratificado, y en muchos casos, toda la población, investigación (en lugar de modelización) y la relevancia de los conceptos de teoría de grafos. En cuanto a las herramientas utilizadas, estas son fundamentalmente: grafos (muy grandes), graficación interactiva, alarmas basadas en métricas e inferencia colectiva.


Figura 4 Vista de un subgrafo para un problema de fraude “first party” en la solución de SNA de SAS.
Figura 4 – Vista de un subgrafo para un problema de fraude “first party” en la solución de SNA de SAS.

Fuente: Por José Alvarez - SAS Argentina | Educación

Social Media in Business: Fortune 100 Statistics

With more people utilising social media technologies such as Twitter, Foursquare and Facebook, it makes sense that established and emerging businesses are looking to leverage these technologies to reach and communicate with their target audiences. In this post we take a look at the adoption of these social tools by Fortune 100 companies. From micro blogging [...]

With more people utilising social media technologies such as Twitter, Foursquare and Facebook, it makes sense that established and emerging businesses are looking to leverage these technologies to reach and communicate with their target audiences.

In this post we take a look at the adoption of these social tools by Fortune 100 companies. From micro blogging to video syndication – we dive into the key statistics of these global companies and reveal how they are engaging with their customers using these social platforms. Data is provided by Burson-Marsteller.

Social Media Fortune 100 Statistics

Fortune 100 Social Media Statistics: key takeaways

  • 79% of the Fortune 100 are present and listening, using at least of one of the main social platforms to communicate with their customers.
  • 20% of Companies are using all four of the main social technologies (Twitter, YouTube, Facebook, and Blogs)
  • 82% of the Fortune 100 update and engage with customers on their Twitter account per week.
  • Fortune 100 Companies on average post 3.6 wall posts to their Facebook page per week
  • 50% of the Fortune 100 have a YouTube account and upload 10 videos on average a month

The above infographic and stats shows that the Fortune 100 are actively using these platforms to engage with their target demographics. The next step to engagement for these companies Location Based?

Via | istrategy