¿Qué es la alfabetización de datos o data literacy?

El concepto alfabetización de datos o data literacy es la capacidad de leer, comprender y tomar decisiones a partir de datos. Gracias a esta habilidad, empleados de cualquier nivel pueden buscar la información adecuada en datos, tomar decisiones y transmitir a otros el significado de la información.

Algunos de los retos que implica la alfabetización de datos para las compañías son:

Falta de gobernanza.
Falta de seguridad de empleados/directivos.
Reticencia de los empleados.
Falta de una cultura orientada a datos.

Según un estudio reciente (de Censuswide) en el que participaron más de 7.000 directivos, solo el 24% afirmó sentirse con un buen nivel de alfabetización de datos, a pesar que el 92% afirmaron que es importante que los empleados tengan alfabetización de datos, solo el 17% señala que en su organización se estén tomando pasos significativos para que el personal pueda usar datos con mayor confianza.

Darell Huff, escritor estadounidense y conocido por ser el autor del bestseller “How to Lie with Statistics”, el libro más vendido de estadística de la segunda mitad del siglo XX, describe algunos de los errores en la interpretación de las estadísticas y en la facilidad de alterar el significado de los datos.

En el artículo de hoy os traemos un resumen de las mejores prácticas para comprender los datos de forma objetiva según el libro “Cómo mentir con estadísticas”:

1. Observar las correlaciones con escepticismo

Cuando dos variables X e Y están correlacionadas, hay cuatro explicaciones posibles:

A. X causa Y

B. Y causa X

C. Una tercera variable, Z, afecta tanto a X como a Y

D. X e Y no tienen ninguna relación

Por ejemplo, cuando escuchamos que tener unos hábitos de actividad física de forma rutinaria se correlacionan positivamente con una esperanza de vida mayor, llegamos a la conclusión de que cuanto más deporte haces te conduce a una mayor esperanza de vida. Sin embargo, los resultados se podrían ver influenciados por un tercer factor, como la dieta alimentaria o el nivel económico. Esta tercera variable oculta puede llevarnos a conclusiones incorrectas sobre la causalidad.

Se debe tener en cuenta que en los estudios observacionales existen factores adicionales que no medimos, por lo tanto, las preguntas sobre la causalidad se pueden responder mediante ensayos aleatorios controlados.

A los seres humanos les gustan las narrativas ordenadas y causales, pero los datos no siempre dicen lo mismo.

2. Las relaciones no duran para siempre

No podemos asumir que las correlaciones sigan siempre la misma dirección positiva o negativa. Las relaciones lineales casi siempre son solo lineales en una región limitada de ambas variables. Más allá de cierto punto, la relación puede volverse logarítmica, desaparecer por completo o incluso revertirse.

Esto se puede observar en curvas de crecimiento a lo largo del tiempo, en las que por ejemplo puedan existir periodos de linealidad donde el crecimiento ocurre a un ritmo constante, pero eventualmente, el crecimiento se estabiliza porque casi nada continúa creciendo indefinidamente.

3. Observe siempre los ejes en un gráfico

Como primer principio, el eje y en un gráfico de barras siempre debe comenzar en 0. De lo contrario, es fácil probar un argumento manipulando el rango, por ejemplo, convirtiendo aumentos menores en cambios masivos.

Esto es una técnica muy utilizada en los medios de comunicación y esto sucede porque la gente no lee la información. La mayoría de la gente ve un gráfico e inmediatamente saca una conclusión a partir de la forma de las líneas o barras, exactamente como quiere la persona que hizo el gráfico.

4. Las muestras demasiado pequeñas

Cuando se realiza un estudio se utiliza una muestra, es decir, un subconjunto de la población destinado a representar a toda la población. Esto funciona bien cuando la muestra es lo suficientemente grande, pero a menudo, debido a la financiación limitada o las bajas tasas de respuesta, se realizan estudios psicológicos, conductuales y médicos con muestras pequeñas, lo que lleva a resultados cuestionables y poco representativos.

Los seres humanos no somos muy buenos para ajustar el tamaño de la muestra al evaluar un estudio, lo que en la práctica significa que tratamos los resultados de una prueba de 1000 personas de la misma manera que una prueba de 10 personas. Esto se conoce como «insensibilidad al tamaño de la muestra» o «negligencia del tamaño de la muestra».

5. Comprobación del promedio que se utiliza

La definición de promedio puede variar mucho en función de los términos que usemos. Las opciones que existen son las siguientes:

Media: sumar los valores y dividir por el número de observaciones
Mediana: ordene los valores de menor a mayor y encuentre el medio
Moda: encuentra el valor que ocurre con más frecuencia

Por ejemplo, la media y la mediana de ingresos medios en los Estados Unidos difiere en aproximadamente $ 16,000.

Será muy importante conocer cuando se especifica «promedio», debemos aclarar si está hablando de la media o la mediana porque puede marcar una gran diferencia.

El mundo no está distribuido simétricamente y por lo tanto, no debemos esperar que la media y la mediana de una distribución sean iguales.

6. Uso de las comparaciones

Cuando vemos una estadística, la pregunta importante a menudo no es cuál es el valor, sino cómo se compara el valor actual con el valor anterior. En otras palabras, ¿cuál es el cambio relativo en comparación con la magnitud absoluta?

Los datos a menudo se encuentran en escalas con las que no estamos familiarizados y necesitamos una comparación con otros números para saber si una estadística representa un cambio real. Por ejemplo, ¿Es grande la superficie de 14.056.000 KM2 del Océano Artico?

alfebatización de datos o data literacy - data innovation

7. El uso de los referentes para influir en las decisiones

Huff describe la idea de un “nombre aceptable” como uno que se agrega a un estudio para darle un aire de autoridad. Profesionales médicos (doctores), universidades, instituciones científicas y grandes empresas tienen nombres que nos llevan a confiar automáticamente en los resultados que producen. Sin embargo, muchas veces estos “expertos” en realidad no produjeron el trabajo, sino que solo participaron tangencialmente y el nombre se ha agregado para influir en nosotros.

Incluso cuando los resultados provienen de un «experto» confirmado, eso no significa que deba aceptarlos sin dudarlo. El argumento de la autoridad es una falacia que se produce cuando asumimos que es más probable que alguien con mayor poder esté en lo cierto. Esto es falso porque el éxito pasado no influye en si los resultados actuales son correctos.

Conclusiones

En conclusión el libro nos sugiere mantener una mirada escéptica hacia cualquier tipo de datos. Cualquier número representa una destilación de un conjunto de datos, que fueron tomados de una muestra de una población por humanos propensos a errores, utilizando herramientas imperfectas, en condiciones que cambian constantemente en un solo punto en el tiempo.

Todo esto nos lleva a dos conclusiones:

Si usted pone toda su fe en un número, entonces estará sobreajustado a las circunstancias particulares que produjeron el número.

Las estadísticas y los datos nunca son puramente objetivos. Una estadística es una interpretación de datos inciertos diseñada para persuadir.

843

¿Qué es la alfabetización de datos o data literacy?

Aviso Legal

Servicios

Contactar