Estadística y la ciencia de datos, ¿es lo mismo?
Olivia Gutú
De acuerdo con D. Donoho en su artículo 50 years of Data Science, hace más de 50 años los expertos académicos de la estadística señalaron la existencia de una ciencia aún no reconocida, cuyo tema de interés era aprender de los datos. Estas nuevas tendencias llevaron décadas más tardes a ampliar los límites de la estadística académica más allá del dominio clásico de las estadísticas teóricas, dando énfasis en la preparación y presentación de datos en lugar de modelos estadísticos, y a la predicción más que en la inferencia. Fue entonces cuando surgió el nombre pegadizo de data science (ciencia de datos) en las principales universidades estadounidenses –UC Berkeley, NYU, MIT–. En un principio, la enseñanza en estos nuevos temas tenían una superposición significativa en materia curricular con cursos de estadística tradicional, sin embargo, las nuevas iniciativas se han ido alejando significativamente de esa estrecha relación. Los académicos de la estadística han estado pasando por momentos confusos pues los asuntos que los han preocupado durante siglos están ahora en el centro de atención (incluso mediática), pero ahora están siendo abordados con técnicas atractivas y novedosas por “principiantes” o extraños en el área.
Un ejemplo es la columna de la presidenta de la ASA (American Statistical Association) Aren’t We Data Science? publicada hace unos años donde reflexiona sobre la falta de impacto en la creación de programas en ciencias de datos por parte de los departamentos de estadística o unidades similares. Muchos académicos perciben que la estadística es relevante sólo para datos pequeños y herramientas tradicionales para su análisis, mientras que la ciencia de los datos se centra en el manejo de grandes volúmenes de datos y otros métodos inovadores.
Del otro lado de la moneda, para Rachel Shutt (directiva en el área de ciencias de datos de News Corp) la estadística tiene un enorme potencial para contribuir a la ciencia de los datos ya que existen problemas de investigación abiertos que requieren que los métodos estadísticos clásicos de muestreo, diseño e inferencia causal sean extendidos para ser factibles con conjuntos de datos masivos. Schutt sentencia que pocos de los profesionales de la ciencia de la computación y otros que dominan el panorama de la ciencia de datos están bien versados en estos temas, y muchos adoptan una visión puramente algorítmica del análisis de datos.
En el otro extremo, algunos profesionales de la ciencia de datos tienen una perspectiva diferente. Por ejemplo en Data science without statistics is possible, even desirable, Vincent Granville afirma que a pesar de lo que muchos estadísticos creen, la ciencia moderna de los datos se basa principalmente en principios que no entran dentro de la estadística tradicional y tiene más que ver con el procesamiento de datos “sucios” que con teorías elegantes. Más aún, hay quien afirma que la estadística es la parte menos relevante de la ciencia de datos. De hecho, Andrew Gelman de la Universidad de Columbia afirma que sería justo considerar el muestreo, el diseño experimental y la recopilación de datos, la construcción de modelos, la visualización y la verificación de modelos, así como la inferencia, como un subconjunto de la ciencia de los datos; sin embargo, la parte estadística de la ciencia de los datos es más una opción, dicho de otra forma, se puede hacer modelación de datos sin estadística, pero no se puede hacer sin codificación y bases de datos; cf. Statistics is the least important part of data science.
Por supuesto, también hay versiones más conciliadoras, como afirma Steve Miller en More on Statistics vs Data Science el modelado predictivo de la estadística tradicional tiene un propósito distinto al del aprendizaje máquina (machine learning) sin embargo ambos tipos deben ahora ser parte del arsenal del modelador en ciencia de datos.
En resumen
La ciencia de datos y la estadísticas son disciplinas relacionadas. Algunos creen que son la misma cosa, otros que son diferentes y algunos creen que la estadística es solo una parte de la ciencia de datos. Un argumento imbatible para esta última postura es que la ciencia de datos incluye el tratamiento de los datos –limpieza, procesamiento, análisis, manipulación y almacenamiento– y el analisis de los datos el cual puede provenir de la estadística clásica o no.