Статистический анализ или анализ данных?

Пятьдесят лет назад границы между «анализом данных» и «статистическим анализом» были довольно четкими. Но по мере развития анализа данных эти линии стали размытыми. Различия между этими двумя терминами в настоящее время очень серые, но есть еще несколько заметных отличий.

Что такое «Анализ данных»?

Специалисты по данным и статистики обычно определяют «анализ данных» по-разному.

  • Для ученого , занимающегося данными, анализ данных анализирует огромные объемы данных: проверка, очистка, моделирование и представление их нетехническим способом ученым, не занимающимся данными. Подавляющее большинство этого анализа данных выполняется на компьютере.
  • Если вы статистик , вместо «огромных объемов данных» у вас обычно будет ограниченный объем информации в виде выборки (то есть части населения); Анализ данных выполняется на этой выборке с использованием строгих статистических методов. 

Как ученые, работающие с данными, так и статистики используют данные, чтобы сделать выводы о потребительской когорте, населении в целом или целевом рынке. Однако они подойдут к вопросу анализа данных совсем по-другому.

  • Аналитик данных  будет иметь науку данных инструментов (например , языки программирования , как Python и R, или опыт работы с фреймворками типа Hadoop и Apache Спарк) , с которыми они могут расследовать умозаключения данные и сделать.
  • С другой стороны, статистический  аналитик  , как правило, использует математические методы, такие как проверка гипотез , вероятность  и различные статистические теоремы, чтобы сделать выводы. Хотя большая часть анализа данных статистика может быть выполнена с помощью статистических программ, таких как R, анализ является более методичным и направленным на понимание одного конкретного аспекта выборки за один раз (например, среднее значение , стандартное отклонение или доверительный интервал ) ,

Жизненный цикл данных  является ключевым фактором для данных рабочих процессов в науке данных:

Вы можете выполнить много шагов анализа данных в науке о данных с очень небольшим статистическим основанием: подготовка данных, преобразование данных.

Что такое статистический анализ?

Вообще говоря, статистический анализ — это наука о выявлении закономерностей и тенденций в данных с использованием статистики . Обратите внимание, что ключевое слово здесь — «статистика» . Чтобы выполнить какой-либо статистический анализ, вам нужно использовать статистику. Исторически только статистики использовали статистические методы для данных. А наука о данных не была чем-то особенным во времена мейнфреймов монтажа на магнитной ленте и программирования на Cobol. Но поскольку наука о данных развивается, она смешивается со многими областями, которые раньше считались исключительной областью статистики: визуализация данных, оптимизация, многомерный анализ и многие другие.

Анализ данных против статистического анализа

Существует большая серая зона:  анализ данных является частью статистического анализа, а статистический анализ является частью анализа данных. Любой компетентный аналитик данных будет хорошо разбираться в статистических инструментах, а некоторые статистики будут иметь некоторый опыт работы с такими языками программирования, как R.

Если вы не понимаете, где находится линия или где происходит это разделение, ключевой вопрос на самом деле таков:

Являются ли две области науки о данных и статистики действительно отдельными объектами? 

В «старой школе» мышление о статистике (то есть, седовласые формулы статистиков, пишущие в переплете, просеивающие через таблицы и выполняющие непонятные тесты гипотез, понятные немногим) по сравнению с наукой о данных (сексуально, на переднем крае технологической революции), затем Можно утверждать, что да, они совершенно разные. Однако, если вы придерживаетесь мнения, что современная статистика больше связана с  «… более широкой идеей более совершенной науки о данных (например, уделяя больше внимания вычислениям в образовании, исследованиях и коммуникации)»  (Carmichael & Marron, 2018), то ответ, вероятно, нет.