10 видов регрессий. Какой использовать?

Стоит ли использовать линейную или логистическую регрессию? В каких контекстах? Существуют сотни типов регрессий. Вот обзор для исследователей данных и других аналитиков, чтобы помочь вам решить, какую регрессию использовать в зависимости от вашего контекста. 

  • Линейная регрессия: самый старый тип регрессии, разработанный 250 лет назад; расчеты (на небольших данных) могут быть легко выполнены человеком по замыслу. Может использоваться для интерполяции, но не подходит для прогнозной аналитики; имеет много недостатков применительно к современным данным, например, чувствительность как к выбросам, так и кросс-корреляциям (как в области переменных, так и в области наблюдений), и подвержена чрезмерному соответствию. Лучшим решением является кусочно-линейная регрессия, особенно для временных рядов.
  • Логистическая регрессия: широко используется в клинических испытаниях, оценке и мошенничестве, когда ответ является двоичным (вероятность успеха или неудачи, например, для нового проверенного лекарства или транзакции по кредитной карте). Имеет те же недостатки, что и линейная регрессия (не устойчивая, зависящая от модели), и вычисление коэффициентов регрессии связано с использованием сложного итеративного, численно неустойчивого алгоритма. Может быть хорошо аппроксимирован линейной регрессией после преобразования ответа (логит-преобразование). Некоторые версии (регрессия Пуассона или Кокса) были разработаны для недвоичного ответа, для категориальных данных (классификация), упорядоченного целочисленного ответа (возрастные группы) и даже непрерывного ответа (деревья регрессии).
  • Регрессия гребня: более надежная версия линейной регрессии, накладывающая ограничения на коэффициенты регрессии, чтобы сделать их намного более естественными, менее подверженными чрезмерной подгонке и легче интерпретировать. 
  • Регрессия Лассо: аналогично регрессии гребня, но автоматически выполняет переменное уменьшение ( позволяя коэффициентам регрессии быть равными нулю ). 
  • Экологическая регрессия: состоит в выполнении одной регрессии на страты, если ваши данные сегментированы на несколько достаточно крупных базовых страт, групп или бинов. Остерегайтесь проклятия больших данных  в этом контексте: если вы выполните миллионы регрессий, некоторые из них будут полностью ошибочными, а лучшие будут омрачены шумными с большим, но искусственным совершенством: большая проблема, если вы попытаетесь выявить экстремальные явления и причинно-следственные связи  (глобальное потепление, редкие заболевания или моделирование экстремальных паводков). Вот решение  этой проблемы.
  • Регрессия в необычных пространствах: Пример: чтобы определить, происходят ли фрагменты метеоритов из одного и того же небесного тела, или провести обратную разработку формулы Кока-Колы.
  • Логическая регрессия: используется, когда все переменные являются двоичными, обычно в алгоритмах оценки. Это специализированная, более устойчивая форма логистической регрессии (полезная для обнаружения мошенничества, где каждая переменная является правилом 0/1), где все переменные были объединены в двоичные переменные.
  • Байесовская регрессия: Это своего рода штрафная оценка правдоподобия , и, следовательно, чем-то похожая на регрессию гребня: более гибкая и стабильная, чем традиционная линейная регрессия. Предполагается, что у вас есть какие-то предварительные знания о коэффициентах регрессии и об ошибке: смягчение предположения о том, что ошибка должна иметь нормальное распределение (ошибка должна быть независимой от наблюдений). Однако на практике предшествующее знание переводится на искусственные (сопряженные) априорные значения — слабость этой техники.
  • Квантильная регрессия: используется в связи с экстремальными событиями.
  • LAD регрессия: аналогично линейной регрессии, но с использованием абсолютных значений (пространство L1), а не квадратов (пространство L2). 
  • Регрессия складного ножа : это новый тип регрессии, также используемый в качестве общей техники кластеризации и сокращения данных. Это решает все недостатки традиционной регрессии. Он обеспечивает приблизительное, но очень точное и надежное решение проблем регрессии и хорошо работает с «независимыми» переменными, которые коррелированы и / или ненормальны (например, данные, распределенные по смешанной модели с несколькими режимами). Идеально подходит для алгоритмов прогнозирования черного ящика. Он достаточно хорошо аппроксимирует линейную регрессию, но он гораздо более надежен и работает, когда допущения традиционной регрессии (некоррелированные переменные, нормальные данные, гомоскедастичность) нарушаются.

Примечание: регрессия складного ножа не имеет никакого отношения к складочному ножу Брэдли Эфрона, бутстрапу и другим методам повторной выборки, опубликованным в 1982 году; на самом деле это не имеет ничего общего с методами повторной выборки.