Недостатки методов прогнозного моделирования

Здесь привожу свое мнение. Обращаю ваше внимание, что большинство из этих методов получили свое развитие с течением времени (в последние 10 лет). Большинство недостатков было устранено. Тем не менее, мне все еще есть, что сказать про их недостатки.

  1. Линейная регрессия. Полагается на нормальную, гетероскедастичность и другие допущения, не фиксирует сильно нелинейные, хаотические паттерны. Склонен к переоснащению. Параметры трудно интерпретировать. Очень нестабильна, когда независимые переменные сильно коррелированы. Коррекция: уменьшение переменной, применение преобразования к вашим переменным, использование регрессии с ограничениями (например, регрессия Риджа или Лассо)
  2. Традиционные деревья решений. Очень большие деревья решений крайне нестабильны и их невозможно интерпретировать, и они склонны к чрезмерной подгонке. Коррекция: объединяйте несколько маленьких деревьев решений вместе вместо большого дерева решений.
  3. Линейный дискриминантный анализ. Используется для контролируемой кластеризации. Не самая лучшая техника, потому что она предполагает, что кластеры не перекрываются и хорошо разделены гиперплоскостями. На практике лучше используйте методы оценки плотности.
  4. Нейронные сети. Трудно истолковать, нестабильны, подвержены чрезмерной подгонке.
  5. Оценка максимального правдоподобия. Требует, чтобы ваши данные соответствовали заранее заданному вероятностному распределению. Во многих случаях заранее заданное распределение Гаусса очень плохо подходит для ваших данных.
  6. Проклятие размерности — термин, используемый в отношении ряда свойств многомерных пространств и комбинаторных задач. Коррекция: используйте (непараметрические) оценки плотности ядра с адаптивной пропускной способностью.
  7. Наивный байесовский алгоритм. Используется, например, для обнаружения мошенничества и спама, а также для оценок. Предполагается, что переменные являются независимыми. В контексте обнаружения мошенничества или спама переменные (иногда называемые правилами) имеют высокую корреляцию. Коррекция: группировать переменные в независимые кластеры переменных (в каждом кластере переменные сильно коррелированы). Применяйте наивный байесовский эффект к кластерам. Или используйте методы сокращения данных. Плохая техника интеллектуального анализа текста (например, базовые правила «слова» при обнаружении спама) в сочетании с наивным байесовским алгоритмом дает абсолютно ужасные результаты со многими ложными и ложными отрицаниями.

И не забывайте использовать надежные методы перекрестной проверки при тестировании моделей!

Дополнительные комментарии :

Причины, по которым такие модели все еще широко используются:

  1. Многие учебные планы университетов по-прежнему используют устаревшие учебники, поэтому многие студенты не знакомы с лучшими методами обработки данных.
  2. Люди, использующие статистическое программное обеспечение черного ящика, не знающие ограничений, недостатков или того, как правильно настроить параметры и оптимизировать различные ручки, или не понимающие, что на самом деле производит программное обеспечение.
  3. Современные наборы данных значительно сложнее и отличаются от старых наборов данных, которые использовались при первоначальной разработке этих методов. Короче говоря, эти методы не были разработаны для современных наборов данных.
  4. Не существует идеального статистического метода, который применим ко всем наборам данных, но есть много плохих методов.

Кроме того, плохая перекрестная проверка позволяет плохим моделям совершать разрез, переоценивая истинный подъем, ожидаемый в будущих данных, истинную точность или истинную рентабельность инвестиций за пределами учебного набора. Хорошие перекрестные проверки состоят в том, чтобы:

  • разбить ваш тренировочный набор на несколько подмножеств (тестовые и контрольные подмножества), 
  • включать различные типы клиентов и более свежие данные в контрольные наборы (чем в тестовые наборы),
  • проверить качество прогнозируемых значений на контрольных наборах,
  • вычислить доверительные интервалы  для отдельных ошибок (ошибка, определенная, например, как | истинное значение минус прогнозное значение |), чтобы убедиться, что ошибка достаточно мала и не слишком изменчива (имеет небольшую дисперсию во всех наборах элементов управления).

Вывод

Я описала недостатки популярных методов прогнозного моделирования, которые используются многими практиками. Использовать их или нет, решать вам. Если у вас есть какие-то сомнения, напишите мне.

Поделиться публикацией:

Наши кейсы