Недостатки методов прогнозного моделирования

Здесь привожу свое мнение. Обращаю ваше внимание, что большинство из этих методов получили свое развитие с течением времени (в последние 10 лет). Большинство недостатков было устранено. Тем не менее, мне все еще есть, что сказать про их недостатки.
- Линейная регрессия. Полагается на нормальную, гетероскедастичность и другие допущения, не фиксирует сильно нелинейные, хаотические паттерны. Склонен к переоснащению. Параметры трудно интерпретировать. Очень нестабильна, когда независимые переменные сильно коррелированы. Коррекция: уменьшение переменной, применение преобразования к вашим переменным, использование регрессии с ограничениями (например, регрессия Риджа или Лассо)
- Традиционные деревья решений. Очень большие деревья решений крайне нестабильны и их невозможно интерпретировать, и они склонны к чрезмерной подгонке. Коррекция: объединяйте несколько маленьких деревьев решений вместе вместо большого дерева решений.
- Линейный дискриминантный анализ. Используется для контролируемой кластеризации. Не самая лучшая техника, потому что она предполагает, что кластеры не перекрываются и хорошо разделены гиперплоскостями. На практике лучше используйте методы оценки плотности.
- Нейронные сети. Трудно истолковать, нестабильны, подвержены чрезмерной подгонке.
- Оценка максимального правдоподобия. Требует, чтобы ваши данные соответствовали заранее заданному вероятностному распределению. Во многих случаях заранее заданное распределение Гаусса очень плохо подходит для ваших данных.
- Проклятие размерности — термин, используемый в отношении ряда свойств многомерных пространств и комбинаторных задач. Коррекция: используйте (непараметрические) оценки плотности ядра с адаптивной пропускной способностью.
- Наивный байесовский алгоритм. Используется, например, для обнаружения мошенничества и спама, а также для оценок. Предполагается, что переменные являются независимыми. В контексте обнаружения мошенничества или спама переменные (иногда называемые правилами) имеют высокую корреляцию. Коррекция: группировать переменные в независимые кластеры переменных (в каждом кластере переменные сильно коррелированы). Применяйте наивный байесовский эффект к кластерам. Или используйте методы сокращения данных. Плохая техника интеллектуального анализа текста (например, базовые правила «слова» при обнаружении спама) в сочетании с наивным байесовским алгоритмом дает абсолютно ужасные результаты со многими ложными и ложными отрицаниями.
И не забывайте использовать надежные методы перекрестной проверки при тестировании моделей!
Дополнительные комментарии :
Причины, по которым такие модели все еще широко используются:
- Многие учебные планы университетов по-прежнему используют устаревшие учебники, поэтому многие студенты не знакомы с лучшими методами обработки данных.
- Люди, использующие статистическое программное обеспечение черного ящика, не знающие ограничений, недостатков или того, как правильно настроить параметры и оптимизировать различные ручки, или не понимающие, что на самом деле производит программное обеспечение.
- Современные наборы данных значительно сложнее и отличаются от старых наборов данных, которые использовались при первоначальной разработке этих методов. Короче говоря, эти методы не были разработаны для современных наборов данных.
- Не существует идеального статистического метода, который применим ко всем наборам данных, но есть много плохих методов.
Кроме того, плохая перекрестная проверка позволяет плохим моделям совершать разрез, переоценивая истинный подъем, ожидаемый в будущих данных, истинную точность или истинную рентабельность инвестиций за пределами учебного набора. Хорошие перекрестные проверки состоят в том, чтобы:
- разбить ваш тренировочный набор на несколько подмножеств (тестовые и контрольные подмножества),
- включать различные типы клиентов и более свежие данные в контрольные наборы (чем в тестовые наборы),
- проверить качество прогнозируемых значений на контрольных наборах,
- вычислить доверительные интервалы для отдельных ошибок (ошибка, определенная, например, как | истинное значение минус прогнозное значение |), чтобы убедиться, что ошибка достаточно мала и не слишком изменчива (имеет небольшую дисперсию во всех наборах элементов управления).
Вывод
Я описала недостатки популярных методов прогнозного моделирования, которые используются многими практиками. Использовать их или нет, решать вам. Если у вас есть какие-то сомнения, напишите мне.