Демонстрация возможностей моделей глубокого обучения, используемых во временных рядах, по сравнению с предыдущими моделями машинного обучения.

Во второй части мы анализируем и используем температуру наружного воздуха в качестве дополнительной переменной для прогнозирования потребления электроэнергии. Наружная температура является интересной переменной, потому что мы часто используем ее в качестве визуального индикатора, чтобы использовать кондиционер для охлаждения или нагревательные устройства для обогрева наших домов. Это, конечно, может иметь прямое влияние на потребление электроэнергии.

Сколько электроэнергии потребляет мой обогреватель?

Большинство электрических обогревателей потребляют 1500 Вт, но некоторые немного меньше или чуть больше. Поскольку 1000 ватт равняется 1 киловатту, это означает, что нагреватель потребляет 1,5 киловатта мощности. Умножьте количество ватт, которое использует электрический обогреватель, на количество часов использования. Для этого примера допустим 8 часов.

1500 х 8 часов = 12 000. разделите это число на 1000 = 12. Затем умножьте это число на тариф, взимаемый коммунальной компанией за электроэнергию. Для Франции это около 0,15 евро. Следовательно, 12 х 0,15 = 1,8 евро. Полный день роскошного чтения в теплой комнате обойдется примерно в 1,8 евро. Чтобы нагреватель работал так каждый день в течение всего месяца, он начал бы накапливаться довольно быстро (примерно 55 евро в месяц). Эта стоимость может сильно варьироваться в зависимости от количества нагревательных приборов и часов использования. Однако, используя модель глубокого обучения, как в предыдущей статье, визуально заметно распознавание наших индивидуальных привычек потребления.

Методы

Использование одного и того же набора данных состоит из 3 столбцов: метки времени, мощности (кВт) и температуры наружного воздуха (в градусах Цельсия) из типичного потребления домохозяйств в течение зимнего сезона в Европе. Длина метки времени составляет 4604 строки с 1 января 2022 года по 16 февраля. Каждая метка времени измеряется каждые 15 минут, начиная с 1:15 до 23:45. Целью в данном случае является прогноз потребления электроэнергии на 17 февраля 2022 года с учетом и без учета температуры наружного воздуха (в качестве фактора). Большая часть работы выполняется с помощью R/Python (формат блокнота Jupyter).

Разделение данных

Создайте два набора данных: набор обучающих данных (80%) и набор тестовых данных (20%), чтобы запустить правильный прогноз временных рядов для правильной оценки модели. Поскольку мы используем новый набор elecdataset, это будет означать 900 строк. как Train и 227 строк, оставшихся как Test.

Модель линейной регрессии временных рядов

Сначала необходимо будет создать регрессионную модель временного ряда (TSLM), чтобы доказать и проверить, что влияние температуры наружного воздуха на потребление электроэнергии (кВт) существует. Регрессионный анализ является формой выводной статистики. Значения p помогают определить, существуют ли отношения, наблюдаемые в выборке, в большей совокупности.

В этом случае мы принимаем к сведению значение p для temp_train (температура), которое меньше 0,05. Это означает, что мы отвергаем нулевую гипотезу (H0) и утверждаем, что существует влияние температуры наружного воздуха на потребление электроэнергии (кВт).

Сезонность

Для дальнейшей проверки к существующей модели TSLM добавляется сезонность и снова вычисляется, чтобы увидеть, есть ли какое-либо влияние на этот набор данных.

Значение P в этом случае больше 0,05, поэтому принимается нулевая гипотеза, а сезонность не является статистически значимой. Сезон 2, сезон 3 и сезон 4 не влияют на модель TSLM.

Тренд

Кроме того, Trend также может обратиться к существующему TSLM, чтобы увидеть, есть ли какое-либо влияние на этот набор данных.

Значение p меньше 0,05, что означает, что мы отвергаем нулевую гипотезу (H0) и утверждаем, что существует влияние шаблона тренда на потребление электроэнергии (кВт), что означает, что в данном случае оно является статистически значимым. Поэтому модель TSLM используется только с трендом.

Остатки

Чтобы продолжить, модель TSLM предполагает, что остатки независимы. Чтобы доказать это, мы проверяем остатки, а также тест Ljung-Box (LB). Назван в честь статистиков Греты М. Юнг и Джорджа Э.П. Box, LB — статистический тест, который проверяет наличие автокорреляции (значения не зависят) во временном ряду. Нулевая гипотеза утверждает, что остатки распределены независимо.

Здесь остатки коррелированы, что означает, что эта регрессионная модель не подходит. Кроме того, тест LB объясняет, что значение p меньше 0,05, что означает, что остатки распределяются независимо.

Модель динамической регрессии

Вместо этого рекомендуется затем сформировать модель Динамическая регрессия (ДР), которая моделирует остатки с помощью модели ARIMA p, d, q. Выбор порядков p, d, q (p=порядок авторегрессионной части; d=степень задействованной первой разности;q=порядок части скользящего среднего). Это можно сделать путем изучения остатков или автоматически с помощью функции auto.arima, доступной во многих статистических пакетах для DR.

С моделью ARIMA (2,1,2): смоделированы автокорреляции остатков. В отличие от предыдущей линейной регрессии, тест LB для динамической регрессии объясняет, что значение p больше 0,05, что означает, что остатки не распределены независимо (они демонстрируют последовательную корреляцию).

Модели динамической регрессии и нейронной сети с температурой наружного воздуха

Мы сравниваем, насколько успешна модель динамической регрессии по сравнению с нейронными сетями (которые изучались ранее). Поскольку модель нейронной сети показала отличные результаты, эта модель будет использоваться для прогнозирования будущих прогнозов с учетом температуры наружного воздуха.

Как визуально видно на Рисунке 6, модель динамической регрессии с температурой наружного воздуха работает адекватно, однако нейронная сеть с температурой наружного воздуха делает прогнозы заметно лучше. Это просто показывает, насколько сложна нейронная сеть при решении сложных задач по сравнению с предыдущими моделями машинного обучения.

Интересным моментом на рисунке 7 является то, что обновленная нейронная сеть делает более точные прогнозы с наружной температурой, добавленной в качестве внешней переменной, чем предыдущая нейронная сеть без наружной температуры.

Прогнозы на будущее

Наконец, мы можем увидеть, насколько хорошо нейронная сеть с температурой наружного воздуха способна прогнозировать прогнозы, как показано на рисунке 8.

Выводы:

Модель нейронной сети является лучшей и наиболее мощной моделью среди других моделей для прогнозирования и прогнозирования потребления кВт в зависимости от температуры. Статистический анализ, подобный этому, может позволить специалистам по данным понять правила временных рядов с различными факторами.