Задание:
В процессе исследования была поставлена задача построения регрессионной модели для анализа зависимости одной переменной от нескольких факторов. Сначала был собран набор данных, содержащий информацию о различных переменных, включая числовые и категориальные характеристики. Исходя из этих данных, была выбрана модель линейной регрессии в качестве основы для дальнейшего анализа.
Для начала проведена предварительная обработка данных, включающая очистку, заполнение пропусков и преобразование категориальных переменных в числовую форму. Затем выполнена оценка корреляции между переменными с помощью коэффициента Пирсона, что позволило определить наиболее значимые факторы, влияющие на целевую переменную. На этом этапе внимание уделялось устранению мультиколлинеарности путем применения метода VIF (Variance Inflation Factor).
Собрав все необходимые данные и произведя анализ, была построена регрессионная модель. Оценка параметров модели была осуществлена с использованием метода наименьших квадратов. С помощью полученных коэффициентов определены влияния каждого из факторов на целевую переменную. Важным этапом стало тестирование значимости параметров модели с помощью t- и F-тестов, что подтвердило их статистическую значимость.
Для оценки качества модели применены показатели, такие как коэффициент детерминации R², а также средняя квадратичная ошибка (RMSE). Эти метрики позволили оценить, насколько хорошо модель соответствует данным. Проведены дополнительные тесты на нормальность остатков и гомоскедастичность, что дало возможность убедиться в соответствии предпосылок линейной регрессии.
В заключение, проведенный анализ показал, что построенная регрессионная модель позволяет достаточно точно прогнозировать целевую переменную на основе выбранных факторов. Результаты исследования открывают возможности для дальнейшего углубленного анализа и применения различных методов машинного обучения для улучшения качества предсказаний. Рекомендации по улучшению модели включают расширение набора данных и использование более сложных методов регрессии для достижения лучших результатов.