Experiment created on 07.10.2019

Предсказывание уровня зарплаты от социо-демографических факторов
В ходе работы были выполнены следующие шаги: 1. Трансформация SQL: в данных наблюдались выбросы - слишком низкие и слишком высокие зарплаты. Мы их убрали, оставив диапазон значений от 5000 до 20000 рублей. Я пробовала разные диапазоны (например, от 5000 до 420000 или от 10000 до 20000), но именно при таком коэффициент детерминации оказался самым высоким. 2. Исключение колонок в датасете: мы убрали первую колонку с номерами строк. Убирая другие колонки, коэффициент детерминации либо сохранялся прежним, либо падал. 3. Очищение данных. При визуализации фдатасета не было обнаружено недостающих данных, но на всякий случай добавили этот шаг. 4. Разделение данных: 90% на обучение, 10% на тест 5. Выполняем задачу регрессии, чтобы предсказать конкретное значение заработной платы, учтя все другие факторы. Регрессия Пуассона дала наивысшее значение коэффициента детерминации (0,36), оставили её 6. Тренировка модели. 7. Получаем предсказание значений и оценку модели. Данная регрессия лишь на 36% объясняет зависимость уровня заработной платы от других факторов. Это не очень высокий показатель. Вероятно, в датасете есть пропущенные переменные.