Experiment created on 10.10.2019
Взяла базу посетителей ресторана, хочу посмотреть зависимость остальных параметров от бюджета, который посетители тратят в ресторане
Гипотеза в том, что по бюджет в ресторане зависит от интересов, занятий, религии и других параметров
Сразу удалила missing data
Взяла модель Multiclass decision forest
Сначала не удаляла лишние столбцы из даты:
overall accuracy 0,59
average accuracy 0,79
Добавила select column in dataset, Исключила UserID
Overall accuracy 0.565217
Average accuracy 0.782609
Исключила UserID, долготу и широту:
Запустила модель еще раз
overall accuracy 0,57
average accuracy 0,789
Прикольно. Пробую исключить колонку «цвет»
overall accuracy 0,53
average accuracy 0,768
Исключила рост.
overall accuracy 0,49
average accuracy 0,74
Ну здорово, исключение колонок не помогло. Вернула рост.
Пробую поменять модель на multiclass logistic regression
Overall accuracy 0.652174
Average accuracy 0.826087
Вау!
Проверю, что удаление колонок не работает и здесь, верну широту, долготу и юзер айди.
Overall accuracy 0.652174
Average accuracy 0.826087
Результат не поменялся. Значит, колонки больше не трогаю. Пробую поменять значения модели (увеличу L2 regularization weight на 1)
Overall accuracy 0.623188
Average accuracy 0.811594
Опять ухудшилось. Верну 1.
Добавлю random number seed, значения не поменялись
Снова меняю модель на multiclass neural network
Overall accuracy 0.623188
Average accuracy 0.811594
Еще раз попробую исключить колонку. Уберу userid:
Overall accuracy 0.594203
Average accuracy 0.797101
Верну userid, уберу рост посетителя
Overall accuracy 0.623188
Average accuracy 0.811594
В общем, вывод такой:
Что-то не так с userid, возможно имеет место какая-то утечка данных в этом UserID, и на самом деле это какой-то важный параметр, зашифрованный в айдишнике.
В остальном на мою модель не влияет исключение колонок. Модель Multiclass decision forest не подошла.