Experiment created on 10.10.2019

Взяла базу посетителей ресторана, хочу посмотреть зависимость остальных параметров от бюджета, который посетители тратят в ресторане Гипотеза в том, что по бюджет в ресторане зависит от интересов, занятий, религии и других параметров Сразу удалила missing data Взяла модель Multiclass decision forest Сначала не удаляла лишние столбцы из даты: overall accuracy 0,59 average accuracy 0,79 Добавила select column in dataset, Исключила UserID Overall accuracy 0.565217 Average accuracy 0.782609 Исключила UserID, долготу и широту: Запустила модель еще раз overall accuracy 0,57 average accuracy 0,789 Прикольно. Пробую исключить колонку «цвет» overall accuracy 0,53 average accuracy 0,768 Исключила рост. overall accuracy 0,49 average accuracy 0,74 Ну здорово, исключение колонок не помогло. Вернула рост. Пробую поменять модель на multiclass logistic regression Overall accuracy 0.652174 Average accuracy 0.826087 Вау! Проверю, что удаление колонок не работает и здесь, верну широту, долготу и юзер айди. Overall accuracy 0.652174 Average accuracy 0.826087 Результат не поменялся. Значит, колонки больше не трогаю. Пробую поменять значения модели (увеличу L2 regularization weight на 1) Overall accuracy 0.623188 Average accuracy 0.811594 Опять ухудшилось. Верну 1. Добавлю random number seed, значения не поменялись Снова меняю модель на multiclass neural network Overall accuracy 0.623188 Average accuracy 0.811594 Еще раз попробую исключить колонку. Уберу userid: Overall accuracy 0.594203 Average accuracy 0.797101 Верну userid, уберу рост посетителя Overall accuracy 0.623188 Average accuracy 0.811594 В общем, вывод такой: Что-то не так с userid, возможно имеет место какая-то утечка данных в этом UserID, и на самом деле это какой-то важный параметр, зашифрованный в айдишнике. В остальном на мою модель не влияет исключение колонок. Модель Multiclass decision forest не подошла.