Регрессия/успеваемость

В рамках этой модели я попытался натренировать машину предугадывать успеваемость студентов на письменном тесте (Writting Test) при помощи других известных показателей (уровень образования, оценки по другим предметам, пол и т.д). Если брать всю таблицу, то машина при использовании линейной регрессии справляется здорово (степень предсказывания превысил 95%). Однако это не очень реалистичный сценарий для использования, т.к при беглом взгляде выяснится, что успеваемость по разным тестам имеет почти прямую корреляцию. В результате я ограничил машине доступ ко всем столбцам с тестами. Затем я разделил весь датасет и дал машине для тренировки 80 процентов данных. Линейная регрессия показала не самый высокий результат (степень предсказывания — чуть выше 0.3). Однако нужно отметить, что станартное отклонение от правильного результата редко превышало 20 (по 100-бальной шкале). Другие типа регрессии (Neural Network, Decision Forest, а также Bayesian) показали себя хуже (там показатель варьировался от 0.2 до 0.3), так что я и остановился на линейной регрессии