-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
data analysis #2
base: master
Are you sure you want to change the base?
Conversation
да, item_id - это id объекта. Я строил гистограмму, чтобы убедиться, что id'ы распределены равномерно. Это докажет, что в данных представлены +- все пользователи и мы не потеряли какой-то их промежуток |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Касательно анализа:
- ноуты с анализом стоит называть акронимом EDAноуты с анализом стоит называть акронимом EDA
- стоит проставлять нумерацию ноутов
- не стоит пушить ноуты с огромными выводами в ячейку (как например список id юзеров)
- стоит построить графики количества айтемов у пользователя и пользователей у айтема. Это покажет насколько пользователи активно читают и насколько большой сегмент активных
- можно рисовать графики от времени. Это наиболее интересные закономерности. Например среднее количество айтемов у пользователя от времени. Распределение (относительных) возрастов юзеров - как давно они на сайте. Абсолютное количество оценок от времени - растет ли активность на сайте. Всё это даёт больше понимания КОМУ мы рекомендуем
Касательно imlp_als:
- Вначале ноута ноут с анализом. Это трата места
- Почему для calc_preference именно такие константы?
- Почему в ноуте ячейки с ошибками? Так быть не должно
- Последние две ячейки это апогей пофигизма
Последний ноут не нужно использовать и пушить
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
обучение на 25 юзерах и 54 книжках? Датасет книжек сам по себе небольшой, нужно мерить на всём
Помимо MAP стоит измерять hitrate, precision и recall
я не уверена, что по-умному сделала сплит, но оно вроде как работает. и еще, что значит item_id? это же просто айдишник объекта и все? ты просто строил гистограмму по нему