Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

data analysis #2

Open
wants to merge 3 commits into
base: master
Choose a base branch
from
Open

data analysis #2

wants to merge 3 commits into from

Conversation

maypink
Copy link
Collaborator

@maypink maypink commented Oct 25, 2021

я не уверена, что по-умному сделала сплит, но оно вроде как работает. и еще, что значит item_id? это же просто айдишник объекта и все? ты просто строил гистограмму по нему

@maypink maypink requested a review from ARQtty October 25, 2021 12:31
@ARQtty
Copy link
Collaborator

ARQtty commented Oct 25, 2021

да, item_id - это id объекта. Я строил гистограмму, чтобы убедиться, что id'ы распределены равномерно. Это докажет, что в данных представлены +- все пользователи и мы не потеряли какой-то их промежуток

Copy link
Collaborator

@ARQtty ARQtty left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Касательно анализа:

  1. ноуты с анализом стоит называть акронимом EDAноуты с анализом стоит называть акронимом EDA
  2. стоит проставлять нумерацию ноутов
  3. не стоит пушить ноуты с огромными выводами в ячейку (как например список id юзеров)
  4. стоит построить графики количества айтемов у пользователя и пользователей у айтема. Это покажет насколько пользователи активно читают и насколько большой сегмент активных
  5. можно рисовать графики от времени. Это наиболее интересные закономерности. Например среднее количество айтемов у пользователя от времени. Распределение (относительных) возрастов юзеров - как давно они на сайте. Абсолютное количество оценок от времени - растет ли активность на сайте. Всё это даёт больше понимания КОМУ мы рекомендуем

Касательно imlp_als:

  1. Вначале ноута ноут с анализом. Это трата места
  2. Почему для calc_preference именно такие константы?
  3. Почему в ноуте ячейки с ошибками? Так быть не должно
  4. Последние две ячейки это апогей пофигизма

Последний ноут не нужно использовать и пушить

Copy link
Collaborator

@ARQtty ARQtty left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

обучение на 25 юзерах и 54 книжках? Датасет книжек сам по себе небольшой, нужно мерить на всём

Помимо MAP стоит измерять hitrate, precision и recall

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants