Closed skdbsxir closed 1 year ago
batch_size
를 작게 하는 경우 올바르지 않은 id로 접근하는 경우가 적지만, 일반적인 크기로 늘리는 경우 문제가 자주 발생.
user_id
를 전체 데이터 길이만큼으로 맞춰서 re-arrange?MyDataset
class를 수정?작업중이던 rating.csv
파일이 예전 social graph에 없던 사용자들을 제외 시켰던 파일인 것으로 확인.
.mat
을 이용해 처음부터 다시 생성한 결과 문제가 없던 것으로 확인됨 (230906)
rating
엔 존재하지만 trustnetwork
에 존재하지 않는 사용자를 filtering하고,
남은 사용자들에 대해 user_id
를 re-arrange하는 함수를 통해 handling. (230912)
social graph와 user-item graph에서의 user 수가 다르며, Ciao, Epinions 양측 모두 social graph에서의 user 수가 user-item graph에서의 user 수 보다 적음. $\rightarrow$
len(social['user']) < len(user_item['user'])
현재 Dataset에선 다음의 흐름으로 dataset을 구성하여 return함.
ndarray
로 변환 (이 파일들은 전체 사용자들에 대한 정보를 담고 있음)__getitem__()
에서 우선 random walk sequence와 degree sequence를 추출 $\rightarrow$ 이때 random walk sequence에 해당하는 값은 social graph에 존재하는user_id
값임.user_id
값을 indexing 값으로 활용해, 각user
마다 상호작용한item
정보를 담은 ndarray에서 indexing을 통해 해당하는user_id
에 대한item
정보를 추출문제점
user_id
가 기본적으로 데이터 길이 값 보다 길어지는 문제가 발생. (하단과 같음)접근방안
user_id
값을 다시 re-arange 한 후에 random walk sequence를 생성[22165 rows x 3 columns] user_id degree 0 15373 82 1 9831 969 2 4247 31 3 4644 14 4 6823 59 ... ... ... 18093 21383 2 18094 13181 1 18095 15645 1 18096 897 1 18097 8000 1
[18098 rows x 2 columns]