모두야

Collaborative Filtering [협업 필터링] 본문

데이터청년캠퍼스

Collaborative Filtering [협업 필터링]

미미밍2 2021. 8. 11. 23:30
728x90
반응형

협업 필터링

: 사용자가 남긴 평점 데이터셋을 사용하여 비슷한 취향을 추천해준다.

 

예시) 사용자 영화 평점 행렬

사용자들이 영화 M1~M5까지에 대한 평점을 남긴 행렬 그래프이다.

왼쪽과 같이 모든 영화에 대해 정성스럽게 평점을 남기는 경우는 드물며, 오른쪽 행렬이 현실이다. 

 

Collaborative Filtering [협업 필터링]이란?

평점을 남기지 않은 사람들에 대해 비슷한 취향의 사람과 비교하여, 어떻게 평가할 것인가를 예측한다.

예측한 데이터 중 높은 평가를 받은 영화는 좋아할 것이라고 예측하며 추천해줄 수 있다.

 

평점 데이터의 성격에 따라 ? 에 대한 평점을 예측하는 수식이 달라진다.

평점 데이터는 Explicit Dataset과 Implicit Dataset으로 나뉜다.

 

Explicit Dataset

: 선호와 비선호를 명확하게 구분해준 데이터 셋

 

영화 평점처럼 좋으면 5, 싫으면 1로 명확하게 취향을 표현한 데이터이다.

호불호가 명확한 데이터셋이다.

 

>  Neighborhood model

 

Implicit Dataset

: 선호와 비선호의 구분 없이 행동의 빈도수만 기록한 데이터 셋

 

쇼핑몰 방문 횟수처럼, 관심이 있으면 클릭은 하지만 싫다고 표현도 하지 않았으며 선호인지 비선호인지 명확히 판단하기 어렵다.

 

> Latent Factor model 중 Matrix Factorization 의 수식을 이용하여 예측해본다.


예측 수식

위의 데이터셋을 통해 ? 를 예측하는 수식은 두가지가 있다. 

Neighborhood model과 Latent Factor model 이다.

 

Neighborhood model

주어진 평점 데이터를 가지고, 서로 비슷한 유저나 아이템을 찾는다.

사용하는 유사도는 Pearson 상관계수를 이용하여 구한다.

피어슨 상관계수

Latent Factor model (Implicit dataset)

관찰 된 데이터와 잠재되어 있는 데이터를 연결하는 기법이다.

쉽게 예시를 들어 표현해보자면, 주어진 평점 데이터로 아직 알지 못하는 사용자와 아이템의 특성을 찾아낸다.

 

 

 

 

출처

갈아먹는 추천 시스템 https://yeomko.tistory.com/6?category=805638 

728x90
반응형

'데이터청년캠퍼스' 카테고리의 다른 글

추천시스템이란?  (0) 2021.08.11