현대는 정보 과잉의 시대이다. 정보가 많을수록 무언가를 결정하기가 힘들어진다. 온라인에서 접할 수 있는 콘텐츠가 기하급수적으로 늘어나면서 이를 추천해주는 서비스들도 생겨나고 있다. 이런 서비스들은 모두 추천 알고리즘을 통해 제공한다. 추천 알고리즘은 ‘특정 사용자가 특정 상품에 대한 선호도를 예상하거나 특정 사용자가 관심을 가질 만한 N개의 상품 목록을 알아내기 위해 사용되는 일련의 개인화 정보 필터링 기법’으로 정의된다. 이 기법은 사용자의 구매 혹은 사용기록에 기반을 두어 사용자의 상품 선호도를 함축하는 프로파일을 생성하고 얻어낸 선호도 프로파일을 이용해 해당 사용자가 구매하지 않은 상품에 대한 선호도를 예측, 평가해 최종 추천 상품 목록을 선정하는 과정으로 구성되어 있다. 이 과정에서 어떠한 방식으로 정보를 처리하는지와 어떠한 기반 정보를 이용하는지에 따라 추천 알고리즘을 크게 콘텐츠 기반 필터링(content-based filtering)과 협업 필터링(collaborative filtering)으로 나누어진다.
추천시스템 분석을 위한 기존 방법들은 비효율적인 방법으로 인해 추론 결과가 매우 만족스럽지 못하다. 첫째, 개인화 추천시스템에서 사용되는 베이지안 개인화 순위 방법은 방향에 따라 기울기가 달라지는 함수인 비등방성 함수에서 탐색 경로가 비효율적이다. 둘째, 추천시스템에서의 변수선택 문제를 위한 기존 벌점화우도와 베이지안방법은 매우 복잡하고 비효율적이다. 셋째, 감성 분석 과정에서 사용하는 자연어 처리 방법 중 하나인 형태소 분석은 한글의 특성상 띄어쓰기 단위로 품사가 구별되지 않아 비효율적이며, 각 문서에서 이러한 핵심 단어들을 태깅(tagging)하여 만드는 DTM(document term matrix) 행렬은 희소행렬 형태를 보여 기존의 회귀분석 방법은 매우 비효율적이다.
본 연구는 이러한 문제점들을 개선하기 위해, 첫째, 비효율적인 탐색경로의 문제점을 극복하기 위해 SAMC를 이용한 베이지안 개인화 순위 방법(SAMC-BPR), 둘째, 추천시스템에서의 변수선택 문제를 해결하기 위해 SAMC를 이용한 베이지안 부분집합 회귀 방법(SAMC-BSR)과 변수검사과정(SVS), 셋째, 한국어 형태소 분석의 비효율적인 문제를 해결하기 위해서 사람들의 서비스 및 상품 후기를 이용한 주제 분석을 위해 SAMC 샘플러를 이용하여 베이지안 잠재 디리클레 할당방법인 SAMC-BLDA 방법과 문서-단어 행렬에서의 감정에 영향을 미치는 변수선택을 위해 SAMC-BSR 방법을 제안하며, 실제 평점에 리뷰 문서에 드러난 감정을 반영한 새로운 평가 점수를 가지고 개인별 평점을 예측하는 SAMC-BPR 방법을 연구한다.
비록 오래전부터 추천시스템에 대한 다양한 연구가 있기는 하였으나, 최적의 추천을 위한 몬테카를로 방법에 대한 연구가 많이 부족하고 또한 기존의 연구도 추론 결과에 대한 효율성과 안정성에 의심이 있다. 따라서 본 연구는 과거 연구의 단순한 개선이 아닌 기존 연구의 불안정한 추론 결과를 개선하기 위해, 사용하기 편한 방법으로 단순하면서도 명확한 새로운 방법을 다양한 추천시스템 모형에 적용함과 동시에 기존의 방법들과 분석함으로써 의의가 있다고 본다.
▣ 국내 논문
남소희, 전수영 (2019.12). 점별 상호정보량을 이용한 LDA 토픽모형 추론. Journal of the Korean Data Analysis Society, 21, 6, 2789-2800.
김민정, 장성봉, 서영수, 전수영 (2020.10). SAMC 알고리즘을 이용한 미디어 패널 개인화 추천 알고리즘. Journal of the Korean Data Analysis Society, 22, 5, 1835-1847.
▣ 학회 발표
김민정, 전수영. 몬테카를로 방법을 이용한 미디어패널 개인화 추천 알고리즘. 제8회 한국 미디어패널 학술대회, 서울, 2020.09.25.
Comments