일반화 선형모형은 의생명과학부터 경제학까지 다양한 분야에서 널리 사용되어지고 있다. 최근 데이터의 양이 점점 증가하면서 고차원의 문제가 많이 발생하는데, 고차원의 특징은 모형이 매우 복잡하며 추정, 예측력, 설명력을 구하는 것이 상당히 어렵기 때문에, 고전적인 통계방법은 계산적으로 실행이 불가능하고 모형이 정확히 추정되지 않는 문제를 가지고 있다.
고차원 일반화 선형모형에서 특별한 관심분야는 반응변수의 인과 특징(causal feature)을 형성하는 설명변수들의 부분집합을 찾는 변수선택문제에 있다. 예로 어떤 질병에 책임이 있는 유전자 또는 단일 염기 변이(single nucleotide polymorphism, SNP) 등이 있는데, 표본의 크기가 작고 설명변수의 개수가 많은 경우에 있어 변수선택문제는 기존의 통계적 방법들에서 매우 어려운 문제이다. 고차원의 변수선택문제는 일반적으로 벌점화우도(penalized likelihood)와 베이지안 방법으로 해결될 수 있다.
벌칙함수로 아카이케 정보기준(Akaike information criterion, AIC), 베이지안 정보기준(BIC), 확장 베이지안 정보기준(extended BIC, EBIC; Chen, Chen, 2008, 2012) 등이 있다. Small-n-large-p의 경우에 AIC와 BIC가 변수선택에 있어 매우 비효율적으로 알려져 있어, 이를 극복하기 위해 -penalty를 채택하는 EBIC의 사용이 제안되었다(Chen, Chen, 2012). -penalty하에서의 변수선택은 회귀계수를 0으로 만들지 않는 부분회귀(subset regression)라 부른다. 고차원 문제를 해결하기 위해 고급몬테카를로 방법들(Hans et al., 2007; Bottolo, Richardson, 2010)이 제안되었는데, 대부분의 베이지안 방법들은 부분집합 모형의 음의 로그사후확률이 근사적으로 전통적인 부분집합모형 선택 통계량(AIC, BIC)이 되고, 적절한 사전분포를 이용한 베이지안 부분집합 회귀(Bayesian subset regression, BSR) 모형이 예측에 있어 전통적인 베이지안 회귀모형보다 더 효율성이 좋다는 연구가 있다(Liang et al., 2001; Hsu, 1995). Liang et al.(2013)은 고차원에서 small-n-large-p의 경우에 전통적인 방법의 문제점을 극복하고자 최소 EBIC와 동일한 최대사후모형인 새로운 BSR 모형을 제안하여 기존의 벌점화우도 방법들인 라소(lasso), 엘라스틱넷(elastic net) 등 보다 더 우수함을 보여 주었다.
본 연구에서는 대량 데이터의 다양한 고차원 일반화 선형 모형에서 반응변수들의 고차 상호작용효과와 설명변수(공변량)들의 변수선택을 위해 SAMC를 이용한 베이지안 부분집합 회귀(Bayesian subset regression, BSR) 방법 연구를 목표로 한다.
대량 데이터의 고차원 모형분석을 위한 전통적인 추정 방법들은 일반적으로 비효율적이고 불안정한 추정치를 제공하지만, 본 연구에서 제안하는 BSR 방법은 small-n-large-p를 포함한 고차원문제가 발생하더라도 매우 안정적이고 정확한 추정치를 제공할 것으로 기대한다.
▣ 국내 논문
주아림, 전수영 (2015.10). 고차원 선형모형에서 벌점화우도 방법을 이용한 변수선택방법 연구. Journal of the Korean Data Analysis Society, 17, 5, 2391-2402.
전수영 (2017.08). 베이지안 부분집합 회귀를 이용한 고차원 분할표 분석. Journal of the Korean Data Analysis Society, 19, 4(B), 1841-1852.
엄지은, 전승환, 전수영 (2019.02). LASSO 방법을 이용한 프라이버시 침해 우려 행태분석. Journal of the Korean Data Analysis Society, 21, 1, 95-106.
▣ 학회 발표
전수영. 데이터 마이닝 기법을 통한 프라이버시 침해 우려 행태 분석. 제6회 한국미디어 패널 학술대회, 서울, 2018.10.19.
Kommentarer