엔트로피 측도(entropy measure)는 1870년대에 물리학에서 열역학적 상태를 정의하는 분포로부터 정보를 측정하기 위해 Boltzmann에 의해 처음으로 제안되었으며, 1948년에 Shannon은 잡음(noise)이 있는 메시지를 받은 사람의 생각 속에 있는 불확실성(uncertainty)을 측정하기 위해 최대엔트로피(maximum entropy)를 개발⋅제안하였다. 그 후 Jaynes(1957a, b)는 Shannon의 엔트로피 측도를 이용하여 기존의 방법으로는 다루기 힘든 수학적 역함수문제(mathematical inversion problem)의 추정과 추론을 위한 엔트로피 측도 원리를 구체화하였다. 또한 Golan et al.(1996)은 Jaynes의 엔트로피 측도 형식을 잡음이 있는 역함수문제로까지 확장하였고, 다양한 경제⋅통계적 모형의 추론을 위해 GME 형식을 이용하였다. 특히 Golan et al.(1996)과 Golan and Judge(1996)는 GME 방법을 이용한 추정법을 사용하여 회귀분석과 연립방정식 통계모형(simultaneous equations statistical model) 등에 대한 기초연구를 실시하였다. 그 후 이러한 최대엔트로피 방법은 경제학에서 간간이 연구가 진행되다가, 최근에는 생태학(Harte et al., 2008; Shipley, 2010), 언어학(Hayes and Wilson, 2008), 전자공학(Chan et al., 2012), 천문학(Baikova, 2007), 지질학(Lee and Ellis, 1997), 데이터마이닝(Mansour and Schain, 2001; Yu et al., 2011) 등 다양한 분야에서 널리 응용되고 있다.
응용경제학에서, Hansen(1982)과 White(1982)가 적률법(method of moments)의 일반화를 제안한 이후 일반화 적률법(generalized method of moments, GMM)은 많은 응용경제학 모형에 적용되어 왔다. 일반적으로 독립변수의 외생성(exogeneity)에 의존하는 최소제곱법(method of least squares)이나 우도함수에 의존하는 최대우도법(maximum likelihood method)과는 달리 GMM은 적률조건(moment conditions)에 대한 약간의 가정만 필요하고 분포에 대한 가정은 필요하지 않아 일반적인 경제학 모형에서의 추정에서 뿐만 아니라 다양한 분야, 예를 들어, 거시경제학에서는 구조방정식모형의 추정을 위해, 재정학에서는 주식반환(stock returns) 자료와 같이 심하게 한쪽으로 치우쳐 있는 분포나 극단(꼬리)에 상당히 높은 빈도를 갖게 되는 분포를 갖는 자료에 대한 추정에 대해서도 많은 활용도를 보이고 있다. 또한 패널 자료에 대해서도 Im et al.(1999)은 순외생 설명변수(strictly exogenous explanatory variables)를 갖는 패널 자료에 대한 GMM 추정량을 제안하였고, Ahn et al.(2001)은 개체효과가 시간에 따라 변하는 패널 자료모형에 대한 GMM 추정량을 제안하고 그 효율성을 연구하였으며, Bun and Windmeijer(2010)는 동적패널 자료모형에 대한 시스템 GMM의 약한 도구문제(weak instrument problem)을 연구하였다. 의학 또는 생물통계학 분야에서는 반복 측정된 다시점 자료를 분석하기 위해서 Liang and Zeger(1986)가 일반화추정방정식(generalized estimation equation, GEE)을 제안하였다. GEE 방법은 관측치 간의 상관행렬의 구조만으로 회귀계수를 추정하기 때문에 의학, 보건학 등에서 뿐만 아니라 경제학의 패널 자료에서 패널 간 또는 전체 패널의 인과모형을 추정하는 데에도 많이 애용되고 있다.
경시적 자료는 동일 개체(subject)에서 시간에 따라 여러 번 반복 측정한 자료로서, 개체 자신이 대조군(control)이 되어 시간에 따른 개체의 변화를 측정할 수 있는 장점이 있는 반면,
개체 내 상관관계(within subject correlation)를 고려해야 하며 중도절단 등으로 인한 결측치가 많이 발생하여 추정치에 대한 오차가 과소 추정되는 등의 문제점을 갖고 있다(Hand and Crowder, 1995; Fitzmaurice et al., 2004; Hedeker and Gibbons 2006). 패널 자료는 개개의 경제주체(economic units), 예를 들어, 개인, 회사, 지역 등과 같은 객체를 시간에 따라 반복 측정한 자료로서, 횡단면 또는 시계열 자료에 비해 개별효과(individual effect)와 시간효과(time effect)를 모두 통제할 수 있고, 횡단면 자료보다 자유도가 높으며 순수 시계열 자료보다 공선성의 발생가능성이 높지 않는 등의 다양한 장점이 있다(Hsiao, 2003; Baltagi, 2005). 그러나 이러한 장점에도 불구하고 패널 자료는 기본적으로 비실험 자료이고 다차원 자료이면서 많은 가변수(dummy variable)를 포함하는 경우가 많다 보니 공선성 문제에서 자유로울 수 없다. 또한, 자료 특성상 조사대상자의 이사, 사망 등으로 자료의 절단이 발생하는 것도 예삿일이다. 이러한 경시적 자료와 패널 자료에서의 공선성문제와 제한된 종속변수(limited dependent variable)문제의 경우에는 전통적인 추정방법을 이용하면 해를 구할 수 없거나 일부의 해만 구할 수 있으며, 해를 구했다 해도 분산이 커서 매우 불안정한 추정치를 얻게 된다. 이러한 불량조건문제(Hadamrd, 1902)는 생물학, 경제학, 유전학, 심리학, 의학 등 다양한 분야에서 빈번히 발생하며, 특히 차원의 저주(curse of dimensionality)로 인하여 다차원 자료에서 변수들 간의 높은 상관관계와 (중도)절단의 발생은 피할 수 없는 특징이다.
본 연구는 경시적 자료와 패널 자료에서 이러한 공선성(collinearity), 중도절단자료(censored data), 절단자료(truncated data)에 의한 불량조건문제를 해결하고자 일반화 최대엔트로피 추정법을 연구를 목표로 한다. 우선 새로이 경시적 자료와 패널 자료분석을 위한 회귀모형에서의 GME 추정법을 정립하여 Song and Cheon(2006)이 갖고 있는 중대한 문제점들을 극복하고, 이를 공선성문제를 가지고 있는 균형·불균형 자료와 중도절단 자료에 대한 일원회귀모형에 적용한 후, 이를 일반적인 모형(다원오차성분을 갖는 회귀모형)으로 확장하여 연구한다. 이러한 연구는 계량경제학이나 통계학에서 뿐만 아니라 최근 각광을 받고 있는 생물정보학(bioinformatics)이나 신 가치 창출의 엔진으로 평가받고 있는 마케팅, IT의 빅데이터(Big data)에도 적용할 수 있을 것이다. 왜냐하면 앞서 언급했듯이 이러한 분야의 자료들에서 불량조건문제는 피할 수 없으며, 그로 인해 전통적인 추론방법으로는 유의한 결과를 얻지 못하기 때문이다.
결론적으로 본 연구의 결과는 여러 학문분야의 연구자들에게 매우 유익할 것으로 기대되며, 이는 통계학의 응용분야에 관한 학제 간 연구는 물론 다양한 새로운 분야에서 통계학의 접목에도 많은 도움이 될 것으로 판단된다. 이러한 요구에 부응하여 본 연구가 성공적으로 수행된다면, 불량조건문제를 갖는 자료를 다루는 실무종사자들에게 해당 자료에 맞는 적절한 추정방법을 제공할 수 있고, 더불어 새로운 응용분야를 개척하는데 기여할 수 있을 것이다. 더불어 최근 이러한 연구에 대한 국내외의 관심과 다른 분야에 대한 파급력을 고려할 때 이러한 연구는 매우 시의 적절하며 시급히 이루어져야 할 것으로 보인다.
▣ 국제 논문
Lee, J and Cheon, S. (2017.03), Estimation for the multi-way error components model with ill-conditioned panel data, Journal of the Korean Statistical Society(0.557), 46, 1, 28-44.
▣ 국내 논문
송석헌, 전수영 (2006.11), 패널회귀모형에서 최대엔트로피 추정량에 관한 연구, 응용통계연구, 19, 3, 521-534.
전수영, 임성섭 (2009.03). 오차항이 SAR(1)을 따르는 공간선형회귀모형에서 일반화 최대 엔트로피 추정량에 관한 연구, 한국통계학회논문집, 16, 2, 265-275.
Cheon, S. and Jin, S. (2009.04). A Comparative Study of Generalized Maximum Entropy Estimator for the Two-way Error Component Regression Model, Journal of the Korean Data Analysis Society, 11, 2, 617-627.
Cheon, S. (2009.07). Application of Generalized Maximum Entropy Estimator to the Two-way Nested Error Component Model with ill-posed data. 한국통계학회논문집, 16, 4, 659-667.
Lee, J and Cheon, S. (2014.09). Dual Generalized Maximum Entropy Estimation for Panel Data Regression Models. Communications for Statistical Applications and Methods, 21, 5, 395-409.
이재준, 전수영 (2015.06). 불균형 패널회귀모형에서의 이중 일반화 최대엔트로피 추정. Journal of the Korean Data Analysis Society, 17, 3, 1285-1295.
이재준, 이동희, 전수영 (2016.06). 중도절단 패널회귀모형에서의 이중 일반화 최대 엔트로피 추정. Journal of the Korean Data Analysis Society, 18, 3(B), 1271-1280.
▣ 학회 발표
전수영 (2016.09). 이중 일반화 최대엔트로피 방법을 이용한 미디어 이용시간의 통신사별 휴대폰 이용금액에 미치는 영향 분석. 제4회 한국미디어패널 학술대회, 서울.
Comments