오늘은 올 여름에 모의논문처럼 연습으로 썼던 글을 소개하려고 합니다.
영어 원문은 여기서 볼 수 있습니다: pubhealth.tistory.com/17
주제는 2018년의 MEPS 데이터를 이용해서 미국에서 인종/민족 별로 성인(18-64세)들의 의료비에 어떤 격차가 있었는지 분석하는 것이었습니다.
MEPS 데이터는, 풀네임으로는 의료비 패널 조사(Medical Expenditure Panel Survey)인데요, 연간 총 의료비와 더불어서, 일차의료나 세부 분야별로 의료비를 얼마나 썼는지를 각 참여자의 사회인구학적 특성(sociodemographic characteristics)과 함께 포함하고 있는 데이터셋입니다. 모두가 이용할 수 있도록 공공에 공개되어 있는 데이터여서 저희 학과 필수과목에서 텀프로젝트 과제를 내줄 때 이 멥스 데이터를 사용하기를 권장하기도 하고, 저명한 저널에서 출판된 논문들에서도 많은 연구자들이 사용하고 있는 데이터입니다.
연구 질문이 ‘인종/민족 별로 의료비에 격차가 있었는가?’라면 독립 변수는 인종/민족으로 두고, 종속 변수는 연간 총 의료비로 두면 될 것입니다. (세부 항목 별 의료 이용에의 차이도 궁금하다면 추가로 다른 종속 변수를 이용해서 회귀분석을 돌리면 됩니다. 예를 들면, 1차의료(동네병원)에서의 비용과 3차의료(종합병원)에서의 비용을 각각 종속 변수로 둔 모델 두 개를 따로 돌려볼 수도 있겠죠!)
그런데 문제는, 의료 이용 데이터는 정규분포를 따르지 않고 0이 엄청나게 많으면서 오른쪽으로 치우친 특이한 분포를 가지기 때문에 일반적인 OLS분석으로는 정확한 결과를 얻지 못합니다 (biased results). 의료 이용 패턴을 보면, 엄청나게 많은 사람들이 한번도 의료 이용을 하지 않으면서 소수의 사람들은 엄청나게 높은 의료비를 가지기 때문입니다 (그림1). 음.. 그런데 이건 미국의 데이터고, 한국에서는 의료 이용에서 진입 장벽이 미국보다 아주 낮기 때문에 분포가 다를 수도 있겠다는 생각이 들긴 합니다.
Figure 1 Distribution of the Total Health Care Expenditure
이처럼 오른쪽으로 치우친(right-skewed) 분포를 가진 경우에는 종속변수에 로그를 취하거나 (0값이 없는 경우), negative binomial이나 Poisson regression을 하거나 (종속 변수가 양의 정수인 경우 — 예를 들면 의료 이용 횟수인 경우가 있겠죠!), 아니면 two-part 모델을 사용하면 됩니다. 그런데 첫 두 경우는 의료비 데이터에 적용되지 않기 때문에 세번째로 언급한 two-part 모델을 사용할 것입니다.
투 파트 모델은, 첫번째 파트에서는 0을 가질 확률과 양의 값을 가질 확률을 추정하고, 두번째 파트에서는 양의 값을 가진 케이스만을 이용해서 주어진 독립 변수에 따라 어떤 크기의 값을 가질지를 추정합니다. 그러니 의료비 데이터처럼 0이 무지하게 많으면서 오른쪽으로 많이 치우친 데이터를 분석할 때 안성맞춤인 거죠! 투파트 모델에서 첫번째 파트에는 보통 로짓 모델을 사용하고, 두번째 파트에는 GLM(log-link, gamma distribution)을 많이 사용합니다. 혹은 두번째 파트에 종속변수를 로그 변환한 선형분석을 사용하기도 하는데요, 여기서 사용한 데이터의 경우에는 그렇게 분석했을 때 잔차 오차가 랜덤이 아니라서 로그 변환 선형분석 대신 GLM을 사용했습니다. (Appendix Figure 1, 편향되지 않은 결과를 얻으려면 이 그림에서 점들이 막 찍은 것처럼 아무렇게나 퍼져있어야 합니다)
Appendix Figure 1 Distribution of Residuals from the Log-OLS Model
그렇게 분석해서 나온 결과를 보면, 인종/민족 그룹 별로 추정된 평균 총 의료비는 아시안이 가장 적고($3,236), 그 다음이 히스패닉($3,266), 흑인($5,844), 기타 인종/민족($6,894) 순이고, 백인($7,189)이 가장 많았습니다. 백인 그룹과 비교했을 때, 아시안, 히스패닉, 흑인 그룹의 총 의료비는 유의하게 낮았고요. (표3 첫번째 열)
첫번째 파트와 두번째 파트 각각에서 나온 결과를 보면 각 인종/민족 별로 의료비 차이가 의료이용을 아예 하지 않는 비율이 높아서인지(표3 두번째 열) 아니면 의료이용을 하긴 하는데 그 의료비가 적어서인지(표3 세번째 열)를 추가로 알 수 있습니다.
흑인 그룹의 경우, 의료이용을 할 확률(0.782)은 백인 그룹(0.893)에 비해서 유의하게 낮은 반면, 의료이용을 하는 사람들 중에서의 평균 의료비($7,516)는 백인 그룹의 평균 의료비($8,052) 보다 약간 낮긴 하지만 유의하게 차이나지 않습니다. 그렇기 때문에, 흑인 그룹의 평균 의료비가 낮은 것은 의료이용을 하지 않는 사람의 비율이 높은 것에서 기인한다고 볼 수 있겠습니다.
아시안 그룹의 경우는, 의료이용을 할 확률(0.780)도 백인 그룹에 비해서 유의하게 낮고, 의료이용을 하는 사람들 중에서의 평균 의료비($4,175)도 유의하게 낮습니다. 그런데, 의료이용을 할 확률은 흑인 그룹과 비슷한 정도인데, 의료이용을 하는 사람들 중에서의 평균 의료비가 매우 매우 낮은 것을 볼 수 있습니다.
히스패닉 그룹의 경우, 의료이용을 할 확률이 네 인종/민족 그룹 중 가장 낮고(0.671), 의료이용을 한번이라도 한 사람들 중에서의 평균 의료비($4,844)도 매우 낮습니다(백인 그룹과 비교했을 때 유의하게 낮습니다). 히스패닉 그룹과 아시안 그룹의 결과를 비교하면, 아시안 그룹은 의료이용 하는 사람들의 평균 의료비가 낮은 것이 더 눈에 띄고, 히스패닉 그룹은 의료이용 자체를 안 할 확률이 높은 것이 눈에 띕니다. (이건 제 해석이고, 독자분들은 다르게 생각하실 수도 있습니다.)
투 파트 모델을 통해 예측한, 인종/민족 별 평균 확률(의료이용을 한번이라도 할 확률)과 평균 총 의료비는 그래프로도 만들어봤어요. (그림3)
Table 3 Predicted Mean Values (Expenditure, or Probability) by Race/Ethnicity
Two-Part Model | 1st Part, Logit | 2nd part, Gamma GLM | |
Race/Ethnicity | |||
White, NH (ref) | 7,189.0 | 0.893 | 8,051.7 |
(6,785.1 - 7,592.9) | (0.887 - 0.899) | (7,600.8 - 8,502.5) | |
Black, NH | 5844.3*** | 0.782*** | 7516.2 |
(5,191.8 - 6,496.8) | (0.768 - 0.796) | (6,679.0 - 8,353.4) | |
Asian, NH | 3236.2*** | 0.780*** | 4,174.8*** |
(2,313.3 - 4,159.0) | (0.755 - 0.805) | (2,986.4 - 5,363.3) | |
Other, NH | 6,893.5 | 0.819*** | 8,372.2 |
(5,773.4 - 8,013.6) | (0.790 - 0.848) | (7,020.9 - 9,723.5) | |
Hispanic | 3266.2*** | 0.671*** | 4844*** |
(2,910.1 - 3,622.4) | (0.658 - 0.684) | (4,320.7 - 5,367.3) | |
Observations | 17,055 | 17,055 | 13,876 |
Robust CI in parentheses | |||
*** p<0.01, ** p<0.05, * p<0.1; denotes the chi-square test comparing to non-Hispanic white group. The unit of the first and the third columns is US dollars. |
Figure 3 Predicted Mean Expenditures and Mean Probabilities to Have Positive Expenditures in 2018 from the Two-Part Model, by Race/Ethnicity
이렇게 미국의 MEPS 데이터를 이용해서 2018년 미국의 성인(18-64세)들의 의료비가 인종/민족별로 어떻게 차이나는지를 살펴봤습니다. 만약 이게 정식 논문이었다면, 왜 어째서 위와 같은 결과가 나온 것인지 기존의 인종/민족 별 의료비 차이를 연구한 논문들을 인용하면서 그 이유를 설명하는 부분까지 썼어야했겠지만, 이번 분석은 연구질문에 맞는 분석 방법을 적용해서 잘 해석할 수 있는지까지를 보는 연습이었기 때문에 건조하게 결과 해석만 하고 마무리지었습니다.
위에서 언급한 대로, 글 전체는 여기서 보실 수 있습니다: pubhlth.tistory.com/17
Reference
Aday, L. A., & Andersen, R. (1974). A framework for the study of access to medical care. Health Services Research, 9(3), 208-220. Retrieved from http://www.ncbi.nlm.nih.gov/pubmed/4436074%0Ahttp://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC1071804
Agency for Healthcare Research and Quality [AHRQ]. (2018). MEPS HC-209 2018 Full Year Consolidated Data File.
Belotti, F., Deb, P., Manning, W. G., & Norton, E. C. (2015). twopm: Two-part models. In The Stata Journal (Vol. 15). Retrieved from https://journals.sagepub.com/doi/pdf/10.1177/1536867X1501500102
Cameron, A. C., & Trivedi, P. K. (2009). Microeconometrics Using Stata. College Station, TX: Stata Press Publication.
Castaneda, H., Holmes, S. M., Madrigal, D. S., Young, M. D., Beyeler, N., & Quesada, J. (2015). Immigration as a Social Determinant of Health. Annual Review of Public Health, 36, 375–392. https://doi.org/10.1146/annurev-publhealth-032013-182419
Chen, J., Vargas-Bustamante, A., & Novak, P. (2017). Reducing Young Adults’ Health Care Spending through the ACA Expansion of Dependent Coverage. Health Services Research, 52(5), 1835–1857. https://doi.org/10.1111/1475-6773.12555
Cohen, J. W., Cohen, S. B., & Banthin, J. S. (2009). The Medical Expenditure Panel Survey: A National Information Resource to Support Healthcare Cost Research and Inform Policy and Practice. Medical Care, 47(7 Suppl1), S44–S50.
Dark, T., Rust, G., Sehres, G., & Harman, J. S. (2020). Racial Disparities in Healthcare Utilization Among Individuals with Cardiometabolic Risk Factors and Comorbid Anxiety Disorder. Journal of Racial and Ethnic Health Disparities, 7(6), 1234–1240. https://doi.org/10.1007/s40615-020-00748-0
Deb, P., & Norton, E. C. (2018). Modeling Health Care Expenditures and Use. Annual Review of Public Health, 39, 489–505.
Johnston, R., Jones, K., & Manley, D. (2018). Confounding and collinearity in regression analysis: a cautionary tale and an alternative procedure, illustrated by studies of British voting behaviour. Quality and Quantity, 52(4), 1957–1976. https://doi.org/10.1007/s11135-017-0584-6
Ma, A., Sanchez, A., & Ma, M. (2019). The Impact of Patient-Provider Race/Ethnicity Concordance on Provider Visits: Updated Evidence from the Medical Expenditure Panel Survey. Journal of Racial and Ethnic Health Disparities, 6(5), 1011–1020. https://doi.org/10.1007/s40615-019-00602-y
Manning, W. G., & Mullahy, J. (2001). Estimating log models: To transform or not to transform? Journal of Health Economics, 20(4), 461–494. https://doi.org/10.1016/S0167-6296(01)00086-8
Mihaylova, B., Briggs, A., O’hagan, A., & Thompson, S. G. (2011). Review of Statistical Methods for Analysing Healthcare Resources and Costs. Health Economics, 20, 987–916. https://doi.org/10.1002/hec.1653
Mohanty, S. A., Woolhandler, S., Himmelstein, D. U., Pati, S., Carrasquillo, O., & Bor, D. H. (2005). Health care expenditures of immigrants in the United States: A nationally representative analysis. American Journal of Public Health, 95(8), 1431–1438. https://doi.org/10.2105/AJPH.2004.044602
Ng, J. H., Bierman, A. S., Elliott, M. N., Wilson, R. L., Xia, C., & Scholle, S. H. (2014). Beyond Black and white: Race/ethnicity and health status among older adults. American Journal of Managed Care, 20(3), 239–248.
Norton, E. C., & Dowd, B. E. (2018). Log Odds and the Interpretation of Logit Models. Health Services Research, 53(2), 859–878. https://doi.org/10.1111/1475-6773.12712
Wee, C. C., Phillips, R. S., Legedza, A. T. R., Davis, R. B., Soukup, J. R., Colditz, G. A., & Hamel, M. B. (2005). Health care expenditures associated with overweight and obesity among us adults: Importance of age and race. American Journal of Public Health, 95(1), 159–165. https://doi.org/10.2105/AJPH.2003.027946
Weech-Maldonado, R., Morales, L. S., Elliott, M., Spritzer, K., Marshall, G., & Hays, R. D. (2003). Race/ethnicity, language, and patients’ assessments of care in Medicaid managed care. Health Services Research, 38(3), 789–808. https://doi.org/10.1111/1475-6773.00147
'읽고 보고 쓰는 이야기' 카테고리의 다른 글
『가난한 도시생활자의 서울 산책』 서평 - 자본이 쫓아낸 사람들의 이야기 (0) | 2024.07.16 |
---|---|
서평 : 클라우디아 골딘, 『커리어 그리고 가정: 평등을 향한 여성들의 기나긴 여정』 (1) | 2022.02.28 |
『의사는 왜 여자의 말을 믿지 않는가』 서평 (2) | 2021.01.12 |
임신 중 약물 사용을 형사 처벌하는 미국의 정책과 비용-효용 분석 (0) | 2020.08.17 |
『무엇이 여성을 병들게 하는가』서평 (2) : 출산, 임금노동, 남용 (2) | 2020.06.21 |