머신러닝 기법을 활용한 유산소 운동 중 혈당 변화 예측 모형
Prediction Models of Blood Glucose Change During Aerobic Exercise Using Machine Learning Techniques
Article information
Trans Abstract
PURPOSE
This study aimed to explore the relationship between blood glucose level changes and body characteristics during exercise and to present six models for predicting changes in blood glucose levels during exercise.
METHODS
148 healthy men and women (age: 31.9±9.7 year, fasting blood glucose: 102.1±14.1 mg/dL, p=.032) participated in the study, and 30 of them participated in the study. Eight variables were selected to build two prediction models: 24-hour ingested carbohydrates, age, blood glucose, heart rate changes, sex, skeletal muscle mass, heart rate recovery after exercise, and resting heart rate. Logistic regression and random forest classifier models were used to predict the changes in blood glucose levels during exercise.
RESULTS
A total of six models were created for all participants, male and female. Random forest classification (training set: AUC=0.837, Youden index=0.66; validation set: AUC=0.730, Youden index=0.53) and logistic regression classification models (training set: AUC=0.807, Youden index=0.55; validation set: AUC=0.735, Youden index=0.57) were built.
CONCLUSION
The random forest model showed good performance in classifying internal data, whereas the logistic regression classification model demonstrated relatively good performance in classifying validation data.
서 론
혈당을 관리하고자 하는 당뇨병 환자 및 일반인들은 본인의 혈당을 확인하기 위해 혈액의 일부를 혈당 측정지에 떨어트려 측정하는 침습적인 방법을 이용한다. 이러한 방법은 고통을 수반할 뿐만 아니라 매번 측정할 때마다 측정지를 교환해야 하므로 비용이 발생하며, 감염의 위험이 있어 위생 관리에도 신경을 써야 하는 번거로움이 있다. 최근에는 의료기기의 발전으로 인해 사용과 휴대가 용이한 웨어러블 및 패치를 이용한 개인 건강관리 모니터링의 관심이 커지고 있으며 국내에서도 연구가 활발히 진행되고 있다[1-3]. 이러한 흐름에 맞춰 혈당을 관리하고자 하는 자들이 혈당관리를 비침습적인 방식으로 이용할 수 있다면 침습적인 방법에서 오는 불편함을 덜어줄 수 있을 것이다.
기계학습을 통한 질병 예후나 신체 특성의 예측은 지난 20년 동안 널리 적용되어, 제2형 당뇨병의 조기진단[4]과 당뇨병 발생 예측[5] 질병을 예측하는 것에서부터 암 발생 예측과 예후 예측[6]과 같이 발생 이후의 상태를 예측하는 모형들이 연구되어왔다. 이러한 모형들은 경제적 비용을 최소한으로 줄이면서 한번의 측정으로 알 수 있는 인체지표를 통해 원하는 질병의 발병 여부를 확인할 수 있다는 점에서 의의가 있다. 이러한 선행 연구들과 같이 기계학습 혹은 통계적 방법을 통해 혈당을 예측하는 연구들 또한 시도되어왔다. 구체적으로, 많은 연구들이 선천적 요인으로 발생하는 제1형 당뇨병 환자의 평소 혈당을 예측하여 관리를 돕거나[7] 제2형 당뇨병 환자의 평소 혈당을 예측하는[8] 평소 혈당에 초점이 맞춰져 모형을 개발하였다.
미국 당뇨 협회에서는 제2형 당뇨병 환자의 혈당 조절, 심혈관 질환 예방, 고지혈증, 고혈압 등 예방 및 관리에 필수적인 요소로 운동을 꼽았다[9]. 선행연구에서는 또한 제2형 당뇨병 환자들이 운동하였을 때 혈당 조절 능력이 좋아질 뿐 아니라 내장 지방 조직이 감소하였으며 환자가 운동을 수행함으로 인한 신체적 부작용도 없음을 보고 하였다[10]. 혈당을 관리하고자 하는 사람들의 지속적인 운동 참여를 위해서는 동기부여가 중요하며 운동에 참여하게 하는 동기들 중 운동을 통해 당뇨병이 개선되는 것을 확인하는 확인규제가 운동 참여에 큰 영향을 미치는 것으로 보고되었다[11]. 이러한 연구 결과는 운동 중 및 운동 후 혈당의 변화를 확인하는 것이 당뇨병 환자들의 적극적 운동참여를 독려할 수 있음을 의미한다. 메타분석 및 리뷰 논문[27]에 따르면 지속적으로 실시간 혈당 모니터링 시스템은 당뇨병 환자의 혈당 조절을 돕고 저혈당 발생률을 낮추는데 긍정적 효과가 있다고 제안한다. 특히, 운동 중에는 당뇨병 환자들의 평소 상태보다 혈당의 변화가 크기(특히 혈당이 감소하는 상황이 대부분) 때문에 운동 중에 혈당의 변화를 측정하는 것은 당뇨병 환자들의 안전한 운동 참여를 독려하는데 중요한 사항일 것이다. 잘 알려진대로, 당뇨병 환자의 정기적인 운동참여를 통해서 혈당 관리, 체중 관리, 그리고 기타 당뇨 관련 합병증 예방을 신경쓰는 일은 중요하다.
일반적으로 운동 중 혈당이 감소할 것으로 생각하지만, 운동 참여자의 영양상태와 운동의 강도에 따라 운동 시 혈당이 상승할 수도 있다[12]. 운동을 통해 혈당을 관리하려는 사람은 운동을 할 때 혈당이 내려갈 것을 기대하게 되는데, 운동 중 혈당이 상승하거나 유지되는 것을 확인할 경우 운동이 혈당 수치를 개선하는 결과로 이어지지 않는 것으로 느껴 운동 참여 동기에 방해 요인이 될 수 있다. 따라서, 일반인이 측정하기 쉬운 신체 정보(예를 들어 신장, 몸무게, 성별)와 체성분검사를 통해 알 수 있는 신체 정보(예를 들어 체지방량, 근육량)를 이용해 운동 중 혈당의 변화를 미리 예측할 수 있다면 혈당 측정을 위한 패치 및 도구의 사용으로 인해 소비되는 사회 경제적 비용 절감을 기대할 수 있으며, 사용자들의 편의성을 높일 수 있을 것이다. 따라서 본 연구의 목적은 건강한 성인 남녀의 측정이 용이한 신체정보와 기기를 통해 측정 가능한 신체정보를 이용하여 운동 중 혈당의 변화를 예측하는 모델을 개발하여 당뇨병 환자 및 일반인의 운동 중 혈당 변화 예측 연구의 기초 토대를 마련하고자 하는 것이다.
연구 방법
1. 연구 대상자
건강한 만 18-50세 성인 남녀로 신체활동 준비상태 설문(The Physical Activity Readiness Questionnaire for Everyone, PAR-Q)을 통한 이상 여부를 묻는 모든 질문에 No로 답한 자(운동 참여에 제한이 없는 자)로 모집하였다. 그중에서 자신의 예측 최대 심박수(220-만나이)의 70-85%로 30분간 달리기가 가능하고, 본 연구에서 수행되는 모든 실험과정을 이해하고 연구 참여에 동의한 남녀 150명과 재측정자 30명을 무작위로 선정하였다. 본 실험 참여 이전에 모든 대상자에게 연구의 취지 및 내용을 충분히 설명하였다. 본 연구는 2022년 6월 13일부터 9월 22일까지 진행되었다. 연세대학교 IRB에서 승인을 받은 포스터를 온라인과 오프라인 게시(IRB번호: 7001988-202203-HR-1526-02), 그리고 외부 인력 모집 업체를 통하여 대상자를 모집하였다. 본 연구 참여 희망자 중, 대상자 선정 기준에 부합하고 동의서를 작성한 연구대상자가 본 연구에 참여하였다.
2. 인체 계측 및 운동 수행 중 변인 수집
본 연구 참여 대상자는 신장측정기(BSM340, Biospace, Korea)와 체성분 분석기(Inbody720 −1.0 version, Biospace, Korea)를 사용하여 신장과 신체구성을 측정하였다. 연구참여자는 트레드밀에서 자신의 예측 최대 심박수(220-만나이)와 운동 자각도(Rate of perceived exertion, RPE, 6-20 Scale)를 활용하여 최대 심박수의 70-85% 혹은 RPE 7-8 정도의 강도로 총 30분간 달리기를 수행하였다. 운동 중 심박수는 심박수 측정기(Polar H10, Polar, korea)를 통해 측정하였으며 연구 대상자가 운동 지속을 원하지 않을 때는 즉시 실험을 종료한 뒤 앉아서 휴식을 취하도록 하였다. 혈당과 젖산은 간이 혈당(Accu-Check Instant meter, Roche Diabetes Care GmbH, Germany) 및 젖산 측정기(Lactate pro2, Arkray, Japan)로 총 6회(운동 전, 운동 시작 후 10분, 15분, 20분, 25분, 30분) 측정하였다. 운동 중에는 5분 간격으로 총 9회(운동 시작 후 5분, 10분, 15분, 20분, 25분, 30분, 휴식 시작 후 5분, 10분) 적외선 체온계(MC-523, 오므론 헬스케어, Korea)를 이용하여 귀 체온을 측정하였다. 혈당 변화 예측 모형의 타당도 측정을 위한 재측정 실험의 대상자는 1차 실험이 완료된 후 무작위 함수를 통해 30명을 선정하고 재측정 의사를 문자로 모집하였다. 이 중 참여의사를 표시한 참여자를 모집 후 다시 모자란 수만큼 무작위로 선정하여 문자로 모집하기를 반복하였다. 연구 참여 대상자는 실험에 참여하기 전에, 지난 24시간 섭취한 음식을 기록하도록 하였다. 식이 데이터는 Computer Aided Nutritional analysis program Pro 5.0 (CAN Pro 5.0)을 통하여 영양성분을 분석하여 탄수화물 섭취량을 측정하였다.
3. 자료처리방법
모든 통계 분석은 SPSS 21.0 및 Python을 이용하여 분석을 실시하였으며 분석 결과의 유의성 판단 기준은 p <.05로 하였다. 분류 모형은 로지스틱 회귀 분석 기법, 랜덤 포레스트 분류기법을 사용하여 성능을 비교한 후 성능이 좋은 모형을 제시하는 것으로 하였다. 참고로, Py-thon에서 Pandas 라이브러리와 scikit-learn 라이브러리를 사용하였다. 또한, 가장 효과적인 하이퍼 파라미터 구성에 대한 검색을 자동화하는 Optuna 프레임워크[28]를 활용하였으며, Optuna는 검색 공간을 정의하고 최적화를 위한 목적 함수를 지정하고 최적화 알고리즘을 선택하기 위한 사용자 친화적이고 적응 가능한 인터페이스를 제공한다 [28]. 회귀식을 만들기 위해 실험을 완료한 150명 중 젖산 측정기의 이상으로 측정되지 않은 2명을 제외한 148명의 데이터와 재측정을 완료한 30명의 데이터를 사용하였다. 종속 변인은 운동 후 혈당의 감소 여부이며 대상자 집단은 비교를 위해 운동 전 혈당을 기준으로 5% 이하로 감소한 그룹과 유지 혹은 상승한 그룹으로 나누어 분석하였다. 모형의 성능은 운동 중 혈당이 유지될 것을 예측한 수를 실제로 유지된 수로 나눈 비율(Sensitivity; 민감도)과 운동 중 혈당이 하락할 것을 예측한 수를 실제로 하락한 수로 나눈 비율(Specificity; 특이도)을 계산하여 Youden index (민감도+특이도-1)로 평가하였다[13]. 또한, 선정된 진단 기준점에 따라 산출되는 평가지표인 양성예측도(Positive Predictive Value, PPV), 음성예측도(Negative Predictive Value, NPV), 양성 우도비(Positive Likelihood Ratio, PLR), 음성 우도비(Negative Likelihood Ratio, NLR)를 추가로 제시하여 본 연구에서 개발한 예측 모델들의 예측력을 다양한 평가 지표로 평가하였다. 독립변수들은 선행연구에서 중요한 것으로 고려된 변수들인 성별, 연령, 체질량지수(Body Mass Index, BMI), 체지방률, 안정시 심박수, 골격근량, 내장지방량, 4시간 이상 공복 혈당, 운동 전 젖산치, 24시간 내 섭취한 탄수화물량(g), 혈당과 체력을 반영할 수 있는 운동 후 10분간의 심박수 회복량, 운동 중 상승한 심박수, 운동 중 변화한 젖산을 선정하였다[14-26]. 예측모형 생성에 활용한 변수는 운동 후 혈당과 상관도가 높고, 선행 연구에서 혈당 조절에 영향을 미치는 것으로 고려된 성별, 연령, 체질량지수, 골격근량, 체지방률, 내장지방량, 4시간 이상 공복 혈당치, 24시간 내 섭취한 탄수화물량을 선정하였다. 또한 혈당의 변화에 영향을 미치는 운동 훈련정도 및 체력을 반영하는 안정시 심박수, 운동 중 심박수 변화량, 운동 중 젖산 변화량, 운동 후 10분간의 심박수 회복량을 예측모형에 포함시켰다. 예측 모형은 분류 결과를 확률로 나타내게 되는데, 분류의 기준이 되는 확률 값을 Cut off라고 한다.
1) 로지스틱 회귀 분석(Logistic Regression Analysis)
성별, 연령, 체질량지수(Body Mass Index, BMI), 체지방률, 안정시 심박수, 골격근량, 내장지방량, 4시간 이상 공복 혈당, 운동 전 젖산치, 24시간 내 섭취한 탄수화물량(g), 혈당과 체력을 반영할 수 있는 운동 후 10분간의 심박수 회복량, 운동 중 상승한 심박수, 운동 중 변화한 젖산을 회귀식의 변수로 사용하였다. 모든 변수는 단위가 다르므로 가중치를 공평하게 주기 위하여 표준화(Standardization)한 값과 최소-최대 정규화(Min-Max Normalization)한 값을 비교하여 사용하였다. 두가지 종류의 값을 통해 도출한 식들의 성능을 비교한 결과 설명력이 높고, 이상치에 비교적 민감하지 않은 표준화한 값으로 도출한 식을 보고하도록 했다.
Python을 이용하여 성별을 변수로 넣은 회귀식과 성별을 변수로 넣지 않고 남녀를 따로 나눈 남성 전용 회귀식과 여성 전용 회귀식의 총 3가지 회귀식을 도출하였다. Receiver Operating Characteristic (ROC) curve 분석을 사용하여 AUC (Area Under the Curve) score가 가장 높은 cutoff 수치를 정하였다. 그 후 재측정자 30명에게 각각 3가지 식을 적용하였다.
2) 랜덤 포레스트 분류(Random Forest Classifier)
성별, 연령, BMI (Body Mass Index), 체지방률, 안정시 심박수, 골격근량, 내장지방량, 운동 전 젖산치, 24시간 내 섭취한 탄수화물량(g), 혈당과 체력을 반영할 수 있는 운동 후 10분간의 심박수 회복량, 운동 중 상승한 심박수, 운동 중 변화한 젖산치를 변수로 선정하고 혈당이 유지된 그룹과 감소한 그룹을 타겟으로 하여 AUC score가 가장 높게 나타나는 모형을 생성하고 재측정 집단에 적용하여 신뢰도, 타당도 및 성능을 평가하였다.
연구 결과
1. 대상자의 일반적 특성
본 연구에 참여한 대상자의 일반적 특성은 Table 1과 같다.
1차 측정 대상자의 평균 연령은 31.9±9.7세이며 남성은 30.0±8.5세, 여성은 33.9±10.5세로 확인되었다. 근육량과 체질량지수는 남성이 여성보다 높았으나 체지방률은 여성이 남성보다 높게 나타났다(p <.001). 운동 전 혈당은 평균 102.1±14.1 mg/dL로 남성(104.5±15.9 mg/dL)과 여성(99.6±11.5 mg/dL)을 비교하였을 때 통계적으로 유의하게 남성에게서 높게 나타났다(p =.032). 안정시 심박수, 운동 전 24시간 섭취한 탄수화물 양, 운동 전 혈중 젖산 농도는 남녀에게서 통계적으로 유의한 차이가 나타나지 않았다.
2차 측정 대상자의 평균 연령은 32.7±9.9세이며 남성은 31.6±7.8세, 여성은 33.9±12.1세로 확인되었다. 체질량지수, 근육량은 1차 측정과 마찬가지로 남성평균이 여성평균보다 높았고 체지방률은 여성이 남성보다 높게 나타났다. 운동 전 혈당은 평균 101.6±7.4 mg/dL로 남성 (104.3±5.0 mg/dL)과 여성(98.6±8.7 mg/dL)이 1차 측정 결과와 마찬가지로 남성이 높은 경향이 확인되었다.
안정시 심박수, 운동 전 24시간 동안 섭취한 탄수화물 양, 운동 전 젖산은 남녀 간 통계적으로 차이가 나타나지 않았다.
2. 연구 결과
1차 실험 대상자의 운동 중 생리적 변화는 Table 2와 Fig. 1과 같다. 운동 전 평균 심박수는 77.0±12.8 bpm이었으며 운동 시작 후 25분째에 평균 148.1±12.5 bpm까지 상승하였다. RPE는 평균적으로 중·저강도(약간 힘들다)로 확인되었다. 혈당은 운동 전에 102.1±14.1 mg/dL에서 운동 후 95.5±10.7 mg/dL로 감소하는 경향을 보였다. 체온은 운동 중 상승한 후, 10분 휴식을 취하며 회복되었다. 젖산 수치는 운동 시작 후 10분 동안 상승하였고 운동 중 유지되는 경향을 보였다. 운동 중 트레드밀 속도는 예측 최대 심박수의 70-85% 범위 내에서 RPE를 고려하여 조정되었다.
운동이 종료된 후 수집된 혈당의 데이터를 기반으로 운동 전 혈당과 비교해 5% 이하로 떨어진 그룹과 유지 혹은 상승된 그룹의 일반적 특성은 Table 3과 같다. 운동 중 혈당이 감소한 참여자는 공복 시 혈당이 높았다.
혈당 변화 예측 모델을 로지스틱 회귀분석과 Random forest방법을 사용한 예측력의 비교는 Table 4에 나와있다. 로지스틱 회귀 분석의 예측력은, Cut off 값을 0.362로 두었을 때 AUC 점수가 최대인 0.702이었으며 이때 특이도는 0.56, 민감도는 0.88, 정밀도는 0.62로 나타났다. Youden Index는 0.44으로 나타났다. 30명의 재측정자에게 적용했을 때 로지스틱 회귀 분석의 예측력은, Cut off 값을 0.362로 두었을 때 AUC 점수가 최대인 0.817이었으며 이때 특이도는 0.63, 민감도는 0.93, 정밀도는 0.68로 나타났다. Youden Index는 0.55으로 나타났다.
남성만을 대상으로 만들어진 로지스틱 회귀식은 Cut off 값을 0.341로 두었을 때 AUC score가 최대인 0.807이었으며 특이도는 0.65, 민감도는 0.90, 정밀도는 0.62로 나타났다. Youden Index는 0.55으로 나타났다. 이를 재측정자 16명에게 적용하였을 때 AUC score는 0.91이었으며 특이도는 0.67, 민감도는 0.71, 정밀도는 0.63, Youden Index는 0.38이었다.여성의 경우, AUC score가 0.77로 최대가 되는 Cut off는 0.424이었으며 특이도는 0.58, 민감도는 0.86, 정밀도는 0.68이었다. Youden Index는 0.45으로 나타났다. 이를 재측정자 14명에게 적용하였을 때 AUC score 는 0.735, 특이도는 0.71, 민감도는 0.86, 정밀도는 0.75, Youden Index는 0.57이었다.
Random forest classifier 사용 예측력은, 전체를 대상으로 세운 모형은 학습 모형에 대하여 Cut off 값을 0.489로 두었을 때 AUC score가 최대인 0.833이었으며 이때 특이도는 0.73, 민감도는 0.80, 정밀도는 0.71로 나타났다. Youden Index는 0.53으로 나타났다. 이를 재측정자 30명에게 적용하였을 때 AUC score는 0.679이며 특이도는 0.56, 민감도는 0.64, 정밀도는 0.56으로 나타났다. Youden Index는 0.21으로 나타났다. 남성을 대상으로 세운 모형은 학습 모형에 대하여 Cut off 값을 0.463으로 두었을 때 AUC score가 최대인 0.837이었으며 이때 특이도는 0.73, 민감도는 0.97, 정밀도는 0.67로 나타났다. Youden Index는 0.66으로 나타났다. 이를 재측정자 30명에게 적용하였을 때 AUC score는 0.730이며 특이도는 0.67, 민감도는 0.86, 정밀도는 0.67으로 나타났다. Youden Index는 0.53으로 나타났다. 여성을 대상으로 세운 모형은 학습 모형에 대하여 Cut off 값을 0.479으로 두었을 때 AUC score가 최대인 0.785이었으며 이때 특이도는 0.69, 민감도는 0.81, 정밀도는 0.73로 나타났다. Youden Index는 0.51으로 나타났다. 이를 재측정자 30명에게 적용하였을 때 AUC score는 0.694이며 특이도는 0.43, 민감도는 0.71, 정밀도는 0.56으로 나타났다. Youden Index는 0.14으로 나타났다. 학습 모형에서는 랜덤포레스트로 구축한 남성 모형이 Youden index가 0.66으로 가장 높았으며, 재측정자를 대상으로 적용해 보았을 때는 로지스틱 회귀 여성 모형이 Youden index가 0.57로 가장 높았다.
논 의
본 연구는 운동 참여 실험을 통하여 중강도 수준의 운동 중 혈당의 변화와 혈당의 변화와 관련이 있는 생리적 변인을 이용하여 혈당의 변화를 예측하는 모형을 제시하는데 그 목적이 있다. 본 연구는 선행 연구 대비 많게는 30배의 대상자를 모집하여 운동 중 혈당의 변화를 확인하였다. 또한 본 연구는 24시간 내 식이 데이터를 수집하여 분석된 영양 데이터를 변수로 활용하였다는 점에서 차별성이 있다. 제1형, 제2형 당뇨병 환자의 평소 혈당 상태 혹은 혈당의 변화를 예측하는 모형개발이 활발히 연구되어 있는 것에 비하여 상대적으로 연구가 진행되어 있지 않은 운동 중 혈당의 변화를 예측하는 새로운 모형을 제시하였다. 그러나 본 연구는 선행 연구가 매우 부족하여 혈당 반영 변수의 선정 근거 타당성이 높다고 이야기하기 어려울 뿐 아니라 선행되어 개발된 모형이 부족하여 성능을 비교하기 어려운 실정이다. 본 연구에서는 학습데이터 수가 풍부하지 않아 모형의 성능을 온전히 이끌어내지 못하였으나 선행 연구 대비 많은 인원을 확보하여 선행 연구에서 시도하지 못한 운동 중 혈당 변화 예측을 기계학습으로 시도한 점에서 차별성이 있다. 또한 본 연구는 24시간 내 식이 데이터를 수집하여 분석된 영양 데이터를 변수로 활용하였다는 점에서 차별성이 있다. 최근에 증가하고 있는 선행 연구는 머신러닝 기법을 이용하여 여러가지 만성질환(당뇨병 또는 심혈관 질환)의 유병률 또는 위험도를 예측하는 모델의 성능을 검증하고 있다[29,30]. 그에 따라 본 예측 모델에서 포함하는 여러가지 생활습관 및 건강지표가 만성질환 예방을 위한 정보를 제공하고 있어서, 본 논문도 당뇨병 환자 및 당뇨병 위험군에 해당하는 사람들에게 혈당관리가 생활습관 개선의 측면에서 중요한 사안이 될 것으로 제안한다.
1. 혈당예측모형의 성능
혈당변화 예측 모형을 구축함에 있어, 전체 연구참여자의 데이터를 이용하여 혈당 예측 모형을 구축하였고 이 중 30명을 임의로 선발하여 다른 날에 재측정 한 후 혈당의 변화를 예측하였다. 본 연구는 예측 모형을 구축할 때 AUC가 최대로 나타나는 조건에서 Youden Index가 0.5 이상, 그리고 재측정자를 대상으로 혈당 변화를 예측할 때 Youden Index가 0.5 이상, 이 두가지 조건을 동시에 충족하여 예측할 수 있는지 확인하고자 하였다. 본 연구에서 제시한 랜덤포레스트 남성 모형은 AUC가 0.837, Youden Index가 0.5 이상이었으며 재측정자를 대상으로 적용해보아도 AUC 0.730, Youden Index 0.5 이상으로 나타났다. 로지스틱 회귀모형은 150명을 대상으로는 랜덤포레스트 모형에 비해서 예측 성능이 떨어졌으나, 재측정자 대상으로는 전체와 여성모형에서 각각 AUC 0.817과 0.735이며 Youden Index가 0.5 이상으로 나타났다.
운동 중의 혈당의 변화를 예측한 모형은 아니지만 평소 혈당의 예측 모형을 제시한 선행 연구들은 종류가 다양하고 많은 개발이 시도되고 있다. 평소 혈당 상태를 지속적으로 확인하는 것이 중요한 제1형 당뇨병 환자를 대상으로 예측 모델을 제시한 Munoz-Organero [14]는 인슐린 흡수율, 탄수화물 섭취량, 과거 혈당치를 고려하여 Long Short Term Memory (LSTM)를 활용한 순환 신경망(Recurrent Neural Net-work, RNN)으로 모형을 제작하였다. 인슐린 및 식이 변화가 혈당에 미치는 영향을 고려하고자 40명의 환자 모델을 생성하고 9명의 실제 환자에게서 10일간 데이터를 수집하였다. 이를 무작위 분할하고 70%는 학습에 30%는 검증으로 사용하였다. Alfian et al. [15]은 12명의 제1형 당뇨병 환자를 대상으로 연속혈당측정기를 통해 7일에서 9일 동안 혈당을 실시간으로 수집하여 데이터를 학습하고 30분간의 혈당을 기반으로 15분 뒤의 혈당을 예측하는 시계열 예측 모형을 제시하였다. 이러한 선행 연구들은 많은 수의 당뇨병 환자들의 모집에 어려움이 있어, 적은 인원수로 긴 시간의 실험을 통하여 많은 데이터를 확보하여 학습을 진행하는 방식을 취하고 있다. 이 방식을 통해 구축된 예측 모형은 적은 인원에게서 데이터를 다량을 얻은 방법이므로 예측 모형의 적합도가 학습 대상이 되는 적은 대상자들에게 맞춰지게 되어 다양한 사람의 특성을 반영하지 못한다는 제한점을 가진다. 또한 당뇨병 환자를 대상으로 연구가 되었기 때문에 일반인에게는 적용할 수 없다는 제한점이 있다. 본 연구에서는 이를 극복하고자 선행 연구 대비 대상자의 수를 늘려 연구를 진행하였으며 일반인을 대상으로 참여자를 모집하였다. 본 연구에서는 운동 전 후의 혈당에 영향을 미치는 요소로 체지방률과 BMI를 선정하였는데, BMI가 높을수록 지방을 에너지로 이용하는 능력이 감소하게 되고 이에 따라 혈중 포도당을 이용하게 됨에 따라 운동 시 저혈당 증세를 일으킬 가능성이 높기 때문이다[16]. 비만군은 정상군에 비해 평소 혈당이 높으며 유산소 운동 후에 정상군은 혈당이 증가한 것에 비해 비만군은 혈당이 감소한다[16]. 성별에 따라 운동 중 혈당의 반응이 다름도 보고되었다[17]. 운동 중 글루카곤 수치가 남성에 비해 여성에게서 증가폭이 적게 보고되었으며 이는 중강도의 사이클 운동 시에 훈련된 여성과 남성을 비교하였을 때도 마찬가지로 보고되었다[18]. 성별 차이로 인해 운동 중 포도당 반응 속도가 차이나는 이유는 운동 중 글루카곤 반응과 카테콜아민이 차이가 나기 때문이다. 글루카곤은 포도당 생산의 중요한 조절체이기에[19] 운동 중 글루카곤의 농도차이는 운동 중 혈당의 차이에도 영향을 미치게 된다. 연령은 상승함에 따라 혈당 수치가 증가하며 사망 위험과 관련이 있으며[20], 근육량은 많을수록 근육내에 포도당을 저장할 공간이 많아 운동 중 혈당 반응에 영향을 미친다[13]. 운동 전에 탄수화물을 섭취할 경우 탄수화물을 섭취하지 않은 집단과 비교하여 운동 중 혈당이 감소하는 경향이 보고되었는데[21], 이는 섭취한 탄수화물에 의해 혈당이 상승하다가 소모한 에너지를 보충하기 위하여 혈당을 소모하게 되는 것이다. 운동 훈련 정도에 따라 운동 시의 혈당이 차이가 나는 결과도 보고되었다[22]. 이렇게 혈당에 직접적, 간접적으로 영향을 미치는 요소들 외에도 근지구력과 제2형 당뇨병 유병률을 반영하는 요소로 안정시 심박수도 보고되었다[23,24]. 본 연구에서는 이 요소들을 반영하기 위하여 데이터를 체구성성분 분석기, 심박수 측정기, 젖산 측정기, 혈당 측정기, 영양 분석 프로그램을 통하여 수집하였고 이를 회귀식 도출에 활용하였다.
탄수화물의 섭취 후 경과한 시간과 탄수화물의 양이 혈당의 변화에 영향을 주는 것을 고려하였을 때 연구 대상자들의 운동 전 식사를 통제할 필요가 있다. 많은 선행 연구들이 당뇨병의 진단 방법으로서 포도당 섭취 후 2시간이 경과 후의 혈당을 확인하고 있으며 정상인은 2시간 후에 혈당이 돌아오는 것으로 보고하고 있다[25,26]. 이에 따라 본 연구에서는 대상자에게 2시간 공복을 유지하도록 공지하더라도 실수로 섭취하는 경우와, 2시간 내에 혈당이 정상 수치로 돌아오지 않는 내당능 장애자가 있을 것을 고려하여 4시간 이상 공복을 유지하도록 하였다. 이에 더하여 공복 유지 전에 섭취한 식사의 종류가 혈당에 미칠 영향을 고려하여 운동 전 24시간 내의 식사 내용을 수집하고 영양 분석 프로그램을 통해 섭취한 식사의 영양 내용을 분석하였다.
2. 제한점
본 연구는 다음과 같은 제한점을 가지고 있다.
첫째, 본 연구는 단면적인 데이터가 수집되어 정교한 기계 학습을 위한 충분히 많은 자료는 확보하지 못하였다. 또한 신뢰도 검사에 활용한 재측정자의 수는 30명으로 이상치에 민감한 적은 인원으로 Youden index가 낮게 나온 것으로 생각된다. 따라서 본 실험에 참여하지 않은 타인을 대상으로 적용하기에 충분히 타당하다고 단언할 수 없다. 기계 학습의 특성상 자료의 수가 많을수록 정교하고 타당한 모형을 학습하여 제시할 수 있는데, 인간 대상 실험연구의 한계로 인해 학습하기에 충분한 자료를 확보하기에 어려움이 있었다. 다만 운동 중 혈당의 변화를 시점별로 확인한 선행 연구와 대비하여 동물이 아닌 인간을 대상으로 실험을 하여 100명이 넘는 자료를 확보하여 연구를 진행하였다는 점에서 의의가 있다.
둘째, 본 연구의 모형을 적용하여 외부 타당도를 확인하기 위한 자료가 없어, 실험군 외 일반인에게도 적용할 수 있도록 보편화 하지 못하였다. 하지만 본 연구에서는 재측정 실험을 통해 모형의 신뢰도 및 내부 신뢰도를 높여서 보편화는 어렵다 하더라도 같은 대상자의 혈당의 지속적 예측 가능성을 확인하려 노력하였다.
셋째, 대상자 연령을 50세로 제한하였기에 모든 연령자에게 연구의 결과를 적용하여 일반화하기에는 어렵다.
넷째, 본 연구에서 수집된 인적, 실험적 자료 및 체내 데이터는 약 90가지가 수집되었으나 이 자료 외에도 가족력과 같은 혈당 조절에 영향을 미치는 요소들(residual confounding)을 반영하는 특성이 고려되지 않았을 가능성이 있다.
위와 같은 제한점에도 불구하고 본연구는 많은 대상자를 확보하여 운동 중 혈당의 변화를 확인한 연구가 매우 부족한 상황에서 운동 중의 혈당의 변화를 예측하는 연구분야의 초석이 된다는 점에서 의의가 있다고 생각된다.
결 론
연구 결과를 요약하면 다음과 같다.
계측 가능한 인체 지표 중 8가지 변수를 선정하여 운동 중 혈당 변화 예측 모형 두 종류를 구축하였다. 랜덤 포레스트 모형이 내부 데이터를 가장 좋은 성능으로 분류하였으며 로지스틱 회귀 분류 모형이 재측정 데이터를 비교적 좋은 성능으로 분류하는 것으로 확인되었다.
따라서 추후에는 데이터가 더욱 풍부하고 연구 대상의 특성이 다양한연구가 요구되며 이를 기반으로 혈당 조절 및 관리가 필요한 사람들을 위한 정밀한 예측 모형을 개발하는 연구를 제안한다. 이를 기반으로 하여 혈당을 관리하는데 적절한 운동 강도 및 시간을 적용한 운동 프로그램의 개발도 필요할 것이다. 더 나아가 혈당 관리를 위한 생활 습관 및 행동 교정 프로그램이 개발된다면 제2형 당뇨병 환자의 건강 관리뿐 아니라 일반인의 당뇨병 예방에 큰 기여를 하게 될 것이다.
Notes
이 논문 작성에 있어서 LG전자로부터 지원을 받았으나, 논문에 영향을 미칠 수 있는 어떠한 관계도 없음을 밝힌다.
AUTHOR CONTRIBUTIONS
Conceptualization: O Oyama, J Y Jeon; Data curation: O Oyama, E Kim; Formal analysis: S Choi, O Oyama; Funding acquisition: D Park, H Seo, J Han, D Jeon, S Kim; Methodology: O Oyama, J Y Jeon; Project administration: O Oyama, C Oh; Visualization: O Oyama; Writing - original draft: O Oyama; Writing - review & editing: D Park, M Oh, D Park, H Seo, J Han, D Jeon, S Kim.