Publication: Comparison of Machine Learning With Logistic Regression for Prediction of Chronic Kidney Disease in the Thai Adult Population
Issued Date
2021
Resource Type
Language
eng
ISSN
0125-3611 (Print)
2651-0561 (Online)
2651-0561 (Online)
Rights
Mahidol University
Rights Holder(s)
Department of Clinical Epidemiology and Biostatistics Faculty of Medicine Ramathibodi Hospital Mahidol University
Bibliographic Citation
Ramathibodi Medical Journal. Vol. 44, No. 4 (October-December 2021), 1-12
Suggested Citation
Ratchainant Thammasudjarit, Punnathorn Ingsathit, Sigit Ari Saputro, Atiporn Ingsathit, Ammarin Thakkinstian, รัตน์ชัยนันท์ ธรรมสุจริต, ปัณณธร อิงค์สาธิต, ซิจิต อาริ ซาปูโตร, อติพร อิงค์สาธิต, อัมรินทร์ ทักขิญเสถียร Comparison of Machine Learning With Logistic Regression for Prediction of Chronic Kidney Disease in the Thai Adult Population. Ramathibodi Medical Journal. Vol. 44, No. 4 (October-December 2021), 1-12. Retrieved from: https://repository.li.mahidol.ac.th/handle/20.500.14594/72220
Research Projects
Organizational Units
Authors
Journal Issue
Thesis
Title
Comparison of Machine Learning With Logistic Regression for Prediction of Chronic Kidney Disease in the Thai Adult Population
Alternative Title(s)
การเรียนรู้ด้วยเครื่องสำหรับการพยากรณ์โรคไตเรื้อรังในประชากรไทยวัยผู้ใหญ่
Abstract
Background: Chronic kidney disease (CKD) takes huge amounts of resources for treatments. Early detection of patients by risk prediction model should be useful in identifying risk patients and providing early treatments
Objective: To compare the performance of traditional logistic regression with machine learning (ML) in predicting the risk of CKD in Thai population.
Methods: This study used Thai Screening and Early Evaluation of Kidney Disease (SEEK) data. Seventeen features were firstly considered in constructing prediction models using logistic regression and 4 MLs (Random Forest, Naïve Bayes, Decision Tree, and Neural Network). Data were split into train and test data with a ratio of 70:30. Performances of the model were assessed by estimating recall, C statistics, accuracy, F1, and precision.
Results: Seven out of 17 features were included in the prediction models. A logistic regression model could well discriminate CKD from non-CKD patients with the C statistics of 0.79 and 0.78 in the train and test data. The Neural Network performed best among ML followed by a Random Forest, Naïve Bayes, and a Decision Tree with the corresponding C statistics of 0.82, 0.80, 0.78, and 0.77 in training data set. Performance of these corresponding models in testing data decreased about 5%, 3%, 1%, and 2% relative to the logistic model by 2%.
Conclusions: Risk prediction model of CKD constructed by the logistic regression, Neural Network, and Random Forest have comprehensible discrimination performance, but the logistic regression tends to have lower overfitting compared to Neural Network, and Random Forest.
บทนำ: โรคไตเรื้อรังเป็นโรคที่ใช้ทรัพยากรอย่างมากในการดูแลรักษา การค้นหาโรคได้ตั้งแต่ระยะเริ่มต้นด้วยการใช้แบบจำลองทำนายความเสี่ยง จะเป็นประโยชน์ในการค้นหาผู้ป่วยที่เสี่ยงในการเกิดโรคและสามารถให้การรักษาได้ตั้งแต่ระยะเริ่มต้น วัตถุประสงค์: เพื่อเปรียบเทียบแบบจำลองที่สร้างจากสมการ Logistic regression กับการเรียนรู้ของเครื่อง (Machine learning) ในการทำนายความเสี่ยงของการเกิดโรคไตเรื้อรังในประชากรไทยวัยผู้ใหญ่ วิธีการศึกษา: ข้อมูลสำหรับการศึกษานี้นำมาจากโครงการ Thai Screening and Early Evaluation of Kidney Disease (SEEK) ประกอบด้วย 17 ตัวแปรในการสร้างแบบจำลองทำนายความเสี่ยงโดยใช้วิธี Logistic regression และการเรียนรู้ของเครื่อง 4 วิธี (Random Forest, Naïve Bayes, Decision Tree, Neural Network) โดยข้อมูลถูกแบ่งออกเป็นการฝึกและการทดสอบข้อมูลในสัดส่วน 70:30 การประเมินสมรรถนะใช้ค่า Recall, C statistics, Accuracy, F1, และ Precision ผลการศึกษา: ตัวแปร 7 จาก 17 ตัวแปรได้ถูกคัดเลือกในการสร้างแบบจำลองทำนายความเสี่ยงพบว่า แบบจำลองจากสมการ Logistic regression สามารถจำแนกผู้ป่วยที่เป็นโรคไตเรื้อรังออกจากผู้ป่วยที่ไม่เป็นโรคได้ดี โดยมีค่า C statistics เท่ากับ 0.78 และ 0.78 จากการฝึกและการทดสอบข้อมูลตามลำดับ ในขณะที่แบบจำลองจาก Neural Network ให้ผลลัพธ์ดีที่สุดเมื่อเทียบกับตัวแบบอื่นๆ ที่สร้างจากการเรียนรู้ของเครื่อง เช่น Random Forest, Naïve Bayes, และ Decision Tree โดยมีสมรรถนะในการฝึกวัดจากค่า C statistics เท่ากับ 0.82, 0.80, 0.78, และ 0.77 ตามลำดับ ส่วนสมรรถนะในการทดสอบลดลงร้อยละ 5 ร้อยละ 3 ร้อยละ 1 และร้อยละ 2 ตามลำดับ ในขณะที่แบบจาก Logistic ลดลงร้อยละ 2 สรุป: ในบรรดาแบบจำลองที่สร้างขึ้นมานั้น Logistic regression, Neural Network และ Random Forest มีสมรรถนะในการจำแนกผู้ป่วยได้ใกล้เคียงกัน แต่ Logistic regression มีแนวโน้มที่จะ Overfit น้อยกว่า Neural Network และ Random Forest
บทนำ: โรคไตเรื้อรังเป็นโรคที่ใช้ทรัพยากรอย่างมากในการดูแลรักษา การค้นหาโรคได้ตั้งแต่ระยะเริ่มต้นด้วยการใช้แบบจำลองทำนายความเสี่ยง จะเป็นประโยชน์ในการค้นหาผู้ป่วยที่เสี่ยงในการเกิดโรคและสามารถให้การรักษาได้ตั้งแต่ระยะเริ่มต้น วัตถุประสงค์: เพื่อเปรียบเทียบแบบจำลองที่สร้างจากสมการ Logistic regression กับการเรียนรู้ของเครื่อง (Machine learning) ในการทำนายความเสี่ยงของการเกิดโรคไตเรื้อรังในประชากรไทยวัยผู้ใหญ่ วิธีการศึกษา: ข้อมูลสำหรับการศึกษานี้นำมาจากโครงการ Thai Screening and Early Evaluation of Kidney Disease (SEEK) ประกอบด้วย 17 ตัวแปรในการสร้างแบบจำลองทำนายความเสี่ยงโดยใช้วิธี Logistic regression และการเรียนรู้ของเครื่อง 4 วิธี (Random Forest, Naïve Bayes, Decision Tree, Neural Network) โดยข้อมูลถูกแบ่งออกเป็นการฝึกและการทดสอบข้อมูลในสัดส่วน 70:30 การประเมินสมรรถนะใช้ค่า Recall, C statistics, Accuracy, F1, และ Precision ผลการศึกษา: ตัวแปร 7 จาก 17 ตัวแปรได้ถูกคัดเลือกในการสร้างแบบจำลองทำนายความเสี่ยงพบว่า แบบจำลองจากสมการ Logistic regression สามารถจำแนกผู้ป่วยที่เป็นโรคไตเรื้อรังออกจากผู้ป่วยที่ไม่เป็นโรคได้ดี โดยมีค่า C statistics เท่ากับ 0.78 และ 0.78 จากการฝึกและการทดสอบข้อมูลตามลำดับ ในขณะที่แบบจำลองจาก Neural Network ให้ผลลัพธ์ดีที่สุดเมื่อเทียบกับตัวแบบอื่นๆ ที่สร้างจากการเรียนรู้ของเครื่อง เช่น Random Forest, Naïve Bayes, และ Decision Tree โดยมีสมรรถนะในการฝึกวัดจากค่า C statistics เท่ากับ 0.82, 0.80, 0.78, และ 0.77 ตามลำดับ ส่วนสมรรถนะในการทดสอบลดลงร้อยละ 5 ร้อยละ 3 ร้อยละ 1 และร้อยละ 2 ตามลำดับ ในขณะที่แบบจาก Logistic ลดลงร้อยละ 2 สรุป: ในบรรดาแบบจำลองที่สร้างขึ้นมานั้น Logistic regression, Neural Network และ Random Forest มีสมรรถนะในการจำแนกผู้ป่วยได้ใกล้เคียงกัน แต่ Logistic regression มีแนวโน้มที่จะ Overfit น้อยกว่า Neural Network และ Random Forest