Publication:
Comparison of Machine Learning With Logistic Regression for Prediction of Chronic Kidney Disease in the Thai Adult Population

dc.contributor.authorRatchainant Thammasudjariten_US
dc.contributor.authorPunnathorn Ingsathiten_US
dc.contributor.authorSigit Ari Saputroen_US
dc.contributor.authorAtiporn Ingsathiten_US
dc.contributor.authorAmmarin Thakkinstianen_US
dc.contributor.authorรัตน์ชัยนันท์ ธรรมสุจริตen_US
dc.contributor.authorปัณณธร อิงค์สาธิตen_US
dc.contributor.authorซิจิต อาริ ซาปูโตรen_US
dc.contributor.authorอติพร อิงค์สาธิตen_US
dc.contributor.authorอัมรินทร์ ทักขิญเสถียรen_US
dc.contributor.otherMahidol University. Department of Clinical Epidemiology and Biostatistics. Faculty of Medicine Ramathibodi Hospitalen_US
dc.date.accessioned2022-07-22T01:49:43Z
dc.date.available2022-07-22T01:49:43Z
dc.date.created2022-07-22
dc.date.issued2021
dc.description.abstractBackground: Chronic kidney disease (CKD) takes huge amounts of resources for treatments. Early detection of patients by risk prediction model should be useful in identifying risk patients and providing early treatments Objective: To compare the performance of traditional logistic regression with machine learning (ML) in predicting the risk of CKD in Thai population. Methods: This study used Thai Screening and Early Evaluation of Kidney Disease (SEEK) data. Seventeen features were firstly considered in constructing prediction models using logistic regression and 4 MLs (Random Forest, Naïve Bayes, Decision Tree, and Neural Network). Data were split into train and test data with a ratio of 70:30. Performances of the model were assessed by estimating recall, C statistics, accuracy, F1, and precision. Results: Seven out of 17 features were included in the prediction models. A logistic regression model could well discriminate CKD from non-CKD patients with the C statistics of 0.79 and 0.78 in the train and test data. The Neural Network performed best among ML followed by a Random Forest, Naïve Bayes, and a Decision Tree with the corresponding C statistics of 0.82, 0.80, 0.78, and 0.77 in training data set. Performance of these corresponding models in testing data decreased about 5%, 3%, 1%, and 2% relative to the logistic model by 2%. Conclusions: Risk prediction model of CKD constructed by the logistic regression, Neural Network, and Random Forest have comprehensible discrimination performance, but the logistic regression tends to have lower overfitting compared to Neural Network, and Random Forest.en_US
dc.description.abstractบทนำ: โรคไตเรื้อรังเป็นโรคที่ใช้ทรัพยากรอย่างมากในการดูแลรักษา การค้นหาโรคได้ตั้งแต่ระยะเริ่มต้นด้วยการใช้แบบจำลองทำนายความเสี่ยง จะเป็นประโยชน์ในการค้นหาผู้ป่วยที่เสี่ยงในการเกิดโรคและสามารถให้การรักษาได้ตั้งแต่ระยะเริ่มต้น วัตถุประสงค์: เพื่อเปรียบเทียบแบบจำลองที่สร้างจากสมการ Logistic regression กับการเรียนรู้ของเครื่อง (Machine learning) ในการทำนายความเสี่ยงของการเกิดโรคไตเรื้อรังในประชากรไทยวัยผู้ใหญ่ วิธีการศึกษา: ข้อมูลสำหรับการศึกษานี้นำมาจากโครงการ Thai Screening and Early Evaluation of Kidney Disease (SEEK) ประกอบด้วย 17 ตัวแปรในการสร้างแบบจำลองทำนายความเสี่ยงโดยใช้วิธี Logistic regression และการเรียนรู้ของเครื่อง 4 วิธี (Random Forest, Naïve Bayes, Decision Tree, Neural Network) โดยข้อมูลถูกแบ่งออกเป็นการฝึกและการทดสอบข้อมูลในสัดส่วน 70:30 การประเมินสมรรถนะใช้ค่า Recall, C statistics, Accuracy, F1, และ Precision ผลการศึกษา: ตัวแปร 7 จาก 17 ตัวแปรได้ถูกคัดเลือกในการสร้างแบบจำลองทำนายความเสี่ยงพบว่า แบบจำลองจากสมการ Logistic regression สามารถจำแนกผู้ป่วยที่เป็นโรคไตเรื้อรังออกจากผู้ป่วยที่ไม่เป็นโรคได้ดี โดยมีค่า C statistics เท่ากับ 0.78 และ 0.78 จากการฝึกและการทดสอบข้อมูลตามลำดับ ในขณะที่แบบจำลองจาก Neural Network ให้ผลลัพธ์ดีที่สุดเมื่อเทียบกับตัวแบบอื่นๆ ที่สร้างจากการเรียนรู้ของเครื่อง เช่น Random Forest, Naïve Bayes, และ Decision Tree โดยมีสมรรถนะในการฝึกวัดจากค่า C statistics เท่ากับ 0.82, 0.80, 0.78, และ 0.77 ตามลำดับ ส่วนสมรรถนะในการทดสอบลดลงร้อยละ 5 ร้อยละ 3 ร้อยละ 1 และร้อยละ 2 ตามลำดับ ในขณะที่แบบจาก Logistic ลดลงร้อยละ 2 สรุป: ในบรรดาแบบจำลองที่สร้างขึ้นมานั้น Logistic regression, Neural Network และ Random Forest มีสมรรถนะในการจำแนกผู้ป่วยได้ใกล้เคียงกัน แต่ Logistic regression มีแนวโน้มที่จะ Overfit น้อยกว่า Neural Network และ Random Foresten_US
dc.identifier.citationRamathibodi Medical Journal. Vol. 44, No. 4 (October-December 2021), 1-12
dc.identifier.issn0125-3611 (Print)
dc.identifier.issn2651-0561 (Online)
dc.identifier.urihttps://repository.li.mahidol.ac.th/handle/20.500.14594/72220
dc.language.isoengen_US
dc.rightsMahidol Universityen_US
dc.rights.holderDepartment of Clinical Epidemiology and Biostatistics Faculty of Medicine Ramathibodi Hospital Mahidol Universityen_US
dc.subjectChronic kidney diseaseen_US
dc.subjectMachine learningen_US
dc.subjectClinical prediction modelen_US
dc.subjectโรคไตเรื้อรังen_US
dc.subjectการเรียนรู้ของเครื่องen_US
dc.subjectแบบจำลองทำนายทางคลินิกen_US
dc.titleComparison of Machine Learning With Logistic Regression for Prediction of Chronic Kidney Disease in the Thai Adult Populationen_US
dc.title.alternativeการเรียนรู้ด้วยเครื่องสำหรับการพยากรณ์โรคไตเรื้อรังในประชากรไทยวัยผู้ใหญ่en_US
dc.typeOriginal Articleen_US
dspace.entity.typePublication
mods.location.urlhttps://he02.tci-thaijo.org/index.php/ramajournal/article/view/250334/173553

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
ra-ar-ratchainant-2021.pdf
Size:
4.12 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections