Stroke risk prediction model based on demographic and medical screening data
8
Issued Date
2016
Copyright Date
2016
Resource Type
Language
eng
File Type
application/pdf
No. of Pages/File Size
xi, 60 leaves : ill. (some col.)
Access Rights
open access
Rights
ผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า
Rights Holder(s)
Mahidol University
Bibliographic Citation
Thesis (M.Sc. (Information Technology Management))--Mahidol University, 2016
Suggested Citation
Teerapat Kansadub Stroke risk prediction model based on demographic and medical screening data. Thesis (M.Sc. (Information Technology Management))--Mahidol University, 2016. Retrieved from: https://repository.li.mahidol.ac.th/handle/123456789/93272
Title
Stroke risk prediction model based on demographic and medical screening data
Alternative Title(s)
การทำนายปัจจัยเสี่ยงโรคหลอดเลือดสมองโดยใช้ข้อมูลพื้นฐานและข้อมูลแบบคัดกรองคนไข้
Author(s)
Abstract
Nowadays, strokes are the third leading cause of Thai's mortality in all age groups. The statistical data during 1994 - 2013 found that strokes caused 255,307 mortalities. In this paper, we present the data mining model for stroke prediction to screen people having strokes. Three classification algorithms including Neural Network, Decision Tree, and Naïve Bayes, are used for stroke prediction with different datasets: demographic data, medical screening data, and integrated data. This research was initialized with attributes and data selection, data collection, data resampling, data integration, data grouping, modeling, evaluation, and deployment. The best experimental result is Neural Network applied with integrated data result with 0.84 accuracy, 0.12 false positive rate, 0.25 false negative rate, and 0.9 area under ROC curve (AUC). Furthermore, the factor analysis using the best integrated data based on decision tree found that hemophilia and balance loss are the new, discovered risk factors compared with prior research. Finally, the best model was also used to develop an application for user-friendliness.
ทุกวันนี้โรคหลอดเลือดสมอง เป็นสาเหตุที่ทำให้คนไทยเสียชีวิตเป็นอันดับสาม ในทุก ช่วงอายุ จากสถิติระหว่างปี 2537 -2556 พบผู้เสียชีวิตจากโรคหลอดเลือดสมองจำนวน 255,307 ราย ในวิทยานิพนธ์นี้จึงได้นำวิธีการวิเคราะห์ข้อมูล เช่นการทำเหมืองข้อมูลเข้ามาสร้างแบบจำลองในการทำนายการเกิดโรคหลอดเลือดสมอง โดยในงานวิจัยนี้ใช้สามอัลกอริธึมในการสร้างแบบจำลอง ได้แก่ โครงข่ายประสาทเทียม ต้นไม้ตัดสินใจ และ เบย์อย่างง่าย เพื่อใช้ในการทำนายการป่วยเป็นโรคหลอดเลือดสมอง โดยวิธีการเหล่านี้จะถูกนำไปใช้กับชุดข้อมูลที่แตกต่างกันได้แก่ ข้อมูลพื้นฐานคนไข้ ข้อมูลแบบคัดกรองคนไข้ และข้อมูลแบบบูรณาการ โดยการศึกษาครั้งนี้เริ่มจากการเลือกปัจจัยที่ใช้ในการทำนาย การเก็บข้อมูลพื้นฐาน และ ข้อมูลแบบคัดกรอง การสุ่มกลุ่มตัวอย่าง การบูรณาการข้อมูล การจัดกลุ่มของข้อมูล การสร้างแบบจำลอง การประเมินผล และ การนำไปใช้งาน โดยผลที่ได้รับคือวิธีโครงข่ายประสาทเทียมเมื่อใช้ร่วมกับข้อมูลแบบบูรณาการเป็นแบบจำลองที่ได้ผลดีที่สุดโดยมีค่าความแม่นยำเท่ากับ 0.84 False Positive เท่ากับ 0.12 False Negative เท่ากับ 0.25 และ พื้นที่ใต้โค้ง ROC (AUC) เท่ากับ 0.9 นอกจากนี้เมื่อนำปัจจัยจากวิธีต้นไม้ตัดสินใจที่ดีที่สุดมาวิเคราะห์ พบว่าปัจจัยโรคฮีโมฟีเลีย และ สูญเสียการทรงตัว เป็นปัจจัยเสี่ยงที่ถูกค้นพบใหม่เมื่อเปรียบเทียบกับงานวิจัยอื่นก่อนหน้านี้ ในขั้นตอนสุดท้ายแบบจำลองจากโครงข่ายประสาทเทียมร่วมกับข้อมูลแบบบูรณาการได้ถูกนำมาประยุกต์ในการสร้างแอพพลิเคชันเพื่อความสะดวกในการใช้งาน
ทุกวันนี้โรคหลอดเลือดสมอง เป็นสาเหตุที่ทำให้คนไทยเสียชีวิตเป็นอันดับสาม ในทุก ช่วงอายุ จากสถิติระหว่างปี 2537 -2556 พบผู้เสียชีวิตจากโรคหลอดเลือดสมองจำนวน 255,307 ราย ในวิทยานิพนธ์นี้จึงได้นำวิธีการวิเคราะห์ข้อมูล เช่นการทำเหมืองข้อมูลเข้ามาสร้างแบบจำลองในการทำนายการเกิดโรคหลอดเลือดสมอง โดยในงานวิจัยนี้ใช้สามอัลกอริธึมในการสร้างแบบจำลอง ได้แก่ โครงข่ายประสาทเทียม ต้นไม้ตัดสินใจ และ เบย์อย่างง่าย เพื่อใช้ในการทำนายการป่วยเป็นโรคหลอดเลือดสมอง โดยวิธีการเหล่านี้จะถูกนำไปใช้กับชุดข้อมูลที่แตกต่างกันได้แก่ ข้อมูลพื้นฐานคนไข้ ข้อมูลแบบคัดกรองคนไข้ และข้อมูลแบบบูรณาการ โดยการศึกษาครั้งนี้เริ่มจากการเลือกปัจจัยที่ใช้ในการทำนาย การเก็บข้อมูลพื้นฐาน และ ข้อมูลแบบคัดกรอง การสุ่มกลุ่มตัวอย่าง การบูรณาการข้อมูล การจัดกลุ่มของข้อมูล การสร้างแบบจำลอง การประเมินผล และ การนำไปใช้งาน โดยผลที่ได้รับคือวิธีโครงข่ายประสาทเทียมเมื่อใช้ร่วมกับข้อมูลแบบบูรณาการเป็นแบบจำลองที่ได้ผลดีที่สุดโดยมีค่าความแม่นยำเท่ากับ 0.84 False Positive เท่ากับ 0.12 False Negative เท่ากับ 0.25 และ พื้นที่ใต้โค้ง ROC (AUC) เท่ากับ 0.9 นอกจากนี้เมื่อนำปัจจัยจากวิธีต้นไม้ตัดสินใจที่ดีที่สุดมาวิเคราะห์ พบว่าปัจจัยโรคฮีโมฟีเลีย และ สูญเสียการทรงตัว เป็นปัจจัยเสี่ยงที่ถูกค้นพบใหม่เมื่อเปรียบเทียบกับงานวิจัยอื่นก่อนหน้านี้ ในขั้นตอนสุดท้ายแบบจำลองจากโครงข่ายประสาทเทียมร่วมกับข้อมูลแบบบูรณาการได้ถูกนำมาประยุกต์ในการสร้างแอพพลิเคชันเพื่อความสะดวกในการใช้งาน
Description
Information Technology Management (Mahidol University 2016)
Degree Name
Master of Science
Degree Level
Master's degree
Degree Department
Faculty of Engineering
Degree Discipline
Information Technology Management
Degree Grantor(s)
Mahidol University
