Content-based modular crafting text classification model for phishing email detection
dc.contributor.advisor | Taweesak Samanchuen | |
dc.contributor.advisor | Sotarat Thammaboosadee | |
dc.contributor.author | Monthiya Sapan | |
dc.date.accessioned | 2024-01-11T03:12:37Z | |
dc.date.available | 2024-01-11T03:12:37Z | |
dc.date.copyright | 2017 | |
dc.date.created | 2017 | |
dc.date.issued | 2024 | |
dc.description | Information Technology Management (Mahidol University 2017) | |
dc.description.abstract | Different types of internet attack have currently increasing exponentially. One of internet attacks that has been used for many years. Currently, Phishing and number of internet users who have been attacked by phishing has also been increasing this trend has causes a large scale of losses to victims. This research studies contents in phishing email only. Text classification system was applied for analyzing phishing email contents based on the specified eight features, including studying campaign messages that appeared in phishing emails and determining the words used in those messages. The dataset of this study is provided by www.419scam.org and the results were used to create a decision tree. The overall model performance is greater than 80% when binary occurrence is used as an indicator. The decision making rules are further analyzed facilitated by the association rules discovery method to determine the relation of features for creating the final phishing determination model. When analyzing the relationship of features, the relation rule was obtained and the emails that included Messages which notified the recipients that the e-mail is confidential, Messages which rushed the recipients to take an immediate action, and Message which asked for help, were considered is be Phishing E-Mail. This research could help in analyzing email contents and determining whether there is a risk of them being phishing emails. This could be a part of reducing risk of being attacked by email phishing. In the future, it is therefore suggested the research should be extended to analyzing other email components such as the domain reliability and files attached in email. | |
dc.description.abstract | การโจมตีจากภัยคุกคามต่าง ๆ บนโลกอินเทอร์เน็ตในปัจจุบัน นับว่ามีความรุนแรงที่ทวีคูณมากขึ้นเรื่อย และมีรูปแบบการโจมตีที่หลากหลายมาก Phishing ก็ถือว่าเป็นภัยคุกคามรูปแบบหนึ่งที่มีมานานและในปัจจุบันยังคงพบว่ามีผู้ที่ถูกโจมตีด้วย Phishing เป็นจำนวนมากขึ้นทุกปี ซึ่งสร้างความเสียหายให้แก่ผู้ตกเป็นเหยื่อเป็นอย่างมาก ในงานวิจัยเล่มนี้ผู้วิจัยได้ทำการศึกษาเฉพาะเนื้อหาข้อความภายใน Phishing E-Mails เท่านั้นโดยใช้กระบวนการ Text Classification System ในการวิเคราะห์เนื้อหาข้อความภายใน Phishing E-Mail ตาม Features ทั้ง 8 Features ที่ได้กำหนดไว้ โดยเก็บรวบรวมข้อมูล Phishing E-Mails จาก www.419scam.org ผลลัพธ์ที่ได้จะเป็นกฏที่ช่วยในการตัดสินใจและเมื่อนำมาวัดประสิทธิภาพความแม่นยำของตัวชี้วัดพบว่า ตัวชี้วัดที่มีความแม่นยำสูงที่สุดคือ Binary Term Occurrences ซี่งมีค่าความแม่นยำกว่า 80% หลังจากนั้นจะนำกฏการตัดสินใจที่ได้ไปวิเคราะห์ต่อด้วยการใช้ Association Rules เพื่อวิเคราะห์หาความสัมพันธ์ของแต่ละ features ซึ่งจะนำไปสู่การสร้างกฏสุดท้ายที่ใช้ในการพิจารณา Phishing E-Mail ดังตัวอย่างกฏที่ได้เช่น ถ้าอีเมล์ปรากฏข้อความตาม Feature ข้อความที่มีการแจ้งว่าอีเมล์นี้ต้องเป็นความลับเท่านั้น, ข้อความที่มีลักษณะเน้นย้ำให้รีบดำเนินการทันที และข้อความที่มีการขอความช่วยเหลือ ถือว่าเป็น E-Mail Phishing เป็นต้น ซึ่งงานวิจัยชิ้นนี้จะช่วยในการวิเคราะห์ข้อความภายใน E-Mail ว่ามีความเสี่ยงที่จะเป็น E-Mail Phishing หรือไม่ และเป็นส่วนหนึ่งที่จะลดความเสี่ยงจากการถูกโจมตีโดย E-Mail Phishing อีกด้วยในอนาคตควรจะขยายขอบเขตงานวิจัยด้วยการนำองค์ประกอบอื่นๆภายใน E-Mail เช่น ความน่าเชื่อถือของ Domain, ประเภทไฟล์ที่แนบมาใน E-Mail มาพิจารณาเพิ่มเติม | |
dc.format.extent | xiii, 63 leaves : ill. | |
dc.format.mimetype | application/pdf | |
dc.identifier.citation | Thematic Paper (M.Sc. (Information Technology Management))--Mahidol University, 2017 | |
dc.identifier.uri | https://repository.li.mahidol.ac.th/handle/20.500.14594/92390 | |
dc.language.iso | eng | |
dc.publisher | Mahidol University. Mahidol University Library and Knowledge Center | |
dc.rights | ผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า | |
dc.rights.holder | Mahidol University | |
dc.subject | Data mining | |
dc.subject | Text processing (Computer science) | |
dc.subject | Spam (Electronic mail) -- Prevention. | |
dc.subject | Phishing scam | |
dc.title | Content-based modular crafting text classification model for phishing email detection | |
dc.title.alternative | แบบจำลองสำหรับจำแนกข้อความหลอกลวงแบบหน่วยย่อยตามเนื้อหาสำหรับการตรวจจับอีเมล์ | |
dc.type | Master Thesis | |
dcterms.accessRights | open access | |
mods.location.url | http://mulinet11.li.mahidol.ac.th/e-thesis/2559/cd518/5837645.pdf | |
thesis.degree.department | Faculty of Engineering | |
thesis.degree.discipline | Information Technology Management | |
thesis.degree.grantor | Mahidol University | |
thesis.degree.level | Master's degree | |
thesis.degree.name | Master of Science |