Content-based modular crafting text classification model for phishing email detection
Issued Date
2024
Copyright Date
2017
Resource Type
Language
eng
File Type
application/pdf
No. of Pages/File Size
xiii, 63 leaves : ill.
Access Rights
open access
Rights
ผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า
Rights Holder(s)
Mahidol University
Bibliographic Citation
Thematic Paper (M.Sc. (Information Technology Management))--Mahidol University, 2017
Suggested Citation
Monthiya Sapan Content-based modular crafting text classification model for phishing email detection. Thematic Paper (M.Sc. (Information Technology Management))--Mahidol University, 2017. Retrieved from: https://repository.li.mahidol.ac.th/handle/20.500.14594/92390
Title
Content-based modular crafting text classification model for phishing email detection
Alternative Title(s)
แบบจำลองสำหรับจำแนกข้อความหลอกลวงแบบหน่วยย่อยตามเนื้อหาสำหรับการตรวจจับอีเมล์
Author(s)
Advisor(s)
Abstract
Different types of internet attack have currently increasing exponentially. One of internet attacks that has been used for many years. Currently, Phishing and number of internet users who have been attacked by phishing has also been increasing this trend has causes a large scale of losses to victims. This research studies contents in phishing email only. Text classification system was applied for analyzing phishing email contents based on the specified eight features, including studying campaign messages that appeared in phishing emails and determining the words used in those messages. The dataset of this study is provided by www.419scam.org and the results were used to create a decision tree. The overall model performance is greater than 80% when binary occurrence is used as an indicator. The decision making rules are further analyzed facilitated by the association rules discovery method to determine the relation of features for creating the final phishing determination model. When analyzing the relationship of features, the relation rule was obtained and the emails that included Messages which notified the recipients that the e-mail is confidential, Messages which rushed the recipients to take an immediate action, and Message which asked for help, were considered is be Phishing E-Mail. This research could help in analyzing email contents and determining whether there is a risk of them being phishing emails. This could be a part of reducing risk of being attacked by email phishing. In the future, it is therefore suggested the research should be extended to analyzing other email components such as the domain reliability and files attached in email.
การโจมตีจากภัยคุกคามต่าง ๆ บนโลกอินเทอร์เน็ตในปัจจุบัน นับว่ามีความรุนแรงที่ทวีคูณมากขึ้นเรื่อย และมีรูปแบบการโจมตีที่หลากหลายมาก Phishing ก็ถือว่าเป็นภัยคุกคามรูปแบบหนึ่งที่มีมานานและในปัจจุบันยังคงพบว่ามีผู้ที่ถูกโจมตีด้วย Phishing เป็นจำนวนมากขึ้นทุกปี ซึ่งสร้างความเสียหายให้แก่ผู้ตกเป็นเหยื่อเป็นอย่างมาก ในงานวิจัยเล่มนี้ผู้วิจัยได้ทำการศึกษาเฉพาะเนื้อหาข้อความภายใน Phishing E-Mails เท่านั้นโดยใช้กระบวนการ Text Classification System ในการวิเคราะห์เนื้อหาข้อความภายใน Phishing E-Mail ตาม Features ทั้ง 8 Features ที่ได้กำหนดไว้ โดยเก็บรวบรวมข้อมูล Phishing E-Mails จาก www.419scam.org ผลลัพธ์ที่ได้จะเป็นกฏที่ช่วยในการตัดสินใจและเมื่อนำมาวัดประสิทธิภาพความแม่นยำของตัวชี้วัดพบว่า ตัวชี้วัดที่มีความแม่นยำสูงที่สุดคือ Binary Term Occurrences ซี่งมีค่าความแม่นยำกว่า 80% หลังจากนั้นจะนำกฏการตัดสินใจที่ได้ไปวิเคราะห์ต่อด้วยการใช้ Association Rules เพื่อวิเคราะห์หาความสัมพันธ์ของแต่ละ features ซึ่งจะนำไปสู่การสร้างกฏสุดท้ายที่ใช้ในการพิจารณา Phishing E-Mail ดังตัวอย่างกฏที่ได้เช่น ถ้าอีเมล์ปรากฏข้อความตาม Feature ข้อความที่มีการแจ้งว่าอีเมล์นี้ต้องเป็นความลับเท่านั้น, ข้อความที่มีลักษณะเน้นย้ำให้รีบดำเนินการทันที และข้อความที่มีการขอความช่วยเหลือ ถือว่าเป็น E-Mail Phishing เป็นต้น ซึ่งงานวิจัยชิ้นนี้จะช่วยในการวิเคราะห์ข้อความภายใน E-Mail ว่ามีความเสี่ยงที่จะเป็น E-Mail Phishing หรือไม่ และเป็นส่วนหนึ่งที่จะลดความเสี่ยงจากการถูกโจมตีโดย E-Mail Phishing อีกด้วยในอนาคตควรจะขยายขอบเขตงานวิจัยด้วยการนำองค์ประกอบอื่นๆภายใน E-Mail เช่น ความน่าเชื่อถือของ Domain, ประเภทไฟล์ที่แนบมาใน E-Mail มาพิจารณาเพิ่มเติม
การโจมตีจากภัยคุกคามต่าง ๆ บนโลกอินเทอร์เน็ตในปัจจุบัน นับว่ามีความรุนแรงที่ทวีคูณมากขึ้นเรื่อย และมีรูปแบบการโจมตีที่หลากหลายมาก Phishing ก็ถือว่าเป็นภัยคุกคามรูปแบบหนึ่งที่มีมานานและในปัจจุบันยังคงพบว่ามีผู้ที่ถูกโจมตีด้วย Phishing เป็นจำนวนมากขึ้นทุกปี ซึ่งสร้างความเสียหายให้แก่ผู้ตกเป็นเหยื่อเป็นอย่างมาก ในงานวิจัยเล่มนี้ผู้วิจัยได้ทำการศึกษาเฉพาะเนื้อหาข้อความภายใน Phishing E-Mails เท่านั้นโดยใช้กระบวนการ Text Classification System ในการวิเคราะห์เนื้อหาข้อความภายใน Phishing E-Mail ตาม Features ทั้ง 8 Features ที่ได้กำหนดไว้ โดยเก็บรวบรวมข้อมูล Phishing E-Mails จาก www.419scam.org ผลลัพธ์ที่ได้จะเป็นกฏที่ช่วยในการตัดสินใจและเมื่อนำมาวัดประสิทธิภาพความแม่นยำของตัวชี้วัดพบว่า ตัวชี้วัดที่มีความแม่นยำสูงที่สุดคือ Binary Term Occurrences ซี่งมีค่าความแม่นยำกว่า 80% หลังจากนั้นจะนำกฏการตัดสินใจที่ได้ไปวิเคราะห์ต่อด้วยการใช้ Association Rules เพื่อวิเคราะห์หาความสัมพันธ์ของแต่ละ features ซึ่งจะนำไปสู่การสร้างกฏสุดท้ายที่ใช้ในการพิจารณา Phishing E-Mail ดังตัวอย่างกฏที่ได้เช่น ถ้าอีเมล์ปรากฏข้อความตาม Feature ข้อความที่มีการแจ้งว่าอีเมล์นี้ต้องเป็นความลับเท่านั้น, ข้อความที่มีลักษณะเน้นย้ำให้รีบดำเนินการทันที และข้อความที่มีการขอความช่วยเหลือ ถือว่าเป็น E-Mail Phishing เป็นต้น ซึ่งงานวิจัยชิ้นนี้จะช่วยในการวิเคราะห์ข้อความภายใน E-Mail ว่ามีความเสี่ยงที่จะเป็น E-Mail Phishing หรือไม่ และเป็นส่วนหนึ่งที่จะลดความเสี่ยงจากการถูกโจมตีโดย E-Mail Phishing อีกด้วยในอนาคตควรจะขยายขอบเขตงานวิจัยด้วยการนำองค์ประกอบอื่นๆภายใน E-Mail เช่น ความน่าเชื่อถือของ Domain, ประเภทไฟล์ที่แนบมาใน E-Mail มาพิจารณาเพิ่มเติม
Description
Information Technology Management (Mahidol University 2017)
Degree Name
Master of Science
Degree Level
Master's degree
Degree Department
Faculty of Engineering
Degree Discipline
Information Technology Management
Degree Grantor(s)
Mahidol University