Comparative study of feature extraction methods for spam detection

dc.contributor.advisorTanasanee Phienthrakul
dc.contributor.advisorMingmanas Sivaraksa
dc.contributor.advisorNarit Hnoohom
dc.contributor.authorThanita Roungkajone
dc.date.accessioned2024-01-11T03:13:00Z
dc.date.available2024-01-11T03:13:00Z
dc.date.copyright2017
dc.date.created2017
dc.date.issued2024
dc.descriptionComputer Engineering (Mahidol University 2017)
dc.description.abstractThis research proposes to compare feature extraction from words appeared in emails. Since on spam and ham classification, many techniques extract features from emails by focusing on each word extracting the first priority and important part to classify emails. In this research, features from words in emails are compared on word frequency, existence of words, logarithm function, exponential function, and power. Three classification methods: Decision Tree, Naïve Bayes and K-Nearest Neighbors were tested. The extracted features were compared to consider which attribute was suitable for each classification method to increase the efficiency and accuracy of email spam and ham classification. After the experiment found that the Decision Tree with power index feature gives the best result since power index of 10 features gives the accuracy at 93.79%. Also, value of precision, recall, and F-measure gives a good result as the same way because giving power to the word frequency help increase the importance of word, and help increases the Decision Tree efficiency on spam classification.
dc.description.abstractงานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์ เนื่องจากเทคนิคที่ใช้กันอยู่ในปัจจุบัน ทำการสกัดคุณลักษณะของอีเมล์ โดยดูจากความถี่ของแต่ละคำในอีเมล์แต่ละฉบับ แล้วทำการจำแนกอีเมล์เหล่านั้นโดยใช้เทคนิคการเรียนรู้ของเครื่อง ดังนั้นคุณลักษณะที่ใช้ในการจำแนกจึงมีความสำคัญเป็นอันดับต้นๆในการจำแนกอีเมล์ ในงานวิจัยนี้ได้ทำการศึกษาเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์โดยเปรียบเทียบความถี่ของคำ การมีอยู่หรือไม่มีอยู่ของคำ การใช้ลอการิทึม การใช้เอกซ์โพเนนเชียล และการยกกำลังของค่าความถี่ งานวิจัยนี้ได้ทดสอบวิธีการจำแนก 3 วิธีคือต้นไม้ตัดสินใจ เบย์อย่างง่าย และวิธีเพื่อนบ้านใกล้สุด K ตัว เพื่อพิจารณาเปรียบเทียบคุณลักษณะที่เหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ เพื่อนำมาใช้เพิ่มความสามารถในการจำแนกสแปมออกจากอีเมล์ปรกติทั่วไปให้มีความถูกต้องแม่นยำเพิ่มมากขึ้นและเหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ จากการทดลองพบว่าต้นไม้ตัดสินใจให้ค่าความถูกต้องดีที่สุดเมื่อทดสอบกับคุณลักษณะเลขยกกำลังโดยเลขชี้กำลังเป็น 10 ให้ค่าความถูกต้องสูงถึง 93.79% ในส่วนของค่าความแม่นยำ ค่าความระลึก และ ค่าเอฟเมเชอร์ ให้ผลดีสอดคล้องไปในทิศทางเดียวกัน เนื่องจากการนำค่าความถี่ของคำมายกกำลัง 10 ทำให้ความสำคัญของคำเพิ่มมากขึ้นมีผลทำให้การจำแนกอีเมล์สแปมด้วยวิธีต้นไม้ตัดสินใจให้ประสิทธิภาพดีขึ้น
dc.format.extentxii, 85 leaves : ill.
dc.format.mimetypeapplication/pdf
dc.identifier.citationThematic Paper (M.Eng. (Computer Engineering))--Mahidol University, 2017
dc.identifier.urihttps://repository.li.mahidol.ac.th/handle/20.500.14594/92467
dc.language.isoeng
dc.publisherMahidol University. Mahidol University Library and Knowledge Center
dc.rightsผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า
dc.rights.holderMahidol University
dc.subjectPattern recognition systems
dc.subjectSpam filtering (Electronic mail)
dc.subjectSpam (Electronic mail) -- Prevention
dc.titleComparative study of feature extraction methods for spam detection
dc.title.alternativeการศึกษาเชิงเปรียบเทียบของวิธีการสกัดคุณลักษณะเพื่อการตรวจสอบสแปม
dc.typeMaster Thesis
dcterms.accessRightsopen access
mods.location.urlhttp://mulinet11.li.mahidol.ac.th/e-thesis/2560/cd529/5638629.pdf
thesis.degree.departmentFaculty of Engineering
thesis.degree.disciplineComputer Engineering
thesis.degree.grantorMahidol University
thesis.degree.levelMaster's degree
thesis.degree.nameMaster of Engineering

Files