Comparative study of feature extraction methods for spam detection
Issued Date
2024
Copyright Date
2017
Resource Type
Language
eng
File Type
application/pdf
No. of Pages/File Size
xii, 85 leaves : ill.
Access Rights
open access
Rights
ผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า
Rights Holder(s)
Mahidol University
Bibliographic Citation
Thematic Paper (M.Eng. (Computer Engineering))--Mahidol University, 2017
Suggested Citation
Thanita Roungkajone Comparative study of feature extraction methods for spam detection. Thematic Paper (M.Eng. (Computer Engineering))--Mahidol University, 2017. Retrieved from: https://repository.li.mahidol.ac.th/handle/20.500.14594/92467
Title
Comparative study of feature extraction methods for spam detection
Alternative Title(s)
การศึกษาเชิงเปรียบเทียบของวิธีการสกัดคุณลักษณะเพื่อการตรวจสอบสแปม
Author(s)
Abstract
This research proposes to compare feature extraction from words appeared in emails. Since on spam and ham classification, many techniques extract features from emails by focusing on each word extracting the first priority and important part to classify emails. In this research, features from words in emails are compared on word frequency, existence of words, logarithm function, exponential function, and power. Three classification methods: Decision Tree, Naïve Bayes and K-Nearest Neighbors were tested. The extracted features were compared to consider which attribute was suitable for each classification method to increase the efficiency and accuracy of email spam and ham classification. After the experiment found that the Decision Tree with power index feature gives the best result since power index of 10 features gives the accuracy at 93.79%. Also, value of precision, recall, and F-measure gives a good result as the same way because giving power to the word frequency help increase the importance of word, and help increases the Decision Tree efficiency on spam classification.
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์ เนื่องจากเทคนิคที่ใช้กันอยู่ในปัจจุบัน ทำการสกัดคุณลักษณะของอีเมล์ โดยดูจากความถี่ของแต่ละคำในอีเมล์แต่ละฉบับ แล้วทำการจำแนกอีเมล์เหล่านั้นโดยใช้เทคนิคการเรียนรู้ของเครื่อง ดังนั้นคุณลักษณะที่ใช้ในการจำแนกจึงมีความสำคัญเป็นอันดับต้นๆในการจำแนกอีเมล์ ในงานวิจัยนี้ได้ทำการศึกษาเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์โดยเปรียบเทียบความถี่ของคำ การมีอยู่หรือไม่มีอยู่ของคำ การใช้ลอการิทึม การใช้เอกซ์โพเนนเชียล และการยกกำลังของค่าความถี่ งานวิจัยนี้ได้ทดสอบวิธีการจำแนก 3 วิธีคือต้นไม้ตัดสินใจ เบย์อย่างง่าย และวิธีเพื่อนบ้านใกล้สุด K ตัว เพื่อพิจารณาเปรียบเทียบคุณลักษณะที่เหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ เพื่อนำมาใช้เพิ่มความสามารถในการจำแนกสแปมออกจากอีเมล์ปรกติทั่วไปให้มีความถูกต้องแม่นยำเพิ่มมากขึ้นและเหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ จากการทดลองพบว่าต้นไม้ตัดสินใจให้ค่าความถูกต้องดีที่สุดเมื่อทดสอบกับคุณลักษณะเลขยกกำลังโดยเลขชี้กำลังเป็น 10 ให้ค่าความถูกต้องสูงถึง 93.79% ในส่วนของค่าความแม่นยำ ค่าความระลึก และ ค่าเอฟเมเชอร์ ให้ผลดีสอดคล้องไปในทิศทางเดียวกัน เนื่องจากการนำค่าความถี่ของคำมายกกำลัง 10 ทำให้ความสำคัญของคำเพิ่มมากขึ้นมีผลทำให้การจำแนกอีเมล์สแปมด้วยวิธีต้นไม้ตัดสินใจให้ประสิทธิภาพดีขึ้น
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์ เนื่องจากเทคนิคที่ใช้กันอยู่ในปัจจุบัน ทำการสกัดคุณลักษณะของอีเมล์ โดยดูจากความถี่ของแต่ละคำในอีเมล์แต่ละฉบับ แล้วทำการจำแนกอีเมล์เหล่านั้นโดยใช้เทคนิคการเรียนรู้ของเครื่อง ดังนั้นคุณลักษณะที่ใช้ในการจำแนกจึงมีความสำคัญเป็นอันดับต้นๆในการจำแนกอีเมล์ ในงานวิจัยนี้ได้ทำการศึกษาเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์โดยเปรียบเทียบความถี่ของคำ การมีอยู่หรือไม่มีอยู่ของคำ การใช้ลอการิทึม การใช้เอกซ์โพเนนเชียล และการยกกำลังของค่าความถี่ งานวิจัยนี้ได้ทดสอบวิธีการจำแนก 3 วิธีคือต้นไม้ตัดสินใจ เบย์อย่างง่าย และวิธีเพื่อนบ้านใกล้สุด K ตัว เพื่อพิจารณาเปรียบเทียบคุณลักษณะที่เหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ เพื่อนำมาใช้เพิ่มความสามารถในการจำแนกสแปมออกจากอีเมล์ปรกติทั่วไปให้มีความถูกต้องแม่นยำเพิ่มมากขึ้นและเหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ จากการทดลองพบว่าต้นไม้ตัดสินใจให้ค่าความถูกต้องดีที่สุดเมื่อทดสอบกับคุณลักษณะเลขยกกำลังโดยเลขชี้กำลังเป็น 10 ให้ค่าความถูกต้องสูงถึง 93.79% ในส่วนของค่าความแม่นยำ ค่าความระลึก และ ค่าเอฟเมเชอร์ ให้ผลดีสอดคล้องไปในทิศทางเดียวกัน เนื่องจากการนำค่าความถี่ของคำมายกกำลัง 10 ทำให้ความสำคัญของคำเพิ่มมากขึ้นมีผลทำให้การจำแนกอีเมล์สแปมด้วยวิธีต้นไม้ตัดสินใจให้ประสิทธิภาพดีขึ้น
Description
Computer Engineering (Mahidol University 2017)
Degree Name
Master of Engineering
Degree Level
Master's degree
Degree Department
Faculty of Engineering
Degree Discipline
Computer Engineering
Degree Grantor(s)
Mahidol University