Tanasanee PhienthrakulMingmanas SivaraksaNarit HnoohomThanita Roungkajone2024-01-112024-01-11201720172024Thematic Paper (M.Eng. (Computer Engineering))--Mahidol University, 2017https://repository.li.mahidol.ac.th/handle/20.500.14594/92467Computer Engineering (Mahidol University 2017)This research proposes to compare feature extraction from words appeared in emails. Since on spam and ham classification, many techniques extract features from emails by focusing on each word extracting the first priority and important part to classify emails. In this research, features from words in emails are compared on word frequency, existence of words, logarithm function, exponential function, and power. Three classification methods: Decision Tree, Naïve Bayes and K-Nearest Neighbors were tested. The extracted features were compared to consider which attribute was suitable for each classification method to increase the efficiency and accuracy of email spam and ham classification. After the experiment found that the Decision Tree with power index feature gives the best result since power index of 10 features gives the accuracy at 93.79%. Also, value of precision, recall, and F-measure gives a good result as the same way because giving power to the word frequency help increase the importance of word, and help increases the Decision Tree efficiency on spam classification.งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์ เนื่องจากเทคนิคที่ใช้กันอยู่ในปัจจุบัน ทำการสกัดคุณลักษณะของอีเมล์ โดยดูจากความถี่ของแต่ละคำในอีเมล์แต่ละฉบับ แล้วทำการจำแนกอีเมล์เหล่านั้นโดยใช้เทคนิคการเรียนรู้ของเครื่อง ดังนั้นคุณลักษณะที่ใช้ในการจำแนกจึงมีความสำคัญเป็นอันดับต้นๆในการจำแนกอีเมล์ ในงานวิจัยนี้ได้ทำการศึกษาเปรียบเทียบคุณลักษณะต่างๆที่สกัดจากคำในอีเมล์โดยเปรียบเทียบความถี่ของคำ การมีอยู่หรือไม่มีอยู่ของคำ การใช้ลอการิทึม การใช้เอกซ์โพเนนเชียล และการยกกำลังของค่าความถี่ งานวิจัยนี้ได้ทดสอบวิธีการจำแนก 3 วิธีคือต้นไม้ตัดสินใจ เบย์อย่างง่าย และวิธีเพื่อนบ้านใกล้สุด K ตัว เพื่อพิจารณาเปรียบเทียบคุณลักษณะที่เหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ เพื่อนำมาใช้เพิ่มความสามารถในการจำแนกสแปมออกจากอีเมล์ปรกติทั่วไปให้มีความถูกต้องแม่นยำเพิ่มมากขึ้นและเหมาะสมกับวิธีการจำแนกข้อมูลแต่ละแบบ จากการทดลองพบว่าต้นไม้ตัดสินใจให้ค่าความถูกต้องดีที่สุดเมื่อทดสอบกับคุณลักษณะเลขยกกำลังโดยเลขชี้กำลังเป็น 10 ให้ค่าความถูกต้องสูงถึง 93.79% ในส่วนของค่าความแม่นยำ ค่าความระลึก และ ค่าเอฟเมเชอร์ ให้ผลดีสอดคล้องไปในทิศทางเดียวกัน เนื่องจากการนำค่าความถี่ของคำมายกกำลัง 10 ทำให้ความสำคัญของคำเพิ่มมากขึ้นมีผลทำให้การจำแนกอีเมล์สแปมด้วยวิธีต้นไม้ตัดสินใจให้ประสิทธิภาพดีขึ้นxii, 85 leaves : ill.application/pdfengผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้าPattern recognition systemsSpam filtering (Electronic mail)Spam (Electronic mail) -- PreventionComparative study of feature extraction methods for spam detectionการศึกษาเชิงเปรียบเทียบของวิธีการสกัดคุณลักษณะเพื่อการตรวจสอบสแปมMaster ThesisMahidol University