Performance analysis of darknet content clustering
Issued Date
2022
Copyright Date
2022
Resource Type
Language
eng
File Type
application/pdf
No. of Pages/File Size
x, 79 leaves : ill.
Access Rights
open access
Rights
ผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า
Rights Holder(s)
Mahidol University
Bibliographic Citation
Thesis (M.Eng. (Computer Engineering))--Mahidol University, 2022)
Suggested Citation
Patipon Tapaneeyakul Performance analysis of darknet content clustering. Thesis (M.Eng. (Computer Engineering))--Mahidol University, 2022). Retrieved from: https://repository.li.mahidol.ac.th/handle/123456789/113948
Title
Performance analysis of darknet content clustering
Alternative Title(s)
การวิเคราะห์ประสิทธิภาพการจัดหมวดหมู่ของดาร์กเน็ต
Author(s)
Abstract
This research demonstrates a performance analysis of the darknet content clustering. For darknet clustering, Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA), and K-means clustering were used as a set of natural language processing methods. Five services, which are a darknet spider service, a crawler service, a data preprocessing service, a data processor service, and a clustering service, were developed for our darknet clustering system. To verify clustering accuracy, darknet data were labeled then collected and clustered using Latent Dirichlet-allocation (LDA), Latent-semantic analysis (LSA), and K-mean clustering, respectively. Finally, the findings indicate that K-means clustering has been the most effective method for clustering darknet content. According to our experiments, the accuracy of the K-means clustering approach was 85.81 percent, the highest of the three methods.
งานวิจัยชิ้นนี้นำเสนอการวิเคราะห์ประสิทธิภาพการจัดหมวดหมู่เนื้อหาของเว็บไซต์ในดาร์กเน็ต โดยใช้ขั้นตอนวิธีการประมวลผลภาษาธรรมชาติ Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA) และ K-means Clustering ในการจำแนกหมวดหมู่ในดาร์กเน็ต ระบบจัดหมวดหมู่ในดาร์กเน็ตที่เราได้พัฒนาขึ้น มีส่วนทำงานให้บริการ 5 ส่วน ประกอบด้วย ส่วนการค้นหาเว็บไซต์ในดาร์กเน็ต, ส่วนการสกัดข้อมูลบนเว็บไซต์, ส่วนการเตรียมข้อมูล, ส่วนการประมวลผลข้อมูล, และส่วนการจัดหมวดหมู่ เพื่อตรวจสอบความถูกต้องของการจัดหมวดหมู่ ข้อมูลในดาร์กเน็ตได้ถูกทำป้ายกำกับก่อน แล้วนำไปจำแนกหมวดหมู่ โดยใช้ขั้นตอนวิธี Latent Dirichlet-allocation (LDA), Latent Semantic Analysis (LSA), และ K-means Clustering ผลการวิจัยพบว่าวิธีการจัดหมวดหมู่ด้วย K-means นั้นมีประสิทธิภาพดีที่สุดสำหรับการจัดหมวดหมู่เนื้อหาในดาร์กเน็ต จากการทดลองของเรา วิธีการจัดหมวดหมู่ด้วย K-means ได้ค่าความแม่นยำเฉลี่ยสูงที่สุดของทั้ง 3 ขั้นตอนวิธี อยู่ที่ 85.81
งานวิจัยชิ้นนี้นำเสนอการวิเคราะห์ประสิทธิภาพการจัดหมวดหมู่เนื้อหาของเว็บไซต์ในดาร์กเน็ต โดยใช้ขั้นตอนวิธีการประมวลผลภาษาธรรมชาติ Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA) และ K-means Clustering ในการจำแนกหมวดหมู่ในดาร์กเน็ต ระบบจัดหมวดหมู่ในดาร์กเน็ตที่เราได้พัฒนาขึ้น มีส่วนทำงานให้บริการ 5 ส่วน ประกอบด้วย ส่วนการค้นหาเว็บไซต์ในดาร์กเน็ต, ส่วนการสกัดข้อมูลบนเว็บไซต์, ส่วนการเตรียมข้อมูล, ส่วนการประมวลผลข้อมูล, และส่วนการจัดหมวดหมู่ เพื่อตรวจสอบความถูกต้องของการจัดหมวดหมู่ ข้อมูลในดาร์กเน็ตได้ถูกทำป้ายกำกับก่อน แล้วนำไปจำแนกหมวดหมู่ โดยใช้ขั้นตอนวิธี Latent Dirichlet-allocation (LDA), Latent Semantic Analysis (LSA), และ K-means Clustering ผลการวิจัยพบว่าวิธีการจัดหมวดหมู่ด้วย K-means นั้นมีประสิทธิภาพดีที่สุดสำหรับการจัดหมวดหมู่เนื้อหาในดาร์กเน็ต จากการทดลองของเรา วิธีการจัดหมวดหมู่ด้วย K-means ได้ค่าความแม่นยำเฉลี่ยสูงที่สุดของทั้ง 3 ขั้นตอนวิธี อยู่ที่ 85.81
Degree Name
Master of Engineering
Degree Level
Master's degree
Degree Department
Faculty of Engineering
Degree Discipline
Computer Engineering
Degree Grantor(s)
Mahidol University
