Xpack : a grammar-based XML document compression

dc.contributor.advisorCharnyote Pluempitiwiriyawej
dc.contributor.authorKesmanas Mairiang
dc.date.accessioned2025-03-11T06:48:09Z
dc.date.available2025-03-11T06:48:09Z
dc.date.copyright2004
dc.date.created2025
dc.date.issued2004
dc.descriptionComputer Science (Mahidol University 2004)
dc.description.abstractMost data that are stored and interchanged on the Web are represented as XML documents. Normally, the size of the XML documents is large with respect to the size of the required information contained in them due to the replication of tags. In XML documents, the same tag is used to describe different data items of the same type. To reduce the effect of the replication, methods for the compression of the XML documents have been developed. In this thesis, we introduce a grammar-based compression technique for semantically lossless compression of XML documents. This technique is developed in the context of the XPACK system, which supports both compression and decompression of XML documents. The XPACK system consists of three main steps: 1) the derivation of grammar rules from the analysis of document structures, 2) the document compression using the grammar rules, and 3) the document decompression. In experimental testing, our compression technique was found to compress an XML document to a size 74% to 96% smaller than its original size. This technique provides a better compression performance than GZIP or XMILL.
dc.description.abstractข้อมูลที่ถูกจัดเก็บและถูกใช้ในการแลกเปลี่ยนกันบนเว็บส่วนใหญ่นิยมแสดงในรูปแบบของเอกสาร XML แต่ปัญหาของการใช้งานเอกสาร XML คือเอกสาร XML โดยทั่วไปมีขนาดใหญ่เมื่อเทียบกับขนาดของข้อมูลจริงในเอกสารเนื่องจากมีการใช้แท็กที่ซ้ำกันในการอธิบายข้อมูลประเภทเดียวกันที่มีรายละเอียดต่างกัน เพื่อที่จะลดผลกระทบของการใช้แท็กที่ซ้ำกัน การบีบอัดเอกสาร XML จึงได้ถูกพัฒนาขึ้น วิทยานิพนธ์นี้ ได้นำเสนอวิธีการเชิงไวยากรณ์ในการบีบอัดเอกสาร XML ผ่านรูปแบบของระบบ XPACK ซึ่งรองรับการบีบอัดและการขยายเอกสาร XML ระบบ XPACK ประกอบด้วย 3 ส่วนหลัก คือ 1) การกำหนดกฎไวยากรณ์จากการวิเคราะห์โครงสร้างของเอกสาร XML 2) ขั้นตอนการบีบอัด เอกสารโดยใช้กฎไวยากรณ์ และ 3) การขยายข้อมูลเอกสาร จากผลการทดลองการบีบอัดเอกสาร XML พบว่าวิธีการเชิงไวยากรณ์สามารถทำการบีบอัดเอกสาร XML ให้มีขนาดเล็กลงถึง 74%-96% เมื่อเทียบกับขนาดเอกสารก่อนการบีบอัด นอกจากนั้น ยังสามารถบีบอัดเอกสารได้มีประสิทธิภาพดีกว่าเมื่อเทียบกับ GZIP และ XMILL
dc.format.extentxi, 86 leaves
dc.format.mimetypeapplication/pdf
dc.identifier.citationThesis (M.Sc. (Computer Science))--Mahidol University, 2004
dc.identifier.isbn9740445292
dc.identifier.urihttps://repository.li.mahidol.ac.th/handle/20.500.14594/105660
dc.language.isoeng
dc.publisherMahidol University. Mahidol University Library and Knowledge Center
dc.rightsผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า
dc.rights.holderMahidol University
dc.subjectData compression (Computer science)
dc.subjectXML (Document markup language)
dc.titleXpack : a grammar-based XML document compression
dc.title.alternativeXpack : การบีบอัดเอกสาร XML ด้วยวิธีการเชิงไวยากรณ์
dc.typeMaster Thesis
dcterms.accessRightsopen access
mods.location.urlhttp://mulinet11.li.mahidol.ac.th/e-thesis/4337397.pdf
thesis.degree.departmentFaculty of Science
thesis.degree.disciplineComputer Science
thesis.degree.grantorMahidol University
thesis.degree.levelMaster's degree
thesis.degree.nameMaster of Science

Files