Thai type styles recognition
5
Issued Date
1998
Copyright Date
1998
Resource Type
Language
eng
File Type
application/pdf
No. of Pages/File Size
ix, 58 leaves : ill.
ISBN
9746611364
Access Rights
open access
Rights
ผลงานนี้เป็นลิขสิทธิ์ของมหาวิทยาลัยมหิดล ขอสงวนไว้สำหรับเพื่อการศึกษาเท่านั้น ต้องอ้างอิงแหล่งที่มา ห้ามดัดแปลงเนื้อหา และห้ามนำไปใช้เพื่อการค้า
Rights Holder(s)
Mahidol University
Bibliographic Citation
Research Project (M.Sc. (Computer science))--Mahidol University, 1998
Suggested Citation
Sutat Saetang Thai type styles recognition. Research Project (M.Sc. (Computer science))--Mahidol University, 1998. Retrieved from: https://repository.li.mahidol.ac.th/handle/123456789/103522
Title
Thai type styles recognition
Alternative Title(s)
การรู้จำลักษณะพิเศษของตัวอักษรไทย
Author(s)
Advisor(s)
Abstract
Thai printed character recognition has been a very popular research topic in Thailand. There are three commercial Thai OCR softwares available to the public at the present. None of them can preserve the type styles of the original document image such as normal, bold, italics, and bold & italics styles into the output text file. Therefore, users who need to maintain a documents original character type styles have to modify the document by themselves which takes more time and more labor on a tedious job. This research presents the technique for preserving the specified Thai type styles by applying a specific preprocessing with a supervised neural networks learning algorithm. Only four type styles of Thai typed characters are considered. They are normal, bold, italics and bold & italics. Therefore, there are two main features to extract for these four Thai type styles: the thickness and the inclination of character. This research designed and experimented several types of templates to extract these two features from the raw bit-map character images. The best template preserves the two main characteristics and gives an average recognition at 95.85% with the unseen testing patterns. Therefore, the results confirm that the proposed technique effectively preserves the type styles of Thai typed fonts from the original document image into the output text file.
การรู้จำตัวพิมพ์อักษรไทยเป็นหัวข้อวิจัยที่กำลังนิยมมากหัวข้อหนึ่งในประเทศไทย ปัจจุบันมีซอฟต์แวร์ทางด้านนี้ในท้องตลาดของประเทศไทย 3 ซอฟต์แวร์ด้วยกัน แต่ไม่มี ซอฟต์แวร์ตัวใดเลย ที่สามารถรู้จำรูปแบบตัวอักษรของเอกสารต้นฉบับเช่น ตัวปกติ ตัวหนา ตัวเอียง และตัวหนาเอียงได้เลย ด้วยเหตุนี้ผู้ใช้ที่ต้องการจะได้รูปแบบตัวอักษร ของเอกสารต้นฉบับในแฟ้มข้อความผลลัพธ์จึงจำเป็นต้องแก้ไขด้วยตนเองภายหลัง ซึ่ง เป็นการเสียเวลาและเป็นงานที่น่าเบื่อหน่าย งานวิจัยฉบับนี้ จะแสดงถึงเทคนิคในการรู้จำรูปแบบตัวอักษรไทยโดยอาศัยโครงข่าย ประสาทเทียมแบบมีผู้สอนช่วยในการรู้จำ โดยจะรู้จำรูปแบบทั้งหมด 4 รูปแบบคือ ตัวปกติ ตัวหนา ตัวเอียง และตัวหนาเอียง ซึ่งสามารถแบ่งเป็นลักษณะของรูปแบบหลักๆ ของ ตัวอักษรภาษาไทยได้ 2 รูปแบบด้วยกัน คือ รูปแบบความหนา และรูปแบบความเอียงของ ตัวอักษร จากการวิจัยได้ออกแบบและทดสอบกับหลายๆ แผ่นแบบ (template) ที่พัฒนาขึ้น เพื่อให้สามารถดึงรูปแบบหลักทั้ง 2 รูปแบบจากภาพลักษณ์ตัวอักษรไทยได้ โดยแผ่นแบบที่ดี ที่สุดสำหรับการดึงรูปแบบหลักทั้ง 2 รูปแบบดังกล่าวมีอัตราการรู้จำที่ 95.85% กับข้อมูล ทดสอบ ดังนั้นสามารถสรุปได้ว่าเทคนิคที่พัฒนาขึ้นสามารถรู้จำรูปแบบตัวอักษรภาษาไทยจาก ภาพลักษณ์ตัวอักษรได้อย่างมีประสิทธิภาพ
การรู้จำตัวพิมพ์อักษรไทยเป็นหัวข้อวิจัยที่กำลังนิยมมากหัวข้อหนึ่งในประเทศไทย ปัจจุบันมีซอฟต์แวร์ทางด้านนี้ในท้องตลาดของประเทศไทย 3 ซอฟต์แวร์ด้วยกัน แต่ไม่มี ซอฟต์แวร์ตัวใดเลย ที่สามารถรู้จำรูปแบบตัวอักษรของเอกสารต้นฉบับเช่น ตัวปกติ ตัวหนา ตัวเอียง และตัวหนาเอียงได้เลย ด้วยเหตุนี้ผู้ใช้ที่ต้องการจะได้รูปแบบตัวอักษร ของเอกสารต้นฉบับในแฟ้มข้อความผลลัพธ์จึงจำเป็นต้องแก้ไขด้วยตนเองภายหลัง ซึ่ง เป็นการเสียเวลาและเป็นงานที่น่าเบื่อหน่าย งานวิจัยฉบับนี้ จะแสดงถึงเทคนิคในการรู้จำรูปแบบตัวอักษรไทยโดยอาศัยโครงข่าย ประสาทเทียมแบบมีผู้สอนช่วยในการรู้จำ โดยจะรู้จำรูปแบบทั้งหมด 4 รูปแบบคือ ตัวปกติ ตัวหนา ตัวเอียง และตัวหนาเอียง ซึ่งสามารถแบ่งเป็นลักษณะของรูปแบบหลักๆ ของ ตัวอักษรภาษาไทยได้ 2 รูปแบบด้วยกัน คือ รูปแบบความหนา และรูปแบบความเอียงของ ตัวอักษร จากการวิจัยได้ออกแบบและทดสอบกับหลายๆ แผ่นแบบ (template) ที่พัฒนาขึ้น เพื่อให้สามารถดึงรูปแบบหลักทั้ง 2 รูปแบบจากภาพลักษณ์ตัวอักษรไทยได้ โดยแผ่นแบบที่ดี ที่สุดสำหรับการดึงรูปแบบหลักทั้ง 2 รูปแบบดังกล่าวมีอัตราการรู้จำที่ 95.85% กับข้อมูล ทดสอบ ดังนั้นสามารถสรุปได้ว่าเทคนิคที่พัฒนาขึ้นสามารถรู้จำรูปแบบตัวอักษรภาษาไทยจาก ภาพลักษณ์ตัวอักษรได้อย่างมีประสิทธิภาพ
Description
Computer science (Mahidol University 1998)
Degree Name
Master of Science
Degree Level
Master's degree
Degree Department
Faculty of Science
Degree Discipline
Computer science
Degree Grantor(s)
Mahidol University
