ในยุคสารสนเทศ (Information age) นี้ ข้อมูลข่าวารเป็นสิ่งจำเป็นที่เราสามารถค้นหา หรือเผยแพร่ได้โดยง่ายด้วยเทคโนโลยีที่ไร้พรมแดนคือ อินเทอร์เน็ต (Internet) จึงทำให้มนุษย์สามารถติดต่อกันได้ทั่วโลกไม่ว่าจะอยู่ที่ใด เมื่อเชื่อมต่อเครื่องคอมพิวเตอร์เข้ากับเครือข่ายอินเทอร์เน็ตได้ เราก็สามารถพูดคุย หรือส่งจดหมายอิเล็กทรอนิกส์ให้แก่บุคคลอื่นได้ด้วยตัวเอง โดยไม่ต้องมีหน่วยงาน เช่น ที่ทำการไปรษณีย์โทรเลขทำหน้าที่รับส่ง และไม่ต้องอาศัยบุรุษไปรษณีย์ในการนำส่งจดหมายอีกต่อไป
เมื่อเทคโนโลยีคอมพิวเตอร์เข้ามามีบทบาทสำคัญในการติดต่อสื่อสาร การพิมพ์เอกสาร การค้นหาข้อมูลข่าวสาร การเผยแพร่ข่าวสาร ฯลฯ ดังนั้น คนไทยจึงมุ่งหวังที่จะให้คอมพิวเตอร์สามารถทำงานรองรับการใช้งานภาษาไทย โดยรับข้อมูลเข้าและแสดงผลเป็นภาษาไทยได้ รวมทั้งเข้าใจและโต้ตอบเป็นภาษาไทยได้ ซึ่งจะเป็นประโยชน์ต่อคนไทยอย่างอเนกอนันต์ ทั้งในด้านวิชาการ ธุรกิจ และบันเทิง ด้วยความจำเป็นดังกล่าว นักวิชาการและนักวิจัยในประเทศไทยจึงต้องทำวิจัยและพัฒนาเทคโนโลยี เพื่อให้มีความเจริญทัดเทียมเทคโนโลยีต่างประเทศที่ก้าวหน้าไปอย่างมาก
การประมวลผลภาษาไทยบนคอมพิวเตอร์
เทคโนโลยีที่เรานำมาใช้ในการประมวลผลและการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ประกอบไปด้วยวิทยาการทางด้านวิศวกรรมคอมพิวเตอร์ (Computer Engineering) ผสมผสานกับเทคโนโลยีทางด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing) ซึ่งได้แก่ การประมวลผลอักขระ (Character processing) การประมวลผลคำ (Word processing) การประมวลผลข้อความ (Text processing) การประมวลผลภาพ (Image processing) รวมทั้งความรู้ทางภาษาศาสตร์ (Linguistics)
ผู้เชี่ยวชาญทั้งจากภาครัฐและภาคเอกชนมีความสนใจงานวิจัยและพัฒนาโปรแกรมการประมวลผลภาษาไทยบนคอมพิวเตอร์อย่างกว้างขวาง เพื่อให้ผู้ใช้คนไทยสามารถใช้งานคอมพิวเตอร์ด้วยภาษาไทยได้อย่างมีประสิทธิภาพ ในที่นี้จะอธิบายโปรแกรมการประมวลผลบางโปรแกรม เพื่อเป็นความรู้พื้นฐานให้เข้าใจเรื่องการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ ดังต่อไปนี้
๑. โปรแกรมการเรียงลำดับคำไทย (Thai Sorting)
การเรียงลำดับคำในพจนานุกรม การเรียงลำดับชื่อบุคคลในสมุดรายนามผู้ใช้โทรศัพท์ หรือการเรียงลำดับคำให้สามารถค้นหาได้โดยง่าย จำเป็นต้องมีการเรียงตามลำดับตัวอักษร และตามมาตรฐานการเรียงลำดับคำไทยที่ยึดถือตามพจนานุกรม ฉบับราชบัณฑิตยสถาน พ.ศ. ๒๕๒๕ ประโยชน์ของการเรียงลำดับคือ ช่วยให้การค้นหาทำได้ง่ายขึ้น ทั้งการค้นโดยคอมพิวเตอร์ และการค้นโดยผู้ใช้ ตัวอย่างที่เห็นได้อย่างชัดเจนคือ การค้นหาคำในพจนานุกรม หรือการค้นหาฐานข้อมูลชื่อต่าง ๆ เช่น ชื่อบุคคล ชื่อหน่วยงาน ชื่อแฟ้มเอกสาร เป็นต้น ถ้าได้จัดเรียงไว้ตามลำดับแล้ว ก็จะสามารถประหยัดเวลาในการค้นหาได้
๒. โปรแกรมการสืบค้นคำไทยตามเสียงอ่าน (Thai Soundex)
การค้นหาคำไทยที่มีเสียงพ้อง หรือคำที่สามารถสะกดได้หลายคำนั้น สามารถแก้ปัญหาได้โดยการค้นหาคำตามเสียงอ่าน ทั้งนี้ ตามธรรมชาติของผู้ใช้ภาษาโดยทั่วไปจะเคยชินเสียงอ่านของคำมากกว่าตัวสะกด นอกจากนั้น เสียง ๑ เสียงสามารถแทนคำได้มากกว่า ๑ คำ เช่น เสียง "ค่า" หมายความถึง ข้า ค่า หรือ ฆ่า ก็ได้ ชื่อเฉพาะทั้งหลายก็สามารถสะกดได้หลายแบบ เช่น เพชรรัตน์ (อ่านว่า เพ็ด - ชะ - รัด) อาจสะกดเป็น เพชรัตน์ เพ็ชรัตน์ เพ็ชรรัตน์ เพชรรัช เพชรรัชต์ เพชรรัฐ เพชรรัตต์ เพชรรัตติ์ เพชรรัศม์ ฯลฯ จึงได้มีการคิดวิธีค้นตามเสียงอ่านขึ้น เพื่ออำนวยความสะดวกต่อผู้ใช้ในสถานการณ์ที่ไม่สามารถสะกดคำได้อย่างถูกต้อง เช่น การค้นหาชื่อในฐานข้อมูลสำมะโนประชากร ในสมุดรายนามผู้ใช้โทรศัพท์ หรือในโปรแกรมตรวจคำผิด เป็นต้น
๓. โปรแกรมตัดคำภาษาไทย (Thai Word Segmentation)
ลักษณะการเขียนภาษาไทยซึ่งเขียนติดต่อกันเป็นสายอักขระ โดยไม่มีเครื่องหมายวรรคตอนแสดงการแบ่งคำดังเช่นภาษาอังกฤษ เป็นอุปสรรคอย่างหนึ่งที่ต้องการการศึกษาทำวิจัยและพัฒนา เพื่อให้คอมพิวเตอร์สามารถคำนวณแบ่งสายอักขระไทยให้เป็นคำ ๆ ซึ่งจะส่งผลให้การทำงานของคอมพิวเตอร์ในการค้นหาคำใด ๆ เป็นไปอย่างถูกต้องและแม่นยำ รวมถึงการจัดขอบขวาในโปรแกรมประมวลผลคำด้วย เป็นต้น
ตัวอย่างเช่น ถ้ามีข้อความว่า "ฉันนั่งตากลมที่หน้าบ้าน" จะต้องทำให้คอมพิวเตอร์รูว่าเป็น " ฉัน นั่ง ตาก ลม ที่ หน้า บ้าน " ไม่ใช่ "ฉัน นั่ง ตา กลม ที่ หน้าบ้าน"
๔. โปรแกรมแปลภาษา (Machine Translation)
โปรแกรมแปลภาษาคือ เครื่องมือที่ใช้สำหรับแปลข้อความจำนวนมาก ๆ จากภาษาหนึ่งไปเป็นภาษาหนึ่ง โดยสามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความ หรือเสียงพูดก็ได้ ผลที่ได้รับคือ จะได้ภาษาปลายทางเป็นข้อความ หรือเสียงพูดก็ได้เช่นกัน ซึ่งจะช่วยให้วงการการแปลสามารถแปลข้อความได้เป็นจำนวนมากและรวดเร็ว
การทำวิจัยและพัฒนาเครื่องแปลภาษาเป็นงานแขนงหนึ่งในศาสตร์แห่งการประมวลผลภาษาธรรมชาติ เครื่องแปลภาษาเครื่องแรกถูกผลิตขึ้นประมาณปี ค.ศ. ๑๙๓๐ เป็นซอฟต์แวร์ที่พยายามแปลข้อความในรูปประโยค โดยพิจารณาเรื่องของวากยสัมพันธ์ รวมถึงอรรถศาสตร์ด้วย ไม่ใช่แปลเป็นคำๆ เท่านั้น การทำวิจัยและเครื่องแปลภาษา ในประเทศไทยเริ่มต้นในปี พ.ศ. ๒๕๒๔ โดยจุฬาลงกรณ์มหาวิทยาลัยและมหาวิทยาลัยเกรอนอบล์ ( Grenoble) แห่งประเทศฝรั่งเศส ได้ร่วมกันจัดทำโครงการวิจัยและแปลภาษาอังกฤษเป็นภาษาไทยด้วยคอมพิวเตอร์ ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย (พ.ศ. ๒๕๒๔ - ๒๕๓๐) ต่อมาก็เกิดโครงการความร่วมมือในการพัฒนาระบบแปลหลากภาษาสำหรับภาษาในเอเชีย ได้แก่ ภาษาจีน ญี่ปุ่น มาเลเซีย อินโดนีเซีย และไทย ซึ่งเป็นโครงการของกระทรวงวิทยาศาสตร์ เทคโนโลยีและสิ่งแวดล้อม ซึ่งดำเนินการภายใต้ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (พ.ศ. ๒๕๓๐ - ๒๕๓๗)
๕. โปรแกรมรู้จำอักขระไทยด้วยแสง หรือไทยโอซีอาร์ (Thai Optical Character Recognition)
โอซีอาร์เป็นคำย่อของภาษาอังกฤษว่า "Optical Character Recognition : OCR" แปลเป็นภาษาไทยได้ว่า "การรู้จักอักขระด้วยแสง" เป็นงานประยุกต์งานหนึ่งของสาขาวิทยาการคอมพิวเตอร์ ที่ได้รับความสนใจและพัฒนามานานกว่า ๗๐ ปีแล้ว โอซีอาร์เป็นการรู้จำรูปแบบตัวอักษร ซึ่งเป็นงานวิจัยในสาขาการรู้จำรูปแบบ (Pattern Recognition) เป็นเทคโนโลยีที่ส่งผลให้ระบบคอมพิวเตอร์สามารถระบุรูปแบบได้อย่างถูกต้อง เช่น สามารถจะบอกได้ว่า ภาพนั้นคือภาพอะไร ภาพตัวอักษรนั้นคือตัวอักษรอะไร หรือเสียงนั้นคือเสียงของคำสั่งอะไร เป็นต้น
นักวิจัยมีความสนใจในงานโอซีอาร์เป็นอย่างมาก เพราะเป็นงานที่เกี่ยวข้องกับเอกสาร การเก็บข้อมูลเหล่านี้ให้เป็นแฟ้มข้อความ (Text File) ไว้ในระบบคอมพิวเตอร์นั้น ต้องใช้บุคลากรในการจัดพิมพ์เอกสารนั้น ๆ โดยใช้โปรแกรมประมวลผลคำ ถึงแม้ว่าโปรแกรมประเภทนี้จะมีความสามารถและเป็นเครื่องมือที่ดี แต่ก็ยังต้องใช้บุคลากรจำนวนมากและใช้เวลานาน ถ้าโอซีอาร์ประสบผลสำเร็จ งานพิมพ์เอกสารต่าง ๆ เพื่อเก็บเป็นแฟ้มข้อความก็จะกลายเป็นหน้าที่ของระบบคอมพิวเตอร์ การประมวลผลของโอซีอาร์โดยทั่วไปจะเร็วกว่าการพิมพ์ของมนุษย์เฉลี่ยประมาณ ๕ เท่า และในบางระบบ การประมวลผลของโอซีอาร์จะมีความถูกต้องมากกว่าการพิมพ์ของมนุษย์อีกด้วย
ตัวอย่างโปรแกรมเพื่อการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ที่ได้กล่าวมาแล้วข้างต้น ล้วนเป็นงานที่ได้รับการพัฒนาขึ้นโดยนักวิจัยไทยทั้งสิ้น อย่างไรก็ตาม งานวิจัยและพัฒนาในเรื่องนี้ยังต้องดำเนินต่อไป เพื่อประโยชน์สูงสุดในการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ เช่น การสั่งงานด้วยเสียงพูดโดยไม่ต้องใช้แป้นพิมพ์ การสนทนาโต้ตอบกับคอมพิวเตอร์ การสอบถามและการค้นหาแบบอัตโนมัติ ทั้งนี้ นักวิจัยไทยมีความมุ่งหวังว่าในอนาคต คนไทยจะสามารถใช้งานโปรแกรมเหล่านี้ได้ตามที่ตั้งปณิธานไว้



[ จอหลัก | ดูรูป | เล่าให้ฟัง | วีดิโอ | ลับสมอง | ค้นข้อมูล | บทความ | ดูต่อ... ]
Copyright © 2000 Thai Junior Encyclopedia Project by Royal Command of H.M. the King Network Webmaster. All rights reserved.
Reproduction of the information contained in this web site without permission is prohibited.


สงวนลิขสิทธิ์ พ.ศ.๒๕๔๑ ตามพระราชบัญญัติลิขสิทธิ์ พ.ศ.๒๕๓๗
ห้ามนำข้อมูลของเครือข่ายนี้ ไปเผยแพร่ต่อโดยไม่ได้รับอนุญาตเป็นลายลักษณ์อักษร