Basic Text Processing

Basic Text Processing

อธิบายหลักการเบื้องต้นของการทำ Text Processing สำหรับภาษาอังกฤษ ซึ่งประกอบด้วย 2 ส่วน ได้แก่ Regular Expressions เป็นการกำหนดรูปแบบหรือกลุ่มของอักขระ (เช่น ตัวหนังสือ ตัวเลข เครื่องหมาย ช่องว่าง เป็นต้น) เพื่อใช้อธิบายข้อความ (string) ตามที่ต้องการ Text Normalization เป็นกระบวนการพื้นฐานของการทำ NLP (Natural Language Processing) ซึ่งประกอบด้วย 3 ส่วน ได้แก่ (2.1) การตัดคำ (Segmenting/tokenizing words) โดยพูดถึงปัญหาของการตัดคำในภาษาต่างๆ และยกตัวอย่างเทคนิคที่ใช้ในการตัดคำที่ชื่อว่า Maximum Matching (2.2) การทำคำให้อยู่ในรูปปกติ (Normalizing word formats) ซึ่งประกอบด้วย การเปลี่ยนรูปคำให้อยู่ในรูปแบบดั้งเดิม (Lemmatization) และ การตัดส่วนขยาย (Stemming) (2.3) การตัดประโยค (Segmenting sentences) โดยอธิบายวิธีการทำ พร้อมทั้งยกตัวอย่างเทคนิคที่ชื่อว่า Decision Tree

No Comments

Sorry, the comment form is closed at this time.