เอกสารประชุมวิชาการระดับขาติมหาวิทยาลัยทักษิณ ครั้งที่ 28 2561
1152 การประชุมวิชาการระดับชาติมหาวิทยาลัยทักษิณ ครั้งที่ 28 ประจ�าปี 2561 ต่าง ė ที่ได้มีการกาหนดไว้แล้ว เทคนิคประเภทนี้เหมาะกับการสร้างแบบจาลองเพื่อการพยากรณ์ค่าข้อมูลในอนาคตจาก การที่ได้จาแนกกลุ่มข้อมูลตัวอย่างไว้แล้ว เทคนิคการ Classification มี 2 รูปแบบ ได้แก่ Tree Induction และ Neural Induction และเป็นกระบวนการสร้างแบบจาลองเพื่อจัดการข้อมูลให้อยู่ในกลุ่มที่กาหนด [6] ส่วนประกอบของต้นไม้ตัดสินใจ ประกอบด้วย 1 โหนด (Node) คือ คุณสมบัติต่าง ė เป็นจุดที่แยกข้อมูลว่าจะ ให้ไปในทิศทางใด ซึ่งโหนดที่อยู่สูงสุดเรียกว่า โหนดราก (Root Node) 2 กิ่ง (Branch) คือ คุณสมบัติของคุณสมบัติในโหนด ที่แตกออกมา โดยจานวนของกิ่งจะเท่ากับคุณสมบัติของโหนด และ 3 ใบ (Leaf) คือ กลุ่มของผลลัพธ์ในการแยกแยะข้อมูล กำรสรšำงตšนĕöšตัดสĉนĔÝǰ หลักการพื้นåานของการสร้างต้นไม้ตัดสินใจ เป็นการสร้างในลักษณะจากบนลงล่าง ( Top-Down) คือเริ่มจาก การสร้างรากของต้นไม้ก่อนแล้วจึงแตกกิ่งไปจนถึงใบ โดยแสดงขั้นตอนการสร้างต้นไม้ตัดสินใจได้ดังนี้ [7] ต้นไม้เริ่มต้นโดย มีโหนดเพียงโหนดเดียวแสดงถึงชุดข้อมูลòřก (Training Set) ถ้าข้อมูลทั้งหมดอยู่ในกลุ่มเดียวกันแล้ว ให้โหนดนั้นเป็นใบ และตั้งชื่อแยกตามกลุ่มของข้อมูลนั้น ถ้าในโหนดมีข้อมูลหลายกลุ่มจะต้องวัดค่าเกน (Information Gain) ของแต่ละแอท- ทริบิวต์ (Attribute) เพื่อที่จะใช้เป็นเกณæ์ในการคัดเลือกแอททริบิวต์ ที่มีความสามารถในการแบ่งแยกข้อมูลออกเป็นกลุ่ม ต่าง ė ได้ดีที่สุด โดยแอททริบิวต์ที่มีค่าเกนมากที่สุดจะถูกเลือกให้เป็นตัวทดสอบหรือแอททริบิวต์ใช้ในการตัดสินใจ โดย แสดงในรูปของโหนดบนต้นไม้ สาหรับกิ่งของต้นไม้ ถูกสร้างขึ้นจากค่าต่าง ė ที่เป็นไปได้ของโหนดทดสอบและข้อมูลจะถูก แบ่งออกตามกิ่งต่าง ė ที่สร้างขึ้น จากนั้นทาการวนซ้าเพื่อหาแอททริบิวต์ที่มีค่าเกนมากที่สุด สาหรับข้อมูลที่ถูกแบ่งแยก ออกมาในแต่ละกิ่งเพื่อนาแอททริบิวต์นี้มาสร้างเป็นโหนดตัดสินใจต่อไป โดยที่แอททริบิวต์ที่ถูกเลือกมาเป็นโหนดแล้วจะไม่ ถูกเลือกมาอีกสาหรับโหนดในลาดับถัดไป กำรคำนüèค่ำǰInformation Gain การสร้างต้นไม้ตัดสินใจ [8] ปŦญหาสาคัญที่ต้องพิจารณาคือ การตัดสินใจเลือกแอททริบิวต์มาทาหน้าที่เป็นโหนด ราก ในแต่ละขั้นตอนของการสร้างต้นไม้และต้นไม้ย่อย (Subtree) ของต้นไม้ตัดสินใจ เกณæ์ที่ใช้ช่วยประกอบการเลือก แอททริบิวต์คือการคานวณค่ามาตรåานเกน (Gain Criterion) โดยทดลองเลือกแต่ละแอททริบิวต์ที่เป็นไปได้จากชุดข้อมูล มาทาหน้าที่เป็นโหนดราก ถ้าแอททริบิวต์ใดให้ค่าเกนสูงที่สุด แสดงว่าแอททริบิวต์นั้นสามารถจาแนกกลุ่มของข้อมูลได้ดี ที่สุด ซึ่งค่า Information Gain นั้นสามารถคานวณได้จากสมการ เมื่อ S เป็นเซตของข้อมูลซึ่งประกอบด้วยข้อมูล s เรคคอร์ด, n เป็นจานวนกลุ่มทั้งหมดที่ต่างกันของข้อมูลชุดนั้น, s i แทน จานวนข้อมูลที่เป็นสมาชิกของ S งำนüĉÝัยทĊęเกĊęยüךอง จากการศึกษางานวิจัยที่เกี่ยวข้องพบว่ามีการนาเทคนิคต้นไม้ตัดสินใจมาประยุกต์ใช้ในหลายงานวิจัย เช่น งานวิจัยด้านการเก็บข้อมูลงานวิจัยที่ช่วยให้สามารถสืบค้นงานวิจัยได้อย่างเป็นระบบ โดยนาวิธีการของต้นไม้ตัดสินใจ (Decision Tree) เข้ามาช่วยในการจัดแบ่งหมวดหมู่งานวิจัย ทาให้สามารถแบ่งแยกข้อมูลงานวิจัยออกเป็นประเภทต่าง ė และสามารถแสดงผลลัพธ์ออกเป็นเงื่อนไขที่ผู้ใช้ต้องการ ทาให้การสืบค้นข้อมูลวิจัยมีประสิทธิภาพมากขึ้น [9] นอกจากนี้
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzk3MzI3