การประชุมวิชาการระดับชาติมหาวิทยาลัยทักษิณ 2559 - page 265

264
ตำรำงที่
1
เปรี
ยบเที
ยบแบบความแตกต่
างของแบบจาลองระบบค้
นคื
นสารสนเทศ
แบบจาลอง
รู
ปแบบการทางาน
จุ
ดเด่
ข้
อจากั
1. บู
ลี
1. คาค้
นถู
กแสดงแทนด้
วย
นิ
พจน์
ทางตรรกศาสตร์
2. คาค้
นถู
กเชื่
อมด้
วยนิ
พจน์
AND, OR
และ
NOT
1. ง่
ายต่
อการพั
ฒนาและง่
าย
ต่
อการใช้
งาน
2.
รู
ปแบบกาหนดของคาค้
นที่
ง่
าย ไม่
ซั
บซ้
อน
3. เป็
นการหาข้
อมู
ลในลั
กษณะ
ใช่
/ ไม่
ใช่
1. ไม่
มี
การจั
ดลาดั
บของ
เอกสาร
2. ใช้
กั
บคาค้
นที่
ต้
องการ
ความซั
บซ้
อนไม่
ได้
และไม่
มี
ความยื
ดหยุ่
3. ยากต่
อการควบคุ
มจานวน
ของเอกสาร
2. เวกเตอร์
สเปซ
1. เอกสารและคาค้
นแสดงอยู่
ในรู
ปแบบของเวกเตอร์
2. ให้
ความสาคั
ญกั
บความถี่
ของคาที่
ปรากฏอยู่
ในเอกสาร
และมี
ผลต่
อการให้
ค่
าน้
าหนั
ของคา
3 . ใ ช้
วิ
ธี
ก า ร ห า ค่
า ค ว า ม
คล้
ายคลึ
1. ใช้
คณิ
ตศาสตร์
เรี
ยบง่
ายใน
การคานวณ
2.
การให้
ค่
าน้
าหนั
กคาช่
วย
เพื่
อประสิ
ทธิ
ภาพในการค้
นคื
3. มี
การจั
ดลาดั
บความสาคั
ของเอกสาร
4. ใช้
กั
บเอกสารที่
มี
ข้
อมู
มากๆ ได้
ดี
ไม่
สนใจคาที่
มี
ความหมาย
เหมื
อนกั
(Synonymy)
3. ความน่
าจะเป็
ฟั
งก์
ชั
นสมาชิ
กหรื
อฟั
งก์
ชั่
ตั
ดสิ
นที่
ถู
กใช้
เป็
นแบบความ
น่
าจะเป็
1. การคานวณความน่
าจะเป็
ที่
ได้
รั
บการยอมรั
บโดยคานวณ
ความน่
าจะ เป็
นจากข้
อมู
ความถี่
ของคา
2. มี
การจั
ดลาดั
บความเอกสาร
ด้
วยค่
าความน่
าจะเป็
1. จะต้
องมี
ฐานข้
อมู
ลที่
มี
การ
ตั
ดคาที่
ถู
กต้
อง และกาหนด
หน้
าที่
ของคา
เพื่
อที่
จะ
นาไปใช้
ในการสร้
างสถิ
ติ
2.
จะต้
องมี
การคาดเดาค่
ความน่
าจะเป็
การให้
น้
าหนั
กของคา (Term Weighting) ซึ่
งคาที่
มี
ความสาคั
ญหรื
อใช้
เป็
นตั
วแทนของเอกสารที่
ดี
ควรจะ
ปรากฏอยู่
เป็
นจานวนมากในเนื้
อหาเอกสารเฉพาะฉบั
บนั้
นและปรากฏอยู่
น้
อยมากในชุ
ดเอกสารที่
เหลื
อทั้
งหมด แต่
ถ้
าคานั้
ปรากฏอยู่
เป็
นจานวนมากในทุ
กๆ เอกสาร แสดงว่
าคาดั
งกล่
าวไม่
สามารถเป็
นตั
วแทนของเอกสารใดๆ ได้
ซึ่
งคาเหล่
านี้
เรี
ยกว่
า คาหยุ
ด (Stop Word) เช่
น คาว่
า ที่
, และ, ซึ่
ง เป็
นต้
น ดั
งนั้
นการให้
ค่
าน้
าหนั
กคาในเอกสารฉบั
บหนึ่
ง จะพิ
จารณา
จากการนั
บความถี่
ของคาที่
ปรากฏในเอกสารนั้
น และจานวนของเอกสารทั้
งหมดที่
มี
คาๆ นั้
นปรากฏอยู่
[7] โดยมี
วิ
ธี
การให้
ค่
าน้
าหนั
กคาที่
นิ
ยมใช้
กั
นมาก คื
อ การกาหนดค่
าน้
าหนั
กคาในเอกสารตามแนวคิ
ดของซอลตั
น (Salton) ซึ่
งมี
รายละเอี
ยด
ดั
งนี้
1. การวั
ดความคล้
ายคลึ
งกั
นของเอกสาร (Similarity Measurement of Document)
วิ
ธี
ที่
นิ
ยมสาหรั
บการคานวณความคล้
ายคลึ
งระหว่
างเอกสารและคาค้
น (Query) เรี
ยกว่
าวิ
ธี
การวั
ดความคล้
ายคลึ
แบบโคไซน์
(Cosine Similarity) เป็
นวิ
ธี
การเปรี
ยบเที
ยบความคล้
ายคลึ
งของเอกสารสองเอกสาร โดยแต่
ละเอกสารจะถู
แทนด้
วยเวกเตอร์
(N-Dimensional Vector) ซึ่
งเก็
บค่
าน้
าหนั
กคาแต่
ละในเอกสารนั้
น (Term Space) การเปรี
ยบเที
ยบ
ความคล้
ายคลึ
งของเอกสารจะเปรี
ยบเที
ยบโดยดู
จากมุ
มโคไซน์
ของมุ
มระหว่
าง 2 เวกเตอร์
ของเอกสาร หากเอกสารทั้
งสอง
เอกสารคล้
ายคลึ
งกั
นมาก เวกเตอร์
ของเอกสารทั้
ง 2 จะซ้
อนทั
บกั
นเกื
อบสนิ
ท มุ
มจึ
งมี
ค่
าน้
อย ค่
าโคไซน์
ที่
ได้
จะมี
ค่
ามาก ซึ่
คานวณได้
ดั
งสมการที่
1
Cosine θ
(Q,D
i)
=
Q▪D
i
‖Q‖×‖D
i
=
∑ Q×D
i
ni=1
√∑ Q
2
×∑ D
2 ni=1
ni=1
(1)
โดยที่
Q
i
คื
อ น้
าหนั
กของคาค้
น Q คาศั
พท์
ที่
I , D
i
คื
อ น้
าหนั
กของเอกสาร D คาศั
พท์
ที่
i และQ
D
i
คื
อ ผล
คู
ณสเกลาร์
และ
Q
×
D
i
คื
อ ผลคู
ณขนาดของเวกเตอร์
Q กั
บ D
i
ทั้
งนี้
ค่
าความคล้
ายคลึ
งสู
งสุ
ดที่
วั
ดด้
วยวิ
ธี
นี้
มี
ค่
าเท่
ากั
บ 1 โดยมี
ความหมาย คื
อ เวกเตอร์
ทั้
งสองทามุ
มระหว่
าง
กั
น 0 องศา นั่
นคื
อ เวกเตอร์
ทั้
งสองมี
ทิ
ศทางเดี
ยวกั
นหรื
อมี
ความคล้
ายคลึ
งกั
1...,255,256,257,258,259,260,261,262,263,264 266,267,268,269,270,271,272,273,274,275,...300
Powered by FlippingBook