ตัวตระเวนเว็บเป็นโปรแกรมที่ท่องเว็บโดยอัตโนมัติโดยการดาวน์โหลดเพจและติดตามการเชื่อมโยงจากเพจไปยังเพจ วัตถุประสงค์ทั่วไปของโปรแกรมรวบรวมข้อมูลเว็บคือการดาวน์โหลดหน้าเว็บใด ๆ ที่สามารถเข้าถึงได้ผ่านลิงก์ กระบวนการนี้เรียกว่าการตระเวนเว็บหรือแมงมุม เว็บไซต์หลายแห่งโดยเฉพาะอย่างยิ่งเครื่องมือค้นหาใช้แมงมุมเป็นวิธีการให้ข้อมูลล่าสุด โปรแกรมรวบรวมข้อมูลเว็บส่วนใหญ่จะใช้ในการสร้างสําเนาของหน้าเว็บที่เยี่ยมชมทั้งหมดสําหรับการประมวลผลในภายหลังโดยเครื่องมือค้นหาที่จะจัดทําดัชนีหน้าเว็บที่ดาวน์โหลดเพื่อให้การค้นหาที่รวดเร็ว โปรแกรมรวบรวมข้อมูลยังสามารถใช้สําหรับงานบํารุงรักษาอัตโนมัติบนเว็บไซต์ เช่น การตรวจสอบลิงก์หรือการตรวจสอบความถูกต้องของโค้ด HTML นอกจากนี้ โปรแกรมรวบรวมข้อมูลยังสามารถใช้เพื่อรวบรวมข้อมูลประเภทเฉพาะจากเว็บเพจ เช่น การเก็บเกี่ยวที่อยู่อีเมล (โดยปกติจะเป็นสแปม) โปรแกรมรวบรวมข้อมูลเว็บคือบอทหรือตัวแทนซอฟต์แวร์ประเภทหนึ่ง โดยทั่วไปจะเริ่มต้นด้วยรายการ URL ที่จะเยี่ยมชมที่เรียกว่าเมล็ด เมื่อโปรแกรมรวบรวมข้อมูลเยี่ยมชม URL เหล่านี้มันจะระบุไฮเปอร์ลิงก์ทั้งหมดในหน้าเว็บและเพิ่มไปยังรายการ URL ที่จะเยี่ยมชมที่เรียกว่าชายแดนคลาน URL จากชายแดนจะเข้าเยี่ยมชมเป็นประจําตามชุดของนโยบาย
ประวัติรุ่น
- เวอร์ชัน 3.19 โพสต์เมื่อ 2012-01-15
การเผยแพร่สู่สาธารณะครั้งแรก
รายละเอียดหลักสูตร
- ประเภท: ระบบสาธารณูปโภค > เครื่องมืออัตโนมัติ
- Publisher: VietSpider
- ใบ อนุญาต: ฟรี
- ราคา: N/A
- เวอร์ชัน: 3.19
- แพ ลตฟอร์ม: windows