โปรแกรมตาม wikipedia2xml.sf.net
-
wikipedia2XML ฟรี
คอลเลกชันของสคริปต์งูหลามเพื่อสร้างและจัดการ corpus XML (คอลเลกชันขนาดใหญ่ของข้อความเพื่อวัตถุประสงค์ทางภาษา) จากการถ่ายโอนข้อมูลสํารองฐานข้อมูลวิกิพีเดียเดิม มันมีตัวแยกวิเคราะห์นิพจน์ปกติสําหรับภาษามาร์กอัปมีเดียวิกิ