แนะนำ Scrapper เครื่องมือดึงข้อมูลเว็บ (Web Scraping) แบบง่าย ๆ ผ่าน REST API

Scrapper คืออะไร

Scrapper เป็น Microservice ที่เขียนด้วย Go ออกแบบมาเพื่อช่วยให้การดึงข้อมูลจากเว็บไซต์ (Web Scraping) กลายเป็นเรื่องง่ายผ่าน REST API โดยที่เราไม่ต้องมานั่งจัดการเรื่อง Headless Browser หรือเขียน Logic การดึงข้อมูลที่ซับซ้อนเอง

ฟีเจอร์ที่น่าสนใจ

Readability Mode: สามารถสกัดเนื้อหาหลักของบทความออกมาได้สะอาดมาก (คล้ายโหมดอ่านหนังสือใน Browser) โดยจะตัดโฆษณา เมนู และส่วนที่ไม่เกี่ยวข้องออกให้อัตโนมัติ
Headless Browser: ใช้ Playwright (Chromium) ในตัว ทำให้สามารถดึงข้อมูลจากเว็บที่เป็น Client-side rendering (JavaScript) ได้ไม่มีปัญหา
หลากหลาย Format: เลือกรับข้อมูลได้ทั้งในรูปแบบ JSON, HTML, Markdown หรือแม้แต่ข้อความธรรมดา (Plain Text)
Screenshot & PDF: สามารถสั่งให้ถ่ายภาพหน้าเว็บ (PNG) หรือเซฟออกมาเป็นไฟล์ PDF ได้ผ่าน API เดียวกัน
Easy Deployment: รองรับ Docker แบบเต็มรูปแบบ ทำให้ติดตั้งและพร้อมใช้งานได้ภายในไม่กี่วินาที

การใช้งานเบื้องต้น

รันผ่าน Docker:

docker run -d -p 3000:3000 --name scrapper amerkurev/scrapper:latest

ตัวอย่างการสั่งดึงเนื้อหาบทความ (Article Extraction):

curl -X GET "http://localhost:3000/api/article?url=https://example.com"

ตัวอย่างการดึงข้อมูลในรูปแบบ Markdown:

curl -X GET "http://localhost:3000/api/markdown?url=https://example.com"

สรุป

Scrapper เหมาะมากสำหรับคนที่กำลังทำโปรเจกต์ที่ต้องดึง Content จากหลาย ๆ แหล่งมาแสดงผล หรือทำระบบรวบรวมข่าวสาร (Aggregator) เพราะจัดการเรื่องความยุ่งยากของโครงสร้าง HTML ให้เหลือเพียงข้อมูลที่พร้อมใช้งานทันทีครับ

Ref

https://github.com/amerkurev/scrapper