我們的網頁抓取工具必須遵守網站 robots.txt 檔案中的規則。 造成這種情況的主要原因之一,除了友善之外,還在於不遵循 robots.txt 檔案的網頁抓取工具可能會發現自己被蜜罐服務列入黑名單。
這些服務使用 robots.txt 告訴網頁抓取工具不要存取從網站連結到的特定文件。 如果網頁抓取工具仍然存取該文件,則網頁抓取工具的 IP 位址將被列入黑名單,以防止網路抓取工具將來造訪該網站。