捕獲和轉換Web的工具

GrabzIt的Web Scraper是否尊重robots.txt文件?

我們的網絡抓取工具必須遵守網站robots.txt文件中的規則。 造成這種情況的主要原因之一(不是很好),就是不遵循robots.txt文件的網絡抓取工具會發現自己被蜜罐服務列入了黑名單。

這些服務使用robots.txt告訴網絡抓取工具不要訪問從網站鏈接到的某個文件。 如果Web搜尋器仍訪問該文件,則該Web搜尋器的IP地址將被列入黑名單,從而阻止該Web搜尋器將來訪問該網站。