捕獲和轉換Web的工具

如何下載網站及其所有內容?

網站

在某些情況下,重要的是下載整個網站,而不僅僅是完成的結果。 但是HTML網頁,CSS,腳本和圖像等資源。

這可能是因為您想要備份代碼,但由於某種原因而無法再訪問原始源代碼。 或者,您可能想要詳細記錄網站如何隨著時間變化。

幸運的是,GrabzIt的Web Scraper可以通過對網站上的所有網頁進行爬網來實現這一目標。 然後,在每個網頁上,抓取工具都會下載HTML以及頁面上引用的所有資源。

創建Scrape以下載整個網站

To make downloading your website as easy as possible GrabzIt provides a scrape template.

開始 load this template.

Then enter your 目標網址, this URL is then automatically checked for errors and any required changes made. Keep the Automatically Start Scrape checkbox ticked, and your scrape will automatically start.

Customizing your Scrape

If you want to alter the template, uncheck the Automatically Start Scrape checkbox. One alteration would be to run the scrape on a regular schedule, for instance, to create regular copies of a website. On the 時間表刮 tab, simply click the 重複刮擦 checkbox and then select how frequently you want the scrape to repeat. Then click 提交 to start the scrape.

使用您下載的網站

刮擦完成後,您將獲得一個ZIP文件。 接下來解壓縮ZIP文件,位於文件目錄中的所有下載的網頁和網站資源都將位於其中。 目錄的根目錄中還將有一個特殊的HTML頁面,稱為data.html。 在網絡瀏覽器中打開此文件,您將找到一個包含三列的HTML表:

  • 資源URL-這是Web搜尋器在其上找到資源的URL。 因此,例如:http://www.example.com/logo.jog
  • 資源類型-這是已下載資源的類型。 有四種類型的資源。
    • 網頁
    • 圖片
    • 外部資源-從鏈接標籤下載的任何資源
    • 腳本
  • 新文件名-資源已使用的新文件名 saved下。 請注意,“此列”還包含指向文件的鏈接,這使檢查所有下載的資源變得更加容易。

此文件旨在幫助您將新文件名映射到它們的舊位置。 這是必需的,因為URL可能太大而無法直接存儲在文件路徑中,因此無法將URL直接映射到文件結構。

也可能會有很多排列,特別是當網頁可以通過更改各種查詢來表示很多不同的內容時 string 參數! 因此,我們將網站以平面結構存儲在文件夾中,並提供data.html文件以將這些文件映射到原始結構。

當然,因此,您無法打開下載的HTML頁面並希望看到您在網絡上看到的網頁。 為此,您需要重寫圖像,腳本和CSS資源等的路徑,以便HTML文件可以在本地文件結構中找到它們。

ZIP文件的根目錄中將包含的另一個文件稱為Website.csv。 它包含與data.html文件完全相同的信息。 但是,如果您想以編程方式閱讀和處理網站下載內容(包括使用URL到文件的映射以重新創建下載的網站),則包括在其中。