捕獲和轉換Web的工具

如何下載網站及其所有內容?

網站

在某些情況下,重要的是下載整個網站,而不僅僅是完成的結果。 但是HTML網頁,CSS,腳本和圖像等資源。

這可能是因為您想要備份代碼,但由於某種原因而無法再訪問原始源代碼。 或者,您可能想要詳細記錄網站如何隨著時間變化。

幸運的是,GrabzIt的Web Scraper可以通過對網站上的所有網頁進行爬網來實現這一目標。 然後,在每個網頁上,抓取工具都會下載HTML以及頁面上引用的所有資源。

創建Scrape以下載整個網站

為了使下載網站盡可能容易,GrabzIt提供了一個抓取模板。

開始 加載此模板.

然後輸入 目標網址,然後會自動檢查該URL是否有錯誤以及是否進行了任何必要的更改。 保持 自動開始抓取 複選框被打勾,您的抓取工具將自動開始。

自定義刮板

如果要更改模板,請取消選中 自動開始抓取 複選框。 一種更改是按規定的時間表運行抓取,例如,創建網站的常規副本。 在 時間表刮 標籤,只需點擊 重複刮擦 複選框,然後選擇要重複抓取的頻率。 然後點擊 提交 開始抓取。

使用您下載的網站

刮擦完成後,您將獲得一個ZIP文件。 接下來解壓縮ZIP文件,位於文件目錄中的所有下載的網頁和網站資源都將位於其中。 目錄的根目錄中還將有一個特殊的HTML頁面,稱為data.html。 在網絡瀏覽器中打開此文件,您將找到一個包含三列的HTML表:

  • 資源URL-這是Web搜尋器在其上找到資源的URL。 因此,例如:http://www.example.com/logo.jog
  • 資源類型-這是已下載資源的類型。 有四種類型的資源。
    • 網頁
    • 圖片
    • 外部資源-從鏈接標籤下載的任何資源
    • 腳本
  • 新文件名-資源已使用的新文件名 saved下。 請注意,“此列”還包含指向文件的鏈接,這使檢查所有下載的資源變得更加容易。

此文件旨在幫助您將新文件名映射到它們的舊位置。 這是必需的,因為URL可能太大而無法直接存儲在文件路徑中,因此無法將URL直接映射到文件結構。

也可能會有很多排列,特別是當網頁可以通過更改各種查詢來表示很多不同的內容時 string 參數! 因此,我們將網站以平面結構存儲在文件夾中,並提供data.html文件以將這些文件映射到原始結構。

當然,因此,您無法打開下載的HTML頁面並希望看到您在網絡上看到的網頁。 為此,您需要重寫圖像,腳本和CSS資源等的路徑,以便HTML文件可以在本地文件結構中找到它們。

ZIP文件的根目錄中將包含的另一個文件稱為Website.csv。 它包含與data.html文件完全相同的信息。 但是,如果您想以編程方式閱讀和處理網站下載內容(包括使用URL到文件的映射以重新創建下載的網站),則包括在其中。