網頁404了怎么辦?
導讀
(圖源:視覺中國)網頁出現HTTP 404錯誤意味著鏈接指向的網頁不存在,即原始網頁的URL失效,意味著調查者好不容易檢索到的一條推特被刪除、一個網站已失效、一篇報道已丟失,而這些內容很可能是調查工作中的重要線索。
本期文章,我們將結合操作實例,介紹如何通過工具網站找回這些丟失的信息01Wayback Machine我們可以用Wayback Machine查看已經存檔過的網頁內容https://archive.org/web/。
(圖源:Wayback Machine 網站截圖)這個網站的用戶每天會通過網站的存檔服務保存上億個網頁。任何人都可以通過提交網址來存檔想要留存的網頁:
(圖源:Wayb重慶氣溫ack Machine 網站截圖)所以,如果我們點進一個網頁,卻發(fā)現網頁已失效,或者想要查看網頁的過往版本,就可以復制下網頁鏈接(已失效的也可以),嘗試用Wayback Machine搜索網址,查找存檔過的網頁記錄。
比如,今年上海國際電影節(jié)(SIFF)期間,我們想要收集原定于去年6月舉辦的電影節(jié)的活動信息,來與今年進行對比但今年的電影節(jié)官網已經改版,不方便收集去年的內容,這時候就可以用Wayback Machine查看往年的存檔。
步驟如下:將電影節(jié)官網網址輸入Wayback Machine搜索欄進行檢索,跳轉到的結果頁面上方有時間軸,下方是日歷形式的存檔數據可視化我們可以在時間軸上點選年份,再重慶氣溫將光標移到日歷上的圓點上,點選彈出窗口中的存檔時間來查看存檔記錄。
。日歷上的圓點越大,代表當日的存檔次數越多。
▲ 2022年,上海國際電影節(jié)官網在Wayback Machine上的存檔日期分布(圖源:Wayback Machine 網站截圖)02UK Web ArchiveUK Web Archive 每年會收集大量站點的詳細信息進行保存。
https://www.webarchive.org.uk/ukwa/
(圖源:UK Web Archive 網站截圖)該網站的一個特色功能是按主題做了記錄分類??梢赃x擇特定的分類后,再輸入關鍵詞查詢,讓檢索結果更精細。
(圖源:UK Web Archive 網重慶氣溫站截圖)03Memento Time Travel用Memento Time Travel檢索網頁存檔時,除了輸入網址,用戶還可以指定一組日期和時間(也可以不指定)
,這樣檢索出來的記錄即使不是在指定的日期和時間存下的,也是時隔不久的記錄https://timetravel.mementoweb.org/比如,我們要查找2015年6月8日當天《紐約時報》的首頁存檔,了解當時的重大新聞。
輸入《紐約時報》首頁地址和日期進行檢索后,得到時間相近的網頁記錄:
(圖源:Memento Time Travel 網站截圖)點進時間差最小的第一條記錄,即可查看2015年6月8日的網站首頁:
(圖源:The New 重慶氣溫York Times 網站截圖)需要注意的是,雖然這些存檔網站已經存儲了大量的網頁記錄,但也幾乎不可能百分百滿足我們找回任何一個頁面的需求一般情況下,越是訪問量高的內容,比如知名媒體的報道文章、名人的社交媒體主頁、風靡一時的視頻等,在存檔網站上找到記錄的可能性越高。
而那些相對冷門的內容,比如粉絲量不大的自媒體發(fā)布的文章,在這些網站上有存檔的幾率就小得多因此,如果我們平常查閱到有價值但又比較冷門的內容,可以復制鏈接后放在Wayback Machine之類的網站上自行存檔,防止內容丟失,供日后查閱使用。
責編|三疊聲明|銀河實驗室僅提供信息分享,具體解釋權歸各工具網站所有