Post by account_disabled on Dec 12, 2023 5:00:06 GMT -6
维护您的网站需要制定专门的备份策略。虽然备份始终是必不可少的,但它们并不是保护网站的唯一方法。备份的自然延伸是对网站进行归档,尽管这是一个补充过程。 有多种灵活的方法可以对网站进行存档。好消息是它们都易于使用且易于访问。您只需根据您的需求和要求选择正确的解决方案即可。 在本文中,我们将了解如何存档网站。我们还将探讨您将遇到的不同类型的归档,汇总一些最重要的网站归档工具,并讨论一些归档网站的技巧。 网站归档简介 网站存档意味着保存内容、数据和媒体以供将来参考。使用Wayback Machine等专用服务(尽管我们稍后会讨论其他解决方案),您可以查看网站的早期版本。 Kinsta 网站 2015 年的样子 - 我们已经取得了长足的进步! Kinsta 网站 2015 年的样子 – 我们已经取得了长足的进步! 在技术层面上,爬虫捕获网站的快照,这些快照构成了档案本身。如果您愿意,您可以使用简单的日历来访问它,并以时间格式查看每次迭代。 Kinsta 网站的 Wayback Machine 存档日历。 Wayback Machine Kinsta 网站的存档日历。
为了找出像 Wayback Machine 这样的解决方 电话号码清单 案存在的原因,我们需要回到 2000 年代初。互联网泡沫几乎破裂;许多公司即将破产。一些受欢迎的网站被关闭或废弃,留下的记忆所剩无几。 与互联网出现之前的其他媒体(例如音乐和电视)一样,这些网站具有历史和怀旧价值。拯救它们意味着让未来的互联网用户了解我们离以前的技术有多远。 互联网档案馆推出了 Wayback Machine 来帮助保存网站。如果某个网站已存档在那里,您可以看到它多年来的演变情况。 归档网站需要许多爬虫,包括可能需要数年才能完成的巨大的单独爬行。执行这些爬行“任务”并将生成的快照存档所需的工作量是巨大的。 例如, Wayback Machine 的第一个 100 TB 服务器于 2004 年上线。截至 2020 年底,Wayback Machine 已存储超过70 PB 的数据。超过 70,000 TB。 然而,并不是每个人都对互联网档案馆所做的工作感到满意。基于网站档案侵犯现有版权问题的事实,已经有一些讨论和法律挑战。 然而,鉴于保存的档案数量急剧增长,人们明显希望保存网站。 为什么要存档网站 想要存档网站的原因有很多,不仅仅是怀旧的原因。对于现实世界的类比,请查看 GitHub。 GitHub 的基础设施与互联网档案馆非常相似。
的基础设施与互联网档案馆非常相似。 Github 存储项目的存储库以及所做的每一次提交。与互联网存储相比,存储库代表整个存档,提交是快照。 如果Git 存储库很有价值,那么存档也很有价值。例如,您可以查看网站的先前版本(甚至是许多年前的版本),以指导您当前的设计选择。 此外,法律可能要求您存档您的网站,特别是如果您从事金融或法律行业。 最后,如果您不幸卷入涉及您网站的争议,这些档案将是宝贵的证据。如果您能提供清晰、完整的现场记录,即使在法院介入之前,您也可以避免纠纷。 备份和存储之间的区别 在我们讨论可用的不同类型的网络存储之前,有必要回到我们之前讨论过的主题。从表面上看,站点备份和网站存档看起来很相似。然而,他们有不同的工作,可以互补。简而言之: 备份是数据驱动的。他们对保留您网站的数据更感兴趣。由于如果您需要恢复站点,备份至关重要,因此完整的数据备份至关重要。 档案保存了与数据相关的上下文。如果您搜索您喜爱的网站的存档,您会发现功能通常不一致。然而,网站设计和静态内容通常完好无损。 值得注意的是,归档似乎并不能完全避免数据保留工作。事实上,优点之一是允许用户像实时浏览您的网站一样。即便如此,由于像 Wayback Machine 这样的网站作为虚拟“内存通道”存在,因此保持图像完整比保留后端功能具有更高的优先级。
为了找出像 Wayback Machine 这样的解决方 电话号码清单 案存在的原因,我们需要回到 2000 年代初。互联网泡沫几乎破裂;许多公司即将破产。一些受欢迎的网站被关闭或废弃,留下的记忆所剩无几。 与互联网出现之前的其他媒体(例如音乐和电视)一样,这些网站具有历史和怀旧价值。拯救它们意味着让未来的互联网用户了解我们离以前的技术有多远。 互联网档案馆推出了 Wayback Machine 来帮助保存网站。如果某个网站已存档在那里,您可以看到它多年来的演变情况。 归档网站需要许多爬虫,包括可能需要数年才能完成的巨大的单独爬行。执行这些爬行“任务”并将生成的快照存档所需的工作量是巨大的。 例如, Wayback Machine 的第一个 100 TB 服务器于 2004 年上线。截至 2020 年底,Wayback Machine 已存储超过70 PB 的数据。超过 70,000 TB。 然而,并不是每个人都对互联网档案馆所做的工作感到满意。基于网站档案侵犯现有版权问题的事实,已经有一些讨论和法律挑战。 然而,鉴于保存的档案数量急剧增长,人们明显希望保存网站。 为什么要存档网站 想要存档网站的原因有很多,不仅仅是怀旧的原因。对于现实世界的类比,请查看 GitHub。 GitHub 的基础设施与互联网档案馆非常相似。
的基础设施与互联网档案馆非常相似。 Github 存储项目的存储库以及所做的每一次提交。与互联网存储相比,存储库代表整个存档,提交是快照。 如果Git 存储库很有价值,那么存档也很有价值。例如,您可以查看网站的先前版本(甚至是许多年前的版本),以指导您当前的设计选择。 此外,法律可能要求您存档您的网站,特别是如果您从事金融或法律行业。 最后,如果您不幸卷入涉及您网站的争议,这些档案将是宝贵的证据。如果您能提供清晰、完整的现场记录,即使在法院介入之前,您也可以避免纠纷。 备份和存储之间的区别 在我们讨论可用的不同类型的网络存储之前,有必要回到我们之前讨论过的主题。从表面上看,站点备份和网站存档看起来很相似。然而,他们有不同的工作,可以互补。简而言之: 备份是数据驱动的。他们对保留您网站的数据更感兴趣。由于如果您需要恢复站点,备份至关重要,因此完整的数据备份至关重要。 档案保存了与数据相关的上下文。如果您搜索您喜爱的网站的存档,您会发现功能通常不一致。然而,网站设计和静态内容通常完好无损。 值得注意的是,归档似乎并不能完全避免数据保留工作。事实上,优点之一是允许用户像实时浏览您的网站一样。即便如此,由于像 Wayback Machine 这样的网站作为虚拟“内存通道”存在,因此保持图像完整比保留后端功能具有更高的优先级。