统计了1000个中文独立博客,我算出了他们的“腐烂率”
数据来源:https://github.com/saveweb/rss-list
总计:965个博客
托管于 Github Page 的博客:182个(不包含使用了 CDN 代理 Github Page 的博客)
腐烂的博客数:113个(不管网站是否删过内容,换过域名,只要博客主体存在,就不算腐烂)
统计持续时间:17个月
中文独立博客定义:
    - 包含:独立域名 和 eu.org、github.io、gitlab.io、gitee.io 的三级域名。
    - 不包含:wordpress.com、网易博客、blogger.com 等的三级域名。

经过简单计算,中文独立博客的年站点腐烂率为8.41% ,换句话说,每年约有8%的中文博客会消失(被其他网站采集,如 archive.org,也算消失)。

965(1-x)^((17)/(12))=965-113

以此类推,现在这一批中文独立博客在不到8年之后,会有 50% 消失——半衰期是8年。但互联网日新月异,未来腐烂率的数值是多少谁也说不准。

0.91584175^(x)=0.5

不过中文独立博客的年链接腐败率暂时难以量化统计(需分析收集到的59447个博文链接,要花上一些时间,有时间我会统计一下),但只会比站点年腐烂率更高。因为很多博客会出现数据库丢失、更换域名、博主主动删除文章、迁移博客程序等一系列导致永久链接失效的情况。所以我主观估计中文独立博客的年链接腐败率在 20~30% 左右。

同时,我们发现越来越多的中文博客选择使用静态博客程序并托管到 Github、Gitlab、Cloudflare 等 Pages 服务上,这一趋势无疑对减小腐烂率有益。且用户友好的低技术托管平台有助于中文独立博客数量的提升(网上一堆静态博客入门教程)。但需要指出的是,选择 Pages 服务托管静态网站本质上和选择 Blogspot、 Wordpress.com 等第三方博客托管平台并无区别,仍然面临平台倒闭或事故导致数据丢失的集中隐性风险(假如 Github Page 现在停止服务,我们将瞬间丢失至少 20% 的中文独立博客)。

而短期来看,自托管(self-host)博客仍然是风险、成本、技术要求较高的选项,比集中化的平台更容易发生链接腐烂的情况。


优质中文独立博客的年化“腐烂率”

「十年之约」项目有较高的博客收录要求

生活记录类:需已建立 一年以上,并有15篇以上的文章,其中原创文章占 75%以上。
学习记录类:需已建立 一年以上,并有30篇以上的文章,其中原创文章占 60%以上。

所以他们的数据一定程度上能代表高质量中文独立博客的情况。

我从「十年之约」管理员那里得到了他们的数据:

2017-08-31-2022-02-05,总收录量999,异常量149。
注:149个异常博客中有相当一部分是因为网站内容问题被标记异常,而不是网站关闭。

算出来「十年之约」收录博客的年腐烂率约为 3.5%,但考虑到异常的博客不一定是关战的博客,且高质量博客有更大概率会“复活”,实际腐烂率会低于计算值。所以,优质中文独立博客的平均寿命比一般博客更长,“保鲜度”更好!


Update - 20230306:

时隔一年,因为 saveweb/review-2021 项目,所以现在有机会测量博客文章级别的腐烂率了,以下是结果:

总计:196篇

404:13
托管服务未续费:1
域名无解析/域名过期/ping不通:10
ssl过期:1

其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。

计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。