360算法 – 360搜索ICO算法在线解读

360搜索ICO算法,简单通俗的来说就是处理重复内容的一种算法,360搜索有了百度的前车之鉴,360搜索逐渐强大起来后,也公布了每一次的算法的改动,主要索引低质量URL和无效URL进行清理,在不同阶段内会对无效类型的数据进行清理,这种重复内容的算法是一种长期执行的算法。

360搜索ICO算法,于2014年5月30日正式上线,(ICO 全称:Index clear optimize)该算法是一个长期执行的算法。对已经入索引库的低质量URL和无效URL数据进行清理的算法,在不同的阶段会对不同类型的无效数据进行清理。

清理对象:ICO算法主要是针对重复内容进行清理,(其中包括小说采集类型网站)对于用户来说一些没有价值的或者价值不高的内容页面,也包括时效性很强烈并且已经过期的页面。例如:2010年的招聘信息、以及一些旧的时间很久的新闻页面等等,这其中也包括url不符合规范包含了多个无效参数等情况。

算法公布规范:一次清理超过10亿页面的算法360搜索都将提前公布告知站长,并告知算法优化处理的主要方向。

处理量级:10亿以上

处理网页特点:该算法主要是针对重复内容进行清理,对用户没有价值的内容页面,内容时效性强且过期的页面,采集站类,URL地址含有无效参数的页面等。

例如:招聘类网站不同子站中内容相同的页面,小说采集站尤其处理对用户无价值的页面,旧新闻页且内容重复的页面也会处理一部分,以及其他的部分无效页面。

本文由 学习链 作者:学习链 发表,其版权均为 学习链 所有,文章内容系作者个人观点,不代表 学习链 对观点赞同或支持,未经许可,禁止转载,题图来自Unsplash,基于CC0协议。

发表评论