重复的互联网

实验遇到点问题,遂搜索之,然后发现,不同的搜索结果,点进去很可能是相同的内容。

比较过分的一个网站,把小木虫的帖子全盘复制过去,内容、评论、甚至评论者的名称都是一样的。

我相信很多人也见过以下类似的网站:

网站内容中的图片都无法显示或者统一显示为一张相同图片,因为被复制的网站图片防盗链了。

找到一篇较新发布的技术文章,但内容却是错误或者无效的,或者是针对几年前的旧版本的。这些文章都是直接简单的复制粘贴,都没亲自试一下或者仔细求证,甚至全文都没看一遍。

网页内容里有一些特殊格式或者标签的符号,或者有一段段的版权声明。复制或者爬取后也不仔细看看,导致正文夹杂很多“[*]”之类的内容或者不断重复的不相关语句,影响阅读。

也见过几个博主抱怨文章被人抄袭,连个署名都不留。其实,我以前也发现过自己的博文被某站复制了几篇,显然是爬虫自动抓取的,因为一个将自己标榜为技术类的网站,你抓我生活日记类的文章干嘛?当然,后来那个站,打不开了。

而这些简单复制的网站,大都有一个共同目的:以最少的投入获得尽可能多的索引量和访客数。

抛开不尊重原创或者版权的错误,我觉得这种完全复制的内容是无意义的,它们只会导致互联网重复率提高,甚至浪费访客的时间,想想看,一页搜索结果,打开后全是相同的内容,是什么感觉?

记得以前看过一个统计,说互联网流量的很大一部分是机器爬虫产生的,我想,互联网内容的很大一部分也来源于复制吧?

随便看看

本文共有64条评论

  1. 转载的文章有错,然后原作者改了,转载的人没改,而后继续被他人转载,然后网上全是错误的东西。要是转载者的权重高,哈哈,结果可以预见。

  2. 复制、采集行为是很不道德的,这别人做婊子又要立牌坊一个样,这种情况其实我也很痛恨的。看不起这些人,真的。

  3. 网络上没有道德规范,有道德规范也没人遵守。对于被采集这件事,能投诉就投诉,不能投诉也只好由他去了。

你好,哪位? 填写