重复的互联网

实验遇到点问题,遂搜索之,然后发现,不同的搜索结果,点进去很可能是相同的内容。

比较过分的一个网站,把小木虫的帖子全盘复制过去,内容、评论、甚至评论者的名称都是一样的。

我相信很多人也见过以下类似的网站:

网站内容中的图片都无法显示或者统一显示为一张相同图片,因为被复制的网站图片防盗链了。

找到一篇较新发布的技术文章,但内容却是错误或者无效的,或者是针对几年前的旧版本的。这些文章都是直接简单的复制粘贴,都没亲自试一下或者仔细求证,甚至全文都没看一遍。

网页内容里有一些特殊格式或者标签的符号,或者有一段段的版权声明。复制或者爬取后也不仔细看看,导致正文夹杂很多“[*]”之类的内容或者不断重复的不相关语句,影响阅读。

也见过几个博主抱怨文章被人抄袭,连个署名都不留。其实,我以前也发现过自己的博文被某站复制了几篇,显然是爬虫自动抓取的,因为一个将自己标榜为技术类的网站,你抓我生活日记类的文章干嘛?当然,后来那个站,打不开了。

而这些简单复制的网站,大都有一个共同目的:以最少的投入获得尽可能多的索引量和访客数。

抛开不尊重原创或者版权的错误,我觉得这种完全复制的内容是无意义的,它们只会导致互联网重复率提高,甚至浪费访客的时间,想想看,一页搜索结果,打开后全是相同的内容,是什么感觉?

记得以前看过一个统计,说互联网流量的很大一部分是机器爬虫产生的,我想,互联网内容的很大一部分也来源于复制吧?

随便看看

本文共有64条评论

  1. 网络上版权不好维护,有些转载还是能传播开的,毕竟每个人的生活方式都不一样,还有很多人搜索都懒得用的呢。

  2. 我当年见过两个博客,所有内容都是我的日记……

    我觉得这种的都是自动抓取,而后我真不知道创立者怎么想的,就不能“说自己的话”吗?

  3. 生活方面的博客还是原创的比较好,不过遇到特别好的文章还是可以转载的,不过还是要留下版权之类的

你好,哪位? 填写