重复的互联网

实验遇到点问题，遂搜索之，然后发现，不同的搜索结果，点进去很可能是相同的内容。

比较过分的一个网站，把小木虫的帖子全盘复制过去，内容、评论、甚至评论者的名称都是一样的。

我相信很多人也见过以下类似的网站：
●
网站内容中的图片都无法显示或者统一显示为一张相同图片，因为被复制的网站图片防盗链了。
●
找到一篇较新发布的技术文章，但内容却是错误或者无效的，或者是针对几年前的旧版本的。这些文章都是直接简单的复制粘贴，都没亲自试一下或者仔细求证，甚至全文都没看一遍。
●
网页内容里有一些特殊格式或者标签的符号，或者有一段段的版权声明。复制或者爬取后也不仔细看看，导致正文夹杂很多“[*]”之类的内容或者不断重复的不相关语句，影响阅读。

也见过几个博主抱怨文章被人抄袭，连个署名都不留。其实，我以前也发现过自己的博文被某站复制了几篇，显然是爬虫自动抓取的，因为一个将自己标榜为技术类的网站，你抓我生活日记类的文章干嘛？当然，后来那个站，打不开了。

而这些简单复制的网站，大都有一个共同目的：以最少的投入获得尽可能多的索引量和访客数。

抛开不尊重原创或者版权的错误，我觉得这种完全复制的内容是无意义的，它们只会导致互联网重复率提高，甚至浪费访客的时间，想想看，一页搜索结果，打开后全是相同的内容，是什么感觉？

记得以前看过一个统计，说互联网流量的很大一部分是机器爬虫产生的，我想，互联网内容的很大一部分也来源于复制吧？

本文共有64条评论

现在在百度想找点自己想要的东西，实不容易。

启福说道：

2015年5月19日 22:07

是啊，看半天，找不到有用的。

回复

回到当年yahoo人工干预的年代,这些采集站就没什么活路了.

启福说道：

2015年5月19日 22:08

嗯，信息爆炸式增长的过程中，垃圾信息也多了。

回复

这样的事情很多呀，已经见怪不怪了。

启福说道：

2015年5月19日 22:09

嗯，太常见，都习以为常了。

回复

最烦的就是有什么问题想百度一下，满屏都是差不多的东西，真正有用的挤在大后面去了。

启福说道：

2015年5月19日 22:09

哈哈，这个问题百度貌似更严重。

回复

咦，你们都是怎么发现自己的文章被盗取的呢？

启福说道：

2015年5月21日 20:47

我也就是搜搜看的时候发现的。

回复

网络上版权不好维护，有些转载还是能传播开的，毕竟每个人的生活方式都不一样，还有很多人搜索都懒得用的呢。

启福说道：

2015年5月21日 20:48

确实不好维护，所以才这么严重嘛。

回复

最近也遇到一个全盘拷贝的，连博客名称都给搬过去了。

启福说道：

2015年5月21日 20:49

嗯，这种事太常见了。

回复
1. 夏日博客说道：
  
  2015年5月30日 16:43
  
  哎，互联网就这样，复制来复制去的。
  
  回复

我当年见过两个博客，所有内容都是我的日记……

我觉得这种的都是自动抓取，而后我真不知道创立者怎么想的，就不能“说自己的话”吗？

启福说道：

2015年5月21日 20:50

哈哈，下次服务器挂了，就用那俩博客，你的镜像站啊。

回复

生活方面的博客还是原创的比较好，不过遇到特别好的文章还是可以转载的，不过还是要留下版权之类的

启福说道：

2015年5月23日 12:34

嗯，当然可以转载一点，但最好要适度。

回复

有用的资料被多复制扩散也好，毕竟有时候未必能搜到最初的出处。

启福说道：

2015年5月23日 12:33

如果没有重复的，最初的出处也就好找了~

回复

启福