实验遇到点问题,遂搜索之,然后发现,不同的搜索结果,点进去很可能是相同的内容。
比较过分的一个网站,把小木虫的帖子全盘复制过去,内容、评论、甚至评论者的名称都是一样的。
我相信很多人也见过以下类似的网站:
●
网站内容中的图片都无法显示或者统一显示为一张相同图片,因为被复制的网站图片防盗链了。
●
找到一篇较新发布的技术文章,但内容却是错误或者无效的,或者是针对几年前的旧版本的。这些文章都是直接简单的复制粘贴,都没亲自试一下或者仔细求证,甚至全文都没看一遍。
●
网页内容里有一些特殊格式或者标签的符号,或者有一段段的版权声明。复制或者爬取后也不仔细看看,导致正文夹杂很多“[*]”之类的内容或者不断重复的不相关语句,影响阅读。
也见过几个博主抱怨文章被人抄袭,连个署名都不留。其实,我以前也发现过自己的博文被某站复制了几篇,显然是爬虫自动抓取的,因为一个将自己标榜为技术类的网站,你抓我生活日记类的文章干嘛?当然,后来那个站,打不开了。
而这些简单复制的网站,大都有一个共同目的:以最少的投入获得尽可能多的索引量和访客数。
抛开不尊重原创或者版权的错误,我觉得这种完全复制的内容是无意义的,它们只会导致互联网重复率提高,甚至浪费访客的时间,想想看,一页搜索结果,打开后全是相同的内容,是什么感觉?
记得以前看过一个统计,说互联网流量的很大一部分是机器爬虫产生的,我想,互联网内容的很大一部分也来源于复制吧?
现在在百度想找点自己想要的东西,实不容易。
是啊,看半天,找不到有用的。
回到当年yahoo人工干预的年代,这些采集站就没什么活路了.
嗯,信息爆炸式增长的过程中,垃圾信息也多了。
这样的事情很多呀,已经见怪不怪了。
嗯,太常见,都习以为常了。
最烦的就是有什么问题想百度一下,满屏都是差不多的东西,真正有用的挤在大后面去了。
哈哈,这个问题百度貌似更严重。
咦,你们都是怎么发现自己的文章被盗取的呢?
我也就是搜搜看的时候发现的。
网络上版权不好维护,有些转载还是能传播开的,毕竟每个人的生活方式都不一样,还有很多人搜索都懒得用的呢。
确实不好维护,所以才这么严重嘛。
最近也遇到一个全盘拷贝的,连博客名称都给搬过去了。
嗯,这种事太常见了。
哎,互联网就这样,复制来复制去的。
我当年见过两个博客,所有内容都是我的日记……
我觉得这种的都是自动抓取,而后我真不知道创立者怎么想的,就不能“说自己的话”吗?
哈哈,下次服务器挂了,就用那俩博客,你的镜像站啊。
生活方面的博客还是原创的比较好,不过遇到特别好的文章还是可以转载的,不过还是要留下版权之类的
嗯,当然可以转载一点,但最好要适度。
有用的资料被多复制扩散也好,毕竟有时候未必能搜到最初的出处。
如果没有重复的,最初的出处也就好找了~