百度判断原创内容的机制
来源:实搜网络 2013-11-07
首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;
其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;
最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
百度如何判断内容相似,是根据上下文意思,根据所表达的中心思想,还是文字的相似。
如果是根据表达的主题,那很多内容,不同的人所写,内容不同,但是主题相同,是不是也被当成相似呢;
如果是文字的相似,那传说中,将原先内容,通过自己的话,再写一次,是不是就成了原创呢;
如果是上下文,那对文章重新组合,再替换关键词,例如许多伪原创工具,是不是也很独特呢?
当然,任何一种算法,都会考虑,N种可能,Q猪的观点,任何一种原创,都必须要有自己独特的观点在里面,要有自己独特的视角,一篇文章中,属于本人的原创观点,要占最重要的位置。
判断原创的几个重要步骤
判断原创,有几个比较重要的因素。
a、作者、发布时间
分析:网络上大部分抄袭的、复制的内容,作者都是改过的,不是原文作者。还有发布时间,互联网上数以亿计的网页内容,搜索引擎不可能实时监控所有的网站,爬完所有的内容,精确记录文章发布的时间。
所以这两因素不是很靠谱,当然很多网站,特别是博客,有显示发布时间,但是,这也不能太当真,是吧。
b、链接指向
分析:其实,对于做网络优化SEO的人员来说,做好网站内部的链接,是一项最基本的工具。
你写一篇文章,在提到一个内容的时候,比如说到网络结构优化,然后就将链接链接做向前面写过的文章:如何制作合理的网站结构。如果文章中讲到石榴算法,那就直接连向:石榴算法,百度对低质量页面说不。
在一篇文章中,拥有很完善的链接体系,也是作为原创文章的一个判断标准,至少说明对文章内容很用心。
c、用户评论
分析:用户评论可以丰富文章的内容,对用户具有更强的引导性和参考性,搜索引擎的目的是为用户提供检索服务,引到用户,进入最有价值的网页中。
一篇文章有大量的评论,在一定程度上也说明了文章的受欢迎程度,在后面的排序中可以获得好的排名。
d、作者和站点的历史原创情况、转发轨迹
分析:这个判断原创的出发点,就是考虑出身,试想一下,网站中,绝大部分的内容都是采集、复制、转载而来的,那么对于这个网站内的其他内容,在判断原创时,就会被打上不信任的标签。
综合上面的观点,网站内容需要坚持原创、鼓励用户评论、明确作者、发布时间,同时,更重要的一点,所有内容无论是原创还是转载,都坚持标明原出处,这是为网站在搜索引擎内赢得信任投票。
实搜网络为您提供网络推广,网络营销,网站建设,SEO优化,微信开发,网站托管等服务,服务热线:0311-66697360