首页 » 成都SEO论坛 » SEO好文

搜索引擎重复内容理解处理机制

(只有1层楼)
  • 永久链接:http://yeeseo.com/discuss/topic/117
  • Yeeseo 发表于 6 个月前
  1. 众所周知,内容重复是搜索引擎优化中的一大忌,通常情况下转载的文章是很难获得高权重,所以站长们往往使用伪原创,以规避搜索引擎内容重复判定机制。下面是部分关于内容复制的信息图表,相信对各位会有所帮助。

    1. 博客的复制内容

      blog-duplicate-content-1

      上图主要针对博客这种网站媒体类型,我们使用Wordpress的时候经常将文章毫无保留地展示在首页,而不使用输出摘要的方式会被搜索引擎认为内容重复。

    2. URL引起的内容重复

      url-differences

      究竟URL参数像Session IDs,Tracking IDs是怎样引起内容重复的呢?Google Webmaster Central 透露,同一个产品页面,如果搜索引擎爬虫抓取可以通过多种链接途径抓取同一个产品页面,那样会有以下几种消极的影响:

      1. 多种URLs会稀释链接的广泛性。比如上图的产品页面,如果有50个导入链接,那有可能分别形成了3种导入URL途径,而不是唯一的某一个URL,这样就等于将导入链接传递的权重分散到3个不同的链接上。
      2. 搜索结果或许会呈现不友好的URL(比如一大串长长的session ID, tracking ID)。从而在SERP中,降低了用户对该页面的清晰了解程度,不利于品牌的塑造。

    3. 搜索引擎如何判定重复内容

      determine-duplicate-content.gif
      Origin: Search Engine Land

      一般来说搜索引擎通过4个步骤来识别内容属性:

      1. 发现。当搜索引擎爬虫发现新的内容,他会立刻与之前收录的内容进行比较确保内容的原创性。
      2. 丢弃。首先,搜索引擎会放弃收录那些来自链接工厂,MFA站点(Made For Adense)和被列入黑名单的IP的页面。
      3. 解剖。下一步就是分析每个页面的 入站链接,判断链接的质量和源头。
      4. 决定。最后就是回顾之前收录的页面和相关链接,决定哪一个页面才是绝对原创。
    4. 关键词强调

      keyword-cannibalization

      搜索引擎会蜘蛛顺着网站的某一个页面爬行至4个或者40个不同的页面,而这种行为一般是通过该页面的相关内容链接进行爬行抓取(比如上图的“滑雪板),很多朋友希望通过将众多页面相互关联起来即使相互之前没有关联性,一个站点的许多页面过度使用同一个关键词,从而为了提高排名。但是事实上,这种行为对于排名是帮助不大的。

    5. 内容相关而非相似页面

      duplicate-interlinking

      这里不同在于不是仅仅通过“滑雪板”而是通过各种各样,有价值且唯一的关键词(比如折扣滑雪板,小孩滑雪板等)链接到原来的内容上。这样搜索引擎就可以很容易确定该页面与其他页面的相关性极强,这不仅仅基于搜索引擎友好性,更是考虑到用户体验与网站未来的信息架构。

    6. Canonical属性

      canonical-solution

      canonical-url-for-categories

      其实上面两幅图都涉及到一个问题,那就是网址规范化,Canonical属性是解决多URL形式导致页面重复的最佳方法(百度除外)。


    原文来自:http://semwatch.org/2010/01/duplicate-content-infographics,本处略有删节。

    发表于 6 个月前 #

回复

您需要 登录 才能发帖