Invent

临沂百度公司对百度引擎内容处理和索引方法的分析(一)

您现在的位置: 摘星网络_临沂网站建设优化 > 网站建设 > 临沂网站优化 >

  众所周知,百度还是喜欢文字的,那么,百度对内容处理和索引有什么规律和方法呢?现在,临沂百度公司对百度引擎内容处理和索引方法的分析。

       一、提取文字
       现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。

       二、中文分词
       中文分词是中文搜索引擎特有的步骤,中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。中文分词方法有两种,一种是基于词典匹配,另一种是基于统计。

      基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。
    
     基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。在实际使用中,分词系统是混合使用两种方法的。搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。SEO人员唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、H标签及黑体中出现关键词。


临沂seo对百度内容处理和索引方法的分析(一)

      三、去除停止词
      无论是英文还是中文,页面内容中部会有一些出现频率很高,却对内容没有任何影响的词。如“的”“地”“得”之类的助词,“啊”“哈”“呀”之类的感叹词,“从而”“以”“却”之类的副词或介词。英文中的常见停止词有也e、a、an、to、of等。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

      四、消除噪声
      噪声并不是指网页中的嗜杂的声音,而是指页面上对页面主题没有贡献的内容,比如版权声明文字、导航条、广告等,这些内容对页面主题只能起到分散作用。因此搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。