临沂百度公司对百度引擎内容处理和索引方法的分析（一）

您现在的位置：摘星网络_临沂网站建设优化 > 网站建设 > 临沂网站优化 >

众所周知，百度还是喜欢文字的，那么，百度对内容处理和索引有什么规律和方法呢？现在，临沂百度公司对百度引擎内容处理和索引方法的分析。

       一、提取文字
       现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到页面中的HTML代码，除了用户在浏览器上可以看到的可见文字外，还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序，提取出可以用于排名处理的网页面文字内容。

       二、中文分词
       中文分词是中文搜索引擎特有的步骤，中文词与词之间没有任何分隔符，一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词，哪些字本身就是一个词。中文分词方法有两种，一种是基于词典匹配，另一种是基于统计。

      基于词典匹配的方法是指，将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。基于统计的分词方法指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。

     基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义。在实际使用中，分词系统是混合使用两种方法的。搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏，而不是取决于页面本身如何，所以SEO人员对分词所能做的很少。SEO人员唯一能做的是在页面上用某种形式提示搜索引擎，某几个字应该被当作一个词处理，尤其是可能产生歧义的时候，比如在页面标题、H标签及黑体中出现关键词。

临沂seo对百度内容处理和索引方法的分析（一）

      三、去除停止词
      无论是英文还是中文，页面内容中部会有一些出现频率很高，却对内容没有任何影响的词。如“的”“地”“得”之类的助词，“啊”“哈”“呀”之类的感叹词，“从而”“以”“却”之类的副词或介词。英文中的常见停止词有也e、a、an、to、of等。这些词被称为停止词，因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

      四、消除噪声
      噪声并不是指网页中的嗜杂的声音，而是指页面上对页面主题没有贡献的内容，比如版权声明文字、导航条、广告等，这些内容对页面主题只能起到分散作用。因此搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后，剩下的才是页面主体内容。

上一篇：2017年啥样的网站才受搜索引擎的喜爱？

下一篇：临沂百度公司