0571-88730320

【搜索引擎营销】了解搜索引擎营销概述(2)

【搜索引擎营销】了解搜索引擎营销概述(2)

发布时间:2020-03-21 12:10:00

1、 搜索引擎的工作原理搜索引擎的工作原理非常复杂,大致可以分为三个阶段:爬行和抓取、预处理和排序。爬行和爬行是搜索引擎工作的***步...

如果您有类似需求请致电

17742004931 , 0571-88730320

1、 搜索引擎的工作原理

搜索引擎的工作原理非常复杂,大致可以分为三个阶段:爬行和抓取、预处理和排序。

爬行和爬行是搜索引擎工作的***步,即在Internet上查找和收集web信息,同时提取信息并建立索引数据库。

(1) 蜘蛛指的是一种程序或脚本,自动爬行和抓取网络信息。它主要用于浏览信息,然后将信息抓取到搜索引擎服务器上建立索引数据库。常见的蜘蛛包括百度蜘蛛、谷歌蜘蛛和搜狗蜘蛛。

(2) 跟踪链接:为了捕获更多的链接,蜘蛛会跟踪页面上的链接,从一个页面到另一个页面,就像蜘蛛在web上爬行一样。蜘蛛爬行有两种策略:深度优先搜索和广度优先搜索。

深度优先搜索:蜘蛛沿着找到的链接爬行,直到没有更多的链接。然后返回到***页,沿着另一个链接一直往前走。

广度优先搜索:当一个蜘蛛在一个页面上发现多个链接时,它不会一直跟踪一个链接,而是在该页面上爬行所有一级链接,然后沿着在二级页面上找到的链接爬行到三级链接。

(3) 吸引蜘蛛:理论上,蜘蛛会自动抓取所有网页,但事实上,由于其他因素,它们无法完成网页。所以如果你想让网站有更多的记录,你需要找到吸引蜘蛛的方法。

(4) 地址库:为了避免蜘蛛重复爬行和爬行,搜索引擎将建立一个地址库来记录未被爬行的页面和被爬行的页面。地址库链接的主要来源如下。

(5) 文件存储:文件存储是将搜索引擎蜘蛛捕获的数据存储到原始页面数据库中。页面数据与用户浏览器获得的HTML完全相同。每个URL都有一个***的文档号。

(6) 爬行时检测内容:爬行器爬行和抓取文件时,会在一定程度上检测复制的内容。当他们在低权重的网站上遇到大量转载或复制的内容时,他们不会继续爬行。

2、预处理:由于搜索引擎数据库中网页较多,用户搜索后索引计算量过大,很难在短时间内返回搜索结果,因此必须对网页进行预处理。

(1) 提取文本:搜索引擎预处理需要做的***件事是从HTML文件中删除标记和程序,并提取网页的文本内容进行排名处理。

(2) 中文分词:中文单词之间没有分隔符。一个句子中的所有单词都是相连的。因此,搜索引擎首先应该区分哪些词是由一个词组成的,哪些词是一个词。汉语分词有两种方法,一种是基于词典匹配的分词方法,另一种是基于统计的分词方法。

a.将字典中的词与待分析的内容进行匹配,并将待分析的汉字扫描到词典中现有的条目中,表明匹配成功,或者可以说一个词被删掉。

B、 分析大量文本样本,计算相邻词的概率。相邻词的次数越多,就越有可能形成一个词。这种方法的优点是对生词的反应速度快,有助于消除歧义。

(3) 停止词:停止词是指在网页内容中频繁出现,但对内容没有影响的词,因为它们对网页内容没有实质性影响。搜索引擎在索引页面之前删除这些停止词。

(4) 消声:消声是指对页面主题没有贡献的内容,如版权公告、导航栏、广告等,只能在页面主题中起分散作用。因此,搜索引擎需要识别和消除这些噪声,并且在排名时不要使用噪声内容。

(5)去重复:搜索引擎不喜欢重复的内容,因此他们在索引和删除重复内容之前识别内容。这个过程可以称为“重复数据消除”。

(6) 正索引:经过文本提取、分词、消噪和重复数据消除,搜索引擎可以提取关键词,按照分词程序对关键词进行划分,并将页面转换成一组关键词,记录每个关键词的频率、格式、位置等权重信息。

(7) 倒排索引:如果搜索引擎只能倒排索引,则排名程序需要扫描所有索引数据库的文件,然后进行排名计算,因此计算量不能满足排名结果实时返回的要求,因此,搜索引擎需要将前向索引数据库重构为一个向导索引,并将文件到关键字的映射转换为关键字到文件的映射

(8) 链接关系计算:当前搜索引擎包含网页之间的信息流。搜索引擎抓取页面内容后,必须计算出页面上有哪些页面以及使用了哪些链接。由于网页和链接的数量庞大,链接关系和权重的计算需要较长的时间。

(9) 特殊文件处理:除了HTML文件外,搜索引擎通常还可以根据文本捕获和索引各种文件类型,如PDF、word、WPS、xls、PPT、txt文件等。

2、排名:

(1) 分析提交的搜索请求:用户在搜索引擎上提交搜索请求后,搜索引擎将详细分析该请求。(中文分词、反终止词、指令处理、拼写更正、集成搜索触发器)

(2) 文件匹配:对搜索词进行处理后,搜索结果是根据词设置的关键字。文件匹配阶段是查找包含所有搜索关键字的文件。通过倒排索引,可以快速完成文件。

(3) 初始子集过滤:为了快速满足用户的搜索需求,搜索引擎需要从所有相关页面中进行选择,只计算权重较高的页面返回给用户。这个过程是初始子集过滤。

(4) 相关性计算:选择初始子集后,需要计算子集页面中的关键字相关性。(关键字使用、链接和使用页面权重、关键字位置、关键字密度和关键字密度、关键字距离)

(5) 排名过滤与调整:选择匹配的文件子集并计算相关性后,基本确定网页的排名。之后,搜索引擎会进行一些算法处理,并稍微调整排名,其中最重要的是实施惩罚。

(6) 排名显示:所有排名确定后,排名程序调用原页面的标题标签、描述标签、快照日期等数据显示在页面上。

联系我们,谈您的需求

立即咨询