`
cloudtech
  • 浏览: 4609582 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

两个概念模型及算法之间的关系

 
阅读更多

两个概念模型及算法之间的关系

在介绍具体链接分析算法之前,首先介绍两个概念模型,并对各个链接分析算法之间的关系进行说明,这样有助于读者从宏观角度理解各个算法的基本思路与传承关系。

随机游走模型(Random Surfer Model)

互联网用户在上网时,往往有类似的网络行为:输入网址,浏览页面,然后顺着页面的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。之所以要建立这个抽象概念模型,是因为包括PageRank 算法在内的很多链接分析算法都是建立在随机游走模型基础上的。

图 6-4 给出了随机游走模型的示意图。在最初阶段,用户打开浏览器浏览第1 个网页,假设我们有一个虚拟时钟用来计时,此时可以设定时间为1,用户在看完网页后,对网页内某个链接指向的页面感兴趣,于是点击该链接,进入第2 个页面,此时虚拟时钟再次计时,时钟走向数字2,如果网页包含了k 个出链,则用户从当前页面跳转到任意一个链接所指向页面的概率是相等的。用户不断重复以上过程,在相互有链接指向的页面之间跳转。如果对于某个页面所包含的所有链接,用户都没有兴趣继续浏览,则可能会在浏览器中输入另外一个网址,直接到达该网页,这个行为称为远程跳转(Teleporting)。假设互联网中共有m 个页面,则用户远程跳转到任意一个页面的概率也是相等的,即为1/m。随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。

下面我们给出一个具体的随机游走模型的例子,为简单起见,该例子并未引入远程跳转行为。

在如图 6-5 所示的例子里,假设互联网由A、B、C 3 个网页构成,其相互链接关系如图中页面节点之间的有向边所示。根据链接关系,即可计算页面节点之间的转移概率,比如对于节点A 来说,只有唯一一个出链指向节点B,所以从节点A 跳转到节点B 的概率为1,对于节点C 来说,其对节点A 和B 都有链接指向,所以转向任意一个其他节点的概率为1/2。

假设在时刻1,用户浏览页面A,之后经由链接进入页面B,然后进入页面C,此时面临两种可能选择,跳转进入页面 A 或者页面B 皆可,两者概率相同,都为1/2。

假设例子中的互联网包含不止 3 个页面,而是由10 个页面构成,此时用户既不想跳回页面A,也不想跳回页面B,则可以按照1/10 的概率跳入其他任意一个页面,即进行远程跳转。

子集传播模型

子集传播模型是从诸多链接分析算法中抽象出来的概念模型(参见图6-6)。其基本思想是在做算法设计时,把互联网网页按照一定规则划分,分为两个甚至是多个子集合。其中某个子集合具有特殊性质,很多算法往往从这个具有特殊性质的子集合出发,给予子集合内网页初始权值,之后根据这个特殊子集合内网页和其他网页的链接关系,按照一定方式将权值传递到其他网页。

本章介绍的一些链接分析算法符合子集传播模型,比如HITS 算法和Hilltop 算法及其衍生算法,在“网页反”一章(第8 章)会看到更多符合此模型的链接分析算法。

子集传播模型是个高度抽象的算法框架,很多算法可以认为是属于此框架的具体实例,即整体思路如上面所描述的流程,通常在以下几个方面各自存在不同。

•如何定义特殊子集合,即在确定子集合内的网页应该有哪些特殊性质,具体算法

规则不同。

•在确定了特殊子集合所具有的性质后,如何对这个特殊子集合内网页给予一定的

初始分值?不同算法打分方式各异。

•从特殊子集合将其分值传播到其他网页时,采取何种传播方式?可传播的距离有

多远?不同算法在此阶段也大都有差异。

注意:子集传播模型是本书作者从具体链接分析算法中归纳出的抽象模型,未见有文献明确提出,请读者阅读时谨慎参考。

链接分析算法之间的关系

到目前为止,学术界已经提出了很多链接分析算法,图6-7 列出了其中影响力较大的一些算法及其相互关系,图中不同算法之间的箭头连接代表算法之间的改进关系,比如SALSA 算法即融合了PageRank 和HITS 算法的基本思路。其他算法所代表的关系与此类似,可在图中明显看出算法间的传承关系。

尽管链接算法很多,但是从其概念模型来说,基本遵循上述小节介绍的随机游走模型和子集传播模型。而从图中可看出,在众多算法中,PageRank 和HITS 算法可以说是最重要的两个具有代表性的链接分析算法,后续的很多链接分析算法都是在这两个算法基础上衍生出来的改进算法。

在本章后续章节中,将详细介绍PageRank 算法、HITS 算法、SALSA 算法、主题敏感PageRank 算法和Hilltop 算法。这些算法大都已被不同的商业搜索引擎所采用,在实际生活中发挥了很重要的作用。对于图6-7 所列出的其他链接分析算法,将在本章末尾简述其原理。

——本段文字节选自《这就是搜索引擎:核心技术详解》

图书详细信息:http://blog.csdn.net/broadview2006/article/details/7179396

分享到:
评论

相关推荐

    堆场作业的两个优化模型与算法1

    第一章,首先给出了组合优化问题的有关定义,接着介绍计算复杂性与近似算法及算法性能比等概念,最后对本文所研究的堆场作业中的两个优化问题进行了详细描述。第二章,主要

    论文研究-近似概念格及其增量构造算法研究.pdf

    该算法引入哈希技术和最近父节点的增量计算方法,从加速定位生成元和更新边这两个关键过程改进Godin算法。采用随机数据集设计实验,实验表明,改进的算法可有效提高对形式背景有缺值现象概念格的建格效率,尤其是对...

    论文研究-改进型多路径分配模型及算法设计.pdf

    针对现有的有效路径和有效路段两个概念存在的缺点 ,通过引入量化指标——临界相对差重新定义它们 ,对改进的多路径分配模型进行了深入探讨 ,并通过一个路网实例进行验证 ,...

    数据挖掘18大算法实现以及其他相关经典DM算法

    HITS算法是另外一个链接算法,部分原理与PageRank算法是比较相似的,HITS算法引入了权威值和中心值的概念,HITS算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。详细介绍链接 K-...

    论文研究-基于实体关系的犯罪网络识别机制.pdf

    实体关系抽取是数据挖掘和信息检索的重要研究内容,抽取的目标是发现数据集中两个不同实体之间的语义关系;犯罪网络是个小型的社会,具有社会化网络的特征,因此采用社会化网络的方法来分析犯罪网络中人物之间的关系...

    改进的量子进化算法

    前者的贡献在于将量子多宇宙的概念引入遗传算法,利用多个宇宙的并行搜索,增大搜索范围,利用宇宙之间的联合交叉,实现信息的交流,从而整体上提高了算法的搜索效率。但算法中的多宇宙是通过分别产生多个种群获得的...

    ngram模型分词与统计算法.zip_NGram 算法_ngram 分词_ngram模型分词与统计算法_n元模型_按n-gram

    N-Gram(有时也称为N元模型)...另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。

    论文研究-基因选择的0-1规划模型和算法.pdf

    从认知科学出发,讨论了G?rdenfors的概念空间理论,用云模型对概念空间进行了形式化研究。由于概念、属性中存在着大量的模糊性和不确定性,将云模型...用静态和动态两种不同的方法来验证基于云模型的概念空间的有效性。

    opencv-分水岭算法

    在每一个局部极小值表面,刺穿一个小孔,然后把整个模型慢慢浸入水中,随着浸入的加深,每一个局部极小值的影响域慢慢向外扩展,在两个集水盆汇合处构筑大坝,即形成分水岭。 分水岭的计算过程是一个迭代标注过程。...

    计算机系数据结构与算法设计.pptx

    这里面涉及到两个问题: 信息的表示 信息的处理 而信息的表示和组又直接关系到处理信息的程序的效率。随着计算机的普及,信息量的增加,信息范围的拓宽,使许多系统程序和应用程序的规模很大,结构又相当复杂。因此...

    论文研究-一种改进的流程图相似度检索算法及实现.pdf

    面对企业的大量业务流程管理问题,探究了基于Petri网对工作流模型的表达,对有向图邻接矩阵定义规则作了改进,成功地建立了描述流程模型间关系的邻接模型矩阵,对业务流程模型检索具有重要意义。在此基础上基于模糊...

    大数据算法十大经典算法.pdf

    PageRank这个概念引⾃学术中⼀篇论⽂的被引述的频度——即被别⼈引述的次数越多,⼀般判断这篇论⽂的权威性就越⾼。 七、AdaBoost Adaboost是⼀种迭代算法,其核⼼思想是针对同⼀个训练集训练不同的分类器(弱分类器...

    论文研究-改进的粒子群算法及其SVM参数优化应用.pdf

    从论域中各个元素之间所具有的客观关系出发,利用集值映射的原理在论域上得到一个覆盖,构造了一种新的覆盖粗糙集模型...同时,还提出了双覆盖的概念,研究了两个覆盖之间进行相互转换原理,得到了有意义的性质和结论。

    数学建模 云模型 全套资料

    数学建模 云模型 经典课件与实例源代码 ... 定性概念与定量描述的不确定转换模型 一、不确定性的两种最基本的形式 随机性和模糊性 主要包括随机性、模糊性、不完全性、不稳定性和不一致性这5 个方面。

    论文研究-模糊C均值聚类图像分割的改进遗传算法研究.pdf

    从降低整车厂采购费用和提高零部件供应商服务质量两个效益背反的因素出发,利用双层规划的博弈特点建立模型对汽车零部件供应商选择问题进行定量分析,其中上层规划以整车厂采购总费用最小为目标,下层规划以供应商的...

    工业大数据分析综述:模型与算法

    模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型...

    分水岭算法matlab实现

    分水岭分割方法,是一种基于拓扑理论的...在每一个局部极小值表面,刺穿一个小孔,然后把整个模型慢慢浸入水中,随着浸入的加深,每一个局部极小值的影响域慢慢向外扩展,在两个集水盆汇合处构筑大坝,即形成分水岭。

    数字信号处理:理论、算法与实现 胡广书

    下篇是统计数字信号处理的内容,包括平稳随机信号的基本概念、经典功率谱估计、参数模型功率谱估计、维纳滤波器及自适应滤波器等。 《数字信号处理(附光盘理论算法与实现第3版研究生教学用书)》介绍了数字信号处理中...

    遗传算法+神经网络的简易版

    遗传算法(Genetic Algorithm,GA)和神经网络(Neural Network)是两种强大的计算方法,在某些情况下它们可以结合使用来解决复杂的问题,以下是遗传算法和神经网络结合的概念: 1. **遗传算法**: - 遗传算法是一...

    数据结构、算法与应用:C++语言描述(原书第2版)第二部分

    4.5.1 简单计算机模型 4.5.2 缓存未命中对运行时间的影响 4.5.3 矩阵乘法 4.6 参考及推荐读物 第二部分 数据结构 第5章 线性表——数组描述 5.1 数据对象和数据结构 5.2 线性表数据结构 5.2.1 抽象数据类型linear...

Global site tag (gtag.js) - Google Analytics