查看: 415|回复: 2

杏彩娱乐平台_杏彩娱乐平台注册登录_杏彩平台招商代理

[复制链接]

37

主题

37

帖子

376

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
376
发表于 2017-11-19 19:07:22 | 显示全部楼层 |阅读模式
杏彩娱乐平台_杏彩娱乐平台注册登录_杏彩平台招商代理





杏彩娱乐平台怎么样?杏彩娱乐提供杏彩娱乐平台注册登陆。杏彩娱乐集团成立于香港,在北京、上海及台北设有全资子公司,(以下简称杏彩娱乐)。杏彩娱乐并即将陆续在全球其他重要城市成立子公司和实验室,同时筹备建立癌症基金会。 杏彩娱乐结合美国及海峡两岸生物科学家团队,以脑癌权威杨文光博士及"血清干细胞之父"李政道博士为首,全面投入自体干细胞再生技术研究,为高端人群定制了改善亚健康、延缓衰老的生命力计划。而且拥有以吴宜蓁董事及总裁为首的管理团队及刘振玮董事长为首的顾问团队,团队力量全面覆盖到法律、金融、生物科技、管理、健康保健等多种领域。以“安全、有效、关怀”的文化理念服务于关注健康的高端客户人群及亚健康人士。 杏彩娱乐是生物科技领域尖端技术商业化的孵化器,拥有完整的经营与科研团队,为每一项国际认证的实验成果制定计划,让改变未来的生物技术真正服务于人类。 杏彩娱乐关注全球生物前沿科技,致力于尖端技术的商业化运作,是全球先驱的生物科技商业应用化平台。杏彩娱乐,让科学家成为您的生命状态理疗师。


杏彩娱乐平台官网主管分享:经典搜索核心算法:TF-IDF及其变种


从本周开始我们进入人工智能核心技术模块,本周我会集中讲解经典的搜索核心算法,今天先来介绍 TF-IDF 算法。

在信息检索(Information Retrieval)、文本挖掘(Text Mining)以及自然语言处理(Natural Language Processing)领域,TF-IDF 算法都可以说是鼎鼎有名。虽然在这些领域中,目前也出现了不少以深度学习为基础的新的文本表达和算分(Weighting)方法,但是 TF-IDF 作为一个最基础的方法,依然在很多应用中发挥着不可替代的作用。


了解和掌握 TF-IDF 算法对初学者大有裨益,能够帮助初学者更快地理解其它更加深入、复杂的文本挖掘算法和模型。今天我就来谈谈 TF-IDF 的历史、算法本身的细节以及基于 TF-IDF 的几个变种算法。


TF-IDF 的历史


把查询关键字(Query)和文档(Document)都转换成“向量”,并且尝试用线性代数等数学工具来解决信息检索问题,这样的努力至少可以追溯到 20 世纪 70 年代。


1971 年,美国康奈尔大学教授杰拉德·索尔顿(Gerard Salton)发表了《SMART 检索系统:自动文档处理实验》(The SMART Retrieval System—Experiments in Automatic Document Processing)一文,文中首次提到了把查询关键字和文档都转换成“向量”,并且给这些向量中的元素赋予不同的值。这篇论文中描述的 SMART 检索系统,特别是其中对 TF-IDF 及其变种的描述成了后续很多工业级系统的重要参考。


1972 年,英国的计算机科学家卡伦·琼斯(Karen Spärck Jones)在《从统计的观点看词的特殊性及其在文档检索中的应用》(A Statistical Interpretation of Term Specificity and Its Application in Retrieval) 一文中第一次详细地阐述了 IDF 的应用。其后卡伦又在《检索目录中的词赋值权重》(Index Term Weighting)一文中对 TF 和 IDF 的结合进行了论述。可以说,卡伦是第一位从理论上对 TF-IDF 进行完整论证的计算机科学家,因此后世也有很多人把 TF-IDF 的发明归结于卡伦。


杰拉德本人被认为是“信息检索之父”。他 1927 年出生于德国的纽伦堡,并与 1950 年和 1952 年先后从纽约的布鲁克林学院获得数学学士和硕士学位,1958 年从哈佛大学获得应用数学博士学位,之后来到康奈尔大学参与组建计算机系。为了致敬杰拉德本人对现代信息检索技术的卓越贡献,现在,美国计算机协会 ACM(Association of Computing Machinery)每三年颁发一次“杰拉德·索尔顿奖”(Gerard Salton Award),用于表彰对信息检索技术有突出贡献的研究人员。卡伦·琼斯在 1988 年获得了第二届“杰拉德·索尔顿奖”的殊荣。


TF-IDF 算法详解


要理解 TF-IDF 算法,第一个步骤是理解 TF-IDF 的应用背景。TF-IDF 来源于一个最经典、也是最古老的信息检索模型,即“向量空间模型”(Vector Space Model)。


简单来说,向量空间模型就是希望把查询关键字和文档都表达成向量,然后利用向量之间的运算来进一步表达向量间的关系。比如,一个比较常用的运算就是计算查询关键字所对应的向量和文档所对应的向量之间的“相关度”。


因为有了向量的表达,相关度往往可以用向量在某种意义上的“相似度”来进行近似,比如余弦相似性(Cosine Similarity)或者是点积(Dot Product)。这样,相关度就可以用一个值来进行表达。不管是余弦相似度还是点积都能够从线性代数或者几何的角度来解释计算的合理性。


在最基本的向量空间模型的表达中,查询关键字或是文档的向量都有 V 维度。这里的 V 是整个词汇表(Vocabulary)的总长度。比如,我们如果有 1 万个常用的英文单词,那么这个 V 的取值就是 1 万,而查询关键字和每个文档的向量都是一个 1 万维的向量。 对于这个向量中的每一个维度,都表示英文中的一个单词,没有重复。


你可以看到,在这样的情况下,如果当前的词出现在这个向量所对应的文档或者关键字里,就用 1 来表达;如果这个词没出现,就用 0 来表达。这就是给每个维度赋值(Weighting)的最简单的方法。


TF-IDF 就是在向量空间模型的假设下的一种更加复杂的赋值方式。TF-IDF 最基础的模式,顾名思义,就是 TF 和 IDF 的乘积。


TF 其实是“单词频率”(Term Frequency)的简称。意思就是说,我们计算一个查询关键字中某一个单词在目标文档中出现的次数。举例说来,如果我们要查询“Car Insurance”,那么对于每一个文档,我们都计算“Car”这个单词在其中出现了多少次,“Insurance”这个单词在其中出现了多少次。这个就是 TF 的计算方法。


TF 背后的隐含的假设是,查询关键字中的单词应该相对于其他单词更加重要,而文档的重要程度,也就是相关度,与单词在文档中出现的次数成正比。比如,“Car”这个单词在文档 A 里出现了 5 次,而在文档 B 里出现了 20 次,那么 TF 计算就认为文档 B 可能更相关。


然而,信息检索工作者很快就发现,仅有 TF 不能比较完整地描述文档的相关度。因为语言的因素,有一些单词可能会比较自然地在很多文档中反复出现,比如英语中的“The”、“An”、“But”等等。这些词大多起到了链接语句的作用,是保持语言连贯不可或缺的部分。然而,如果我们要搜索“How to Build A Car”这个关键词,其中的“How”、“To”以及“A”都极可能在绝大多数的文档中出现,这个时候 TF 就无法帮助我们区分文档的相关度了。


IDF,也就是“逆文档频率”(Inverse Document Frequency),就在这样的情况下应运而生。这里面的思路其实很简单,那就是我们需要去“惩罚”(Penalize)那些出现在太多文档中的单词。


也就是说,真正携带“相关”信息的单词仅仅出现在相对比较少,有时候可能是极少数的文档里。这个信息,很容易用“文档频率”来计算,也就是,有多少文档涵盖了这个单词。很明显,如果有太多文档都涵盖了某个单词,这个单词也就越不重要,或者说是这个单词就越没有信息量。因此,我们需要对 TF 的值进行修正,而 IDF 的想法是用 DF 的倒数来进行修正。倒数的应用正好表达了这样的思想,DF 值越大越不重要。


在了解了 TF 和 IDF 的基本计算方法后,我们就可以用这两个概念的乘积来表达某个查询单词在一个目标文档中的重要性了。值得一提的是,虽然我们在介绍 TF-IDF 这个概念的时候,并没有提及怎么把查询关键字和文档分别表达成向量,其实 TF-IDF 算法隐含了这个步骤。


具体来说,对于查询关键字,向量的长度是 V,也就是我们刚才说过的词汇表的大小。然后其中关键字的单词出现过的维度是 1,其他维度是 0。对于目标文档而言,关键词出现过的维度是 TF-IDF 的数值,而其他维度是 0。在这样的表达下,如果我们对两个文档进行“点积”操作,则得到的相关度打分(Scoring)就是 TF-IDF 作为相关度的打分结果。


TF-IDF 算法变种


很明显,经典的 TF-IDF 算法有很多因素没有考虑。在过去的很长一段时间里,研究人员和工程师开发出了很多种 TF-IDF 的变种。这里我介绍几个经典的变种。


首先,很多人注意到 TF 的值在原始的定义中没有任何上限。虽然我们一般认为一个文档包含查询关键词多次相对来说表达了某种相关度,但这样的关系很难说是线性的。拿我们刚才举过的关于“Car Insurance”的例子来说,文档 A 可能包含“Car”这个词 100 次,而文档 B 可能包含 200 次,是不是说文档 B 的相关度就是文档 A 的 2 倍呢?其实,很多人意识到,超过了某个阈值之后,这个 TF 也就没那么有区分度了。


用 Log,也就是对数函数,对 TF 进行变换,就是一个不让 TF 线性增长的技巧。具体来说,人们常常用 1+Log(TF) 这个值来代替原来的 TF 取值。在这样新的计算下,假设“Car”出现一次,新的值是 1,出现 100 次,新的值是 5.6,而出现 200 次,新的值是 6.3。很明显,这样的计算保持了一个平衡,既有区分度,但也不至于完全线性增长。


另外一个关于 TF 的观察则是,经典的计算并没有考虑“长文档”和“短文档”的区别。一个文档 A 有 3,000 个单词,一个文档 B 有 250 个单词,很明显,即便“Car”在这两个文档中都同样出现过 20 次,也不能说这两个文档都同等相关。对 TF 进行“标准化”(Normalization),特别是根据文档的最大 TF 值进行的标准化,成了另外一个比较常用的技巧。


第三个常用的技巧,也是利用了对数函数进行变换的,是对 IDF 进行处理。相对于直接使用 IDF 来作为“惩罚因素”,我们可以使用 N+1 然后除以 DF 作为一个新的 DF 的倒数,并且再在这个基础上通过一个对数变化。这里的 N 是所有文档的总数。这样做的好处就是,第一,使用了文档总数来做标准化,很类似上面提到的标准化的思路;第二,利用对数来达到非线性增长的目的。


还有一个重要的 TF-IDF 变种,则是对查询关键字向量,以及文档向量进行标准化,使得这些向量能够不受向量里有效元素多少的影响,也就是不同的文档可能有不同的长度。在线性代数里,可以把向量都标准化为一个单位向量的长度。这个时候再进行点积运算,就相当于在原来的向量上进行余弦相似度的运算。所以,另外一个角度利用这个规则就是直接在多数时候进行余弦相似度运算,以代替点积运算。


小结


今天我为你讲了文档检索领域或者搜索领域里最基本的一个技术:TF-IDF。我们可以看到,TF-IDF 由两个核心概念组成,分别是词在文档中的频率和文档频率。TF-IDF 背后隐含的是基于向量空间模型的假设。


一起来回顾下要点:第一,简要介绍了 TF-IDF 的历史。第二,详细介绍了 TF-IDF 算法的主要组成部分。第三,简要介绍了 TF-IDF 的一些变种 。

最后,给你留一个思考题,如果要把 TF-IDF 应用到中文环境中,是否需要一些预处理的步骤?


杏彩娱乐平台官网主管分享:经典搜索核心算法:BM25及其变种


周一我们讲了 TF-IDF 算法和它的四个变种,相对于 TF-IDF 而言,在信息检索和文本挖掘领域,BM25 算法则更具理论基础,而且是工程实践中当仁不让的重要基线(Baseline)算法 。BM25 在 20 世纪 70 年代到 80 年代被提出,到目前为止已经过去二三十年了,但是这个算法依然在很多信息检索的任务中表现优异,是很多工程师首选的算法之一。


今天我就来谈谈 BM25 算法的历史、算法本身的核心概念以及 BM25 的一些重要变种,帮助你快速掌握这个信息检索和文本挖掘的利器。


BM25 的历史


BM25,有时候全称是 Okapi BM25,是由英国一批信息检索领域的计算机科学家开发的排序算法。这里的“BM”是“最佳匹配”(Best Match)的简称。

BM25 背后有两位著名的英国计算机科学家。第一位叫斯蒂芬·罗伯逊(Stephen Robertson)。斯蒂芬最早从剑桥大学数学系本科毕业,然后从城市大学(City University)获得硕士学位,之后从伦敦大学学院(University College London)获得博士学位。斯蒂芬从 1978 年到 1998 年之间在城市大学任教。1998 年到 2013 年间在微软研究院剑桥实验室工作。我们之前提到过,美国计算机协会 ACM 现在每三年颁发一次“杰拉德·索尔顿奖”,用于表彰对信息检索技术有突出贡献的研究人员。2000 年这个奖项颁给斯蒂芬,奖励他在理论方面对信息检索的贡献。BM25 可谓斯蒂芬一生中最重要的成果。


另外一位重要的计算机科学家就是英国的卡伦·琼斯(Karen Spärck Jones)。周一我们在 TF-IDF 的文章中讲过。卡伦也是剑桥大学博士毕业,并且毕生致力于信息检索技术的研究。卡伦的最大贡献是发现 IDF 以及对 TF-IDF 的总结。卡伦在 1988 年获得了第二届“杰拉德·索尔顿奖”。


BM25 算法详解


现代 BM25 算法是用来计算某一个目标文档(Document)相对于一个查询关键字(Query)的“相关性”(Relevance)的流程。通常情况下,BM25 是“非监督学习”排序算法中的一个典型代表。


顾名思义,这里的“非监督”是指所有的文档相对于某一个查询关键字是否相关,这个信息是算法不知道的。也就是说,算法本身无法简单地从数据中学习到相关性,而是根据某种经验法则来“猜测”相关的文档都有什么特质。


那么 BM25 是怎么定义的呢?我们先来看传统的 BM25 的定义。一般来说,经典的 BM25 分为三个部分:


单词和目标文档的相关性

单词和查询关键词的相关性

单词的权重部分


这三个部分的乘积组成某一个单词的分数。然后,整个文档相对于某个查询关键字的分数,就是所有查询关键字里所有单词分数的总和。


我们先从第一部分说起,即单词和目标文档的相关性。这里相关性的基本思想依然是“词频”,也就是 TF-IDF 里面 TF 的部分。词频就是单词在目标文档中出现的次数。如果出现的次数比较多,一般就认为更相关。和 TF-IDF 不同,BM25 最大的贡献之一就是挖掘出了词频和相关性之间的关系是非线性的,这是一个初看有违常理但细想又很有道理的洞察。


具体来说,每一个词对于文档相关性的分数不会超过一个特定的阈值。这个阈值当然是动态的,根据文档本身会有调整。这个特征就把 BM25 里的词频计算和一般的 TF 区分开了。也就是说,词频本身需要“标准化”(Normalization),要达到的效果是,某一个单词对最后分数的贡献不会随着词频的增加而无限增加。


那 BM25 里词频的标准化是怎么做的呢?就是某一个词的词频,除以这个词的词频加上一个权重。这个权重包含两个超参数(Hyper-parameter),这些超参数后期是可以根据情况手动调整的。这个做法在非监督的排序算法中很普遍。同时,这个权重还包括两个重要信息:第一,当前文档的长度;第二,整个数据集所有文档的平均长度。


这几个因素混合在一起,我们就得到了一个新的词频公式,既保证单词相对于文档的相关度和这个单词的词频呈现某种正向关系,又根据文档的相对长度,也就是原始长度和所有文档长度的一个比值关系,外加一些超参数,对词频进行了限制。


有了单词相对于文档的相关度计算公式作为基础,单词相对于查询关键字的相关度可以说是异曲同工。首先,我们需要计算单词在查询关键字中的词频。然后,对这个词频进行类似的标准化过程。


和文档的标准化过程唯一的区别,这里没有采用文档的长度。当然,对于查询关键字来说,如果需要使用长度,也应该是使用查询关键字的长度和平均长度。但是,根据 BM25 经典公式来说,这一部分并没有使用长度信息进行重新标准化。


接着我来谈谈最后一个部分,单词权重的细节,通常有两种选择。


第一种选择就是直接采用某种变形的 IDF 来对单词加权。一般来说,IDF 就是利用对数函数(Log 函数)对“文档频率”,也就是有多少文档包含某个单词信息进行变换。这里回顾一下周一讲的内容,IDF 是“文档频率”的倒数,并且通过对数函数进行转换。如果在这里使用 IDF 的话,那么整个 BM25 就可以看作是一个某种意义下的 TF-IDF,只不过 TF 的部分是一个复杂的基于文档和查询关键字、有两个部分的词频函数。


第二种单词的权重选择叫作“罗伯逊 - 斯巴克 - 琼斯”权重(Robertson-Spärck-Jones),简称 RSJ 值,是由计算机科学家斯蒂芬·罗伯逊和卡伦·琼斯合作发现。我们刚才讲过,这两位都是重要的信息检索学术权威。这个权重其实就是一个更加复杂版本的 IDF。一个关键的区别是 RSJ 值需要一个监督信息,就是要看文档对于某个查询关键字是否相关,而 IDF 并不需要。


对比以上两种思路,在很多情况下,利用 IDF 来直接进行单词权重的版本更加普遍。如果在有监督信息的情况下,RSJ 值也不失为一个很好的选择。


通过这里简单的介绍,我们可以很容易地发现,BM25 其实是一个经验公式。这里面的每一个成分都是经过很多研究者的迭代而逐步发现的。很多研究在理论上对 BM25 进行了建模,从“概率相关模型”(Probabilistic Relevance Model)入手,推导出BM25 其实是对某一类概率相关模型的逼近。对这一部分我在这里就不展开论述了。需要你记住的是,BM25 虽然是经验公式,但是在实际使用中经常表现出惊人的好效果。因此,很有必要对这一类文档检索算法有所了解。


BM25 算法变种


由于 BM25 的情况,一方面是经验公式,另一方面是某种理论模型的逼近,这样就出现了各式各样的 BM25 变种。这里我仅仅介绍一些有代表性的扩展。


一个重要的扩展是BM25F,也就是在 BM25 的基础上再多个“域”(Field)文档上的计算。这里“域”的概念可以理解成一个文档的多个方面。比如,对于很多文档来说,文档包括标题、摘要和正文。这些组成部分都可以认为是不同的“域”。那么,如何结合不同的“域”,让文档的相关性能够统一到一个分数上就是 BM25F 的核心内容。


具体来说,BM25F 对于 BM25 的扩展很直观。那就是每一个单词对于文档的相关性是把各个域当做一个“小文档”的加权平均。也就是说,我们先把每个域当做单独的文档,计算词频,进行标准化。然后集合每个域的值,进行加权平均,再乘以词的权重(我们上面提到了,用 IDF 或者是 RSJ 值)。


另外一个重要的扩展就是把 BM25 和其他文档信息(非文字)结合起来。这个想法是在“学习排序”(Learning To Rank)这一思路出现以前的一种普遍的做法,往往就是用线性加权的形式直接把各种信息相结合。例如,在 21 世纪初期比较流行的做法是用 BM25 和 PageRank 的线性结合来确定网页的相关度。这里面,BM25 是和某个查询关键字有联系的信息,而 PageRank 则是一个网页的总体权重。


小结


今天我为你讲了文档检索领域或者说搜索领域里最基本的一个技术:BM25。我们可以看到,BM25 由三个核心的概念组成,包括词在文档中相关度、词在查询关键字中的相关度以及词的权重。BM25 是一个长期积累的经验公式,也有很深的理论支持,是一个强有力的非监督学习方法的文本排序算法。


一起来回顾下要点:第一,简要介绍了 BM25 的历史。第二,详细介绍了 BM25 算法的三个主要组成部分。第三,简要地介绍了 BM25 的一些变种 。

最后,给你留一个思考题,虽然 BM25 是非监督的排序方法,并且我们提到其中有一些超参数,那么是否可以通过机器学习的手段来学习到这些超参数的最佳取值呢?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

0

主题

29

帖子

72

积分

注册会员

Rank: 2

积分
72
发表于 2017-11-24 22:41:50 | 显示全部楼层
杏彩娱乐怎么样?
回复

使用道具 举报

0

主题

19

帖子

54

积分

注册会员

Rank: 2

积分
54
发表于 2017-11-24 22:47:17 | 显示全部楼层
杏彩娱乐平台提现快吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|拉菲娱乐

GMT+8, 2017-12-15 14:14 , Processed in 0.580623 second(s), 24 queries .

Powered by 微商货源 X3.4

© 2001-2017 微商网-拉菲娱乐,拉菲娱乐平台,拉菲娱乐官网,拉菲娱乐代理,拉菲娱乐2登录,拉菲娱乐1956注册,拉菲娱乐挂机软件,拉菲娱乐是真的吗,拉菲娱乐平台怎么样,拉菲娱乐平台APP客户端下载

快速回复 返回顶部 返回列表