信息检索概论

机器学习 1452 Views

大家好,这里是“黑龙江大学自然语言处理实验室”。我们将成为大家了解科研,了解自然语言处理的一个很好的途径。如果大家有什么意见或者看法,都可以和我留言的。欢迎大家提问,多多互动~

定义:

信息检索(Information RetrievalIR),通俗的讲,就是要在一个很大的文本(有时可能是其他数据,如图像等)集合中,找到与用户需求相关的可以满足用户需求的非结构化信息。

听起来有点拗口,其实就是一种查询,只不过查询的对象是非结构化信息,和查询数据库中的表并不相同。其实这个很好理解,它的意思从钱包抽出一张信用卡是为了看到卡号以便输入,这一个过程就可以看作是一个信息检索的过程。

起源:

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统

文献信息检索

相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育军事商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。

历史:

综观信息检索的发展历程,根据多数专家的观点,信息检索可以划分为以下三个阶段:

手工信息检索阶段

信息检索直接发源于文摘索引工作和参考咨询工作。文摘工作的历史可以追溯到远古时代。

机械信息检索阶段

机械信息检索系统是20世纪40-50年代开始使用各种机械装置进行信息检索的机械系统,这个阶段的生命周期很短暂,是手工检索向计算机信息检索的过渡阶段。

计算机信息检索系统阶段

计算机信息检索起源于20世纪50年代初,1954年美国海军兵器中心图书馆利用IBM701机开发计算机检索系统,它标志着计算机信息检索阶段的开始。

现状:

文本信息检索

全文检索是以全文本信息为主要检索对象,允许用户以布尔逻辑和自然语言,根据资料内容而不是外在特征来实现检索的先进的检索技术。全文检索系统标引方式有词典法标引、单汉字标引、特殊标引等。

基于内容检索技术

基于内容检索即多媒体信息检索,20世纪90年代初国际上就开始了这方面的研究。它是直接对图像、视频、音频等多媒体信息进行分析,抽取特征和语义,利用这些内容特征建立索引,然后进行检索。目前,大量的原型系统已推出,典型的系统有IBM公司的QBIC系统等。

WWW信息检索技术

WWW上主要是利用搜索引擎为检索手段,它的检索方式有分类目录式(网站级)检索、全文(网页级)检索等几种方式。分类目录式检索即超文本检索;在全文检索方式中,搜索引擎使用网络信息资源自动采集机器人(robot程序(也称网络蜘蛛、爬虫软件),动态访问各站点,收集信息,建立索引,并自动生成有关资源的简单描述,存入数据库中供检索。但这种机器人程序的查准率有待提高。

其它信息检索技术

知识发现技术就是从大量的数据中发现有用知识的高级处理过程,是数据库技术和机器学习的交叉学科。数据挖掘(data mining技术是知识发现的核心技术。数据挖掘的定义是:按照某种既定目标,对大量数据进行分析和探索,从中识别出有效的、新颖的、潜在的有用的知识,以最终可理解的模式显示的一系列处理过程。它涉及到机器学习、模式识别、统计学、数据库、联机分析、模糊逻辑、人工神经网络、不确定推理等多种学科知识。数据挖掘是一种分析工具。

网格技术是第三代因特网,目前还处于起步阶段。第一代因特网是传统因特网,第二代是WWW。将来的第三代因特网的名称可能将由WWW变为GGGGreat Global Grid。网格分为计算网格、信息网格和知识网格、商业网格、P2P。信息网格和知识网格是智能信息处理,包括信息检索,它的目标是如何消除信息和知识孤岛,实现信息资源的智能共享。

信息推拉技术也是一种信息检索技术,分为信息推送和拉取两种模式。如何提高信息拉取和推送的智能检索水平等是该项技术研究的内容。信息推送技术(Information Push也称为网播)(netcast),方法是通过因特网想用户主动地发布、推送各种信息,同时允许个性化定制的信息推送。它的信息推送方式有分频道式、邮件式、网页式和专用式。信息拉取(Information Pull即搜索引擎的功能。用户可以通过搜索引擎拉取信息。

分类:

(一)按存储与检索对象划分,信息检索可以分为:

文献检索

数据检索

事实检索

以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。

(二)按存储的载体和实现查找的技术手段为标准划分:

手工检索

机械检索

计算机检索

其中发展比较迅速的计算机检索是网络信息检索,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。

(三)按检索途径划分:

直接检索

间接检索

过程:

信息检索的全过程应包括两个主要的方面: 1.信息标引和存储过程:对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储,组成检索工具或检索文档,即组织检索系统的过程。 2.信息的需求分析和检索过程:分析用户的信息需求,利用已组织好的的检索系统,按照系统提供的方法与途径检索有关信息,即检索系统的应用过程。 信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。例如,要查找关于计算机在农业生产中的应用方面的信息,根据信息需求的范围和深度,可选择计算机农业为第一层面的提问特征,计算机农学、园艺、林业为第二层面的提问特征,计算机计算机应用软件、程序、设计等名称为第三层面的提问特征

意义:

现代通讯技术、网络技术的广泛应用,人类社会已步入了知识、信息爆炸的时代。对于广大科研人员和工程技术人员如何迅速准确的查获到自己所需文献资料,关系到科研项目的成败。信息检索在人们日常信息交流和科学研究工作中发挥着重大作用,正如德国柏林图书馆大门上醒目地写着这样一句话:这里是人类知识的宝库,如果你掌握了它的钥匙的话,那么全部知识都是你的。这里所说的钥匙就是信息检索的方法。所以,学习和掌握信息检索的方法与技能具有重要的意义,主要体现在以下几个方面:

有利于培养人才,提高学生自学能力和独立的科研能力

帮助科研人员继承和借鉴前人的成果,避免重复研究,减少重复劳动

帮助科研人员迅速、准确的获取所需全部资料,提高科研效率,缩短科研周期

促进信息资源的开发和利用,推动社会进步和经济发展

参考文献:

1. http://shxy2007174890.blog.163.com/blog/static/112435681200921910414116/

2. http://baike.baidu.com/subview/45496/13358549.htm

3. http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed4fece76310488c360e54f7366a8a97027fa3c41ed4735b36163afef16d7a51198598393b5ff21a0af7b56b32611e37c6e8dffe39cacbe63f5eff3044060bf73005a31bb8bb4c32c157c607b8bb5cbafaa63d84d8d0c4ae5344bb27120980e78a2a1764bb7887652692d68e3c104811cafa406fe828703eee5057c243&p=c6769a4780891ffa34bd9b7e0e11c1&newp=8157dd16d9c110b108e2947d0a0d80231610db2151d2d11e2eca&user=baidu

(责任编辑 黄旭)

您可以查找公众号:hlju_nlp 或扫描如下二维码,即可关注“黑龙江大学自然语言处理实验室”:

如未说明则本站原创,转载请注明出处:NULL » 信息检索概论