登陆注册
8362000000042

第42章 计算机信息检索常用方法和步骤

一、计算机信息检索的方法

(一)布尔逻辑检索

布尔逻辑检索就是利用布尔逻辑运算符(AND、OR、NOT等)来对提问式中的各个检索词进行逻辑组配,以确定文献被命中的条件和组配次序的检索方法。它适用面最广,使用频率最大。布尔逻辑运算符有以下三种。

1.AND(或,):逻辑与

“逻辑与”用“AND”或“,”表示,检索式写作“A AND B”或“A,B”,是一种用于相交关系的组配,表示检索结果应同时含有检索词A和B的文献信息。“逻辑与”运算是一种缩小化检索。检索时,“逻辑与”组配越多,检索限定范围越小,检索命中的文献结果也就越少。

2.OR(或+):逻辑或

“逻辑或”用“OR”或“+”表示,检索式写作“A ORB”或“A+B”,是一种用于并列关系的组配,表示检索结果含有检索词A或者B,或同时有A和B的文献信息。“逻辑或”运算是一种命中条件扩大化的检索。检索时,使用“逻辑或”可连接同一检索式的多个同义词、近义词和相关词,扩大检索范围,检索命中的文献结果也就更多。例如某用户想查找研究杜甫的文献,检索途径选择题名后,输入“杜甫”,命中500多篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中600多篇。

3.NOT(或-):逻辑非

“逻辑非”用“NOT”或“-”表示,检索式写作“A NOTB”或“A-B”,是一种用于排除关系的组配,表示检索含有检索词A而不含检索词B的文献信息。

“逻辑非”运算是一种缩小命题的检索。组配越多,检索命中的文献结果越少。使用“逻辑非”可以排除不希望出现的概念,提高查准率。常用于主题概念去除某段年份的文献、某个语种或去除某种类型(会议、期刊)的文献等情况。

当多个布尔逻辑运算符在一个检索式中出现时,它们的运算“级别”是不同的。大部分数据库是这样规定的:“-”优先级最高,“*”次之,“+”最低。在有括号的情况下,先执行括号内的逻辑运算;在多层括号时,先执行最内层括号中的运算。用这些逻辑运算符将检索词组配构成检索式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

(二)截词检索

所谓截词检索,就是指用给定的词干做检索词,检索与含有该词干的全部检索词相关的文献。由于西文单词是由字母组成,许多单词具有相同的词干,为了查找某一词干的不同变化形式,做到一“词”多用,防止漏检,可进行截词检索。它可以起到扩大检索范围、提高查全率、节省检索时间等作用,对西文文献尤为重要。截词检索首先要对检索词进行截断,根据截断的位置不同,分为后截断、前截断、中截断、复合截断;根据截断的数量不同,分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。不同的系统所用的截词符也不同,常用的有“?”、“、”、“$”、“*”等。

———后截断(右截断),是将截词符放在一个字符串的右方,满足截词符左方所有字符的记录都为命中记录。例如:“HEAL*”,则前4个字符为“HEAL”的所有词都满足条件,系统可检出含有“HEALTH”、“HEALTHY”等词汇的文献。

———前截断(左截断),是将截词符放在一个字符串的左方,满足截词符右方所 有 字 符 的 记 录 都 为 命 中 记 录。如:“?GRADUATE”可 检 出 含 有“POSTGRADUATE”、“UNDERGRADUATE”等检索词的文献。

———中截断,是将截词符放在一个字符串的中间,满足截词符两侧所有字符的记录都为命中记录。这种方法对于解决英美不同拼法、不规则的单复数变化很有用。如:“M?N”可检出“MAN”、“MEN”等检索词的文献。

———复合截断,又称前后截断,是将前截断和后截断结合使用,即中间一致检索。如:“?MIGRAT?”可检出含有“MIGRATE”、“IMMIGRATE”、“EMIGRATE”、“MIGRANT”、“IMMIGRANT”、“EMIGRANT”等检索词的文献。

———有限截断,允许截去有限个字符,截几个字符就加几个“?”,空一格后加 一 个“?”表 示 截 词 符。如:“STUD????”可 检 出:STUDY、STUDIES、STUDIED、STUDING,其词尾可有0—3个字母。

无限截断,允许截去无限个字符,又称开放式截断。如:“COMPUTE?”的检索结果包括COMPUTE、COMPUTERS、COMPUTERED、COMPUTERING、COMPUTERIZATION……

(三)字段检索

字段检索,就是把检索词或检索式限定在某个(些)字段中。字段一般有两种类型,一是基本字段,即反映文献内容特征的主要字段;二是辅助字段,即反映文献外部特征的次要字段。如果某一记录的指定字段中含有用户输入的检索词,即为命中,否则,就将该记录排除。检索时,既可以对检索词进行字段限定,也可以对检索式或检索生成的文献集合进行字段限定。限定的方法一般是把指定字段的标识符(代码)作为后缀,加到检索词或检索式之后。

采用基本字段限定检索词的范围时,通常将字段代码放在检索词后面,中间用“/”隔开,被称为字段后缀检索,格式为:检索词/字段代码,如“档案信息/TI”(TI为题名字段代码),表示查找题名字段中含有“档案信息”的文献。使用辅助字段时要用字段前缀检索,即在字段代码放在检索次的前面,中间用“=”隔开,如“JN=WALLSTREET”(JN为期刊字段代码),表示查找发表在 WALLSTREET期刊上的文献。

(四)词位置检索

词位置检索就是利用位置运算符连接各个检索词,让计算机进行相应的位置逻辑运算,从而查找出所需信息的检索方法。其中,位置运算符是用于规定检索词在文献记录中的位置关系的符号。在实际检索中,利用位置运算符可有效提高查全率和查准率。

常用的位置运算符有:

1.有间断无序邻接

邻接符号NN,检索式为A(NN)B,表示它关联的两个概念 A、B之间可以插入0—N个其他词汇,且两个概念前后顺序不定(顺序可以颠倒),其中,N代表可以插入的词的个数。当N=0时,检索式可直接写作:A(N)B,例如“档案馆(2N)数字化”表示在“档案馆”和“数字化”两个词中间(顺序可以颠倒)不含有其他词(N=0)或包含有1个词(N=1)或两个词(N=2)的所有组合都符合检索的标准。

当连接符号只有(N)时表示用此符号连接的两个检索词(如A(N)B)可以按任意次序紧靠在一起,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码),即N=0.

2.有间断有序邻接

邻接符号NW,检索式为A(NW)B,表示它关联的两个概念A、B间可以插入0—N个其他词汇,但两个概念前后顺序固定,不可改变,其中N代表最多可以插入词的个数。当N=0时,检索式可以直接写作:A(W)B,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码)。

3.同字段邻接

邻接符号F,要求被连接的检索词出现在同一字段(FIELD)中,词序可变,字段类型可用后缀符限定。

例如:“MARKET?(F)INFORMATION/DE,TI”说明“MARKET?”和“INFORMATION”两个词必须同时出现在叙词字段或题名字段中。

4.同句邻接

邻接符号S,表示被连接的检索词出现在同一子字段(SUBFIELD)或同一自然句(SENTENCE)中,两个词之间可夹若干词,其先后顺序不受限制。使用该词位置运算符检索能使检索结果更准确些,但由于词与词之间位置关系限制比较严,所以有可能丢失一些与检索课题相关但词位置方面却不能满足检索条件的文献。从语言使用风格和技巧来看,同一思想、同一概念的表达可以有不同的形式,而且不同的作者也可能有不同的表达形式。因此,为了提高检全率可以放松对词与词之间的要求,改用同句位置运算符进行检索。

5.同文邻接

邻接符号C,它是CITATION的缩写,表示所连接的两个词在一篇文献的记录中查找,只要这两个词同时出现在该记录中,词序不分先后,也不分字段,中间插入词的个数不限。

6.同标引邻接

邻接符号L,是LINK的缩写,它要求所连接的两个检索词同时出现在标引词字段中,而且具有词表规定的等级关系。因此,这个运算符只使用于有正式词表,且表中词具有等级关系的数据库。

7.同自然段邻接

邻接符号P,是PARAGRAPH的缩写,检索式为A(P)B,表示它所关联的两个概念必须在同一自然段中出现。

二、计算机信息检索的步骤

(一)检索准备工作

1.分析检索课题

通过对检索课题进行全面的分析研究,明确待查课题的学科性质、主要内容、相关学科及检索目标,所需文献的类型、年限、语种、输出方式、检索费用等内容。

2.选用检索系统或数据库

利用哪些检索系统(或数据库)来进行查找,这直接与检索结果有关。要根据课题要求,综合考虑选用的检索系统(或数据库)涉及的学科范围、文献类型、存储年限、检索费用、使用方法等,选择与所查课题相适应、质量较高、检索手段较完善的检索系统和数据库。

3.选择检索词

检索词(或检索项)既是构成检索策略的基本元素,同时也是进行逻辑组配和编写提问检索式的最小单位。检索词选择是否恰当,将直接影响检索效果。在全面了解检索课题的相关问题后,提炼主要概念与隐含概念,排除次要概念,以便确定检索词。检索词的确定一般有以下几种方法:

一是选用主题词:当所选择的数据库具有规范化词表时,应优先从词表规定的专业范围出发,选用各学科具有检索价值的基本名词术语。

二是选用数据库规定的代码:许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,世界专利文摘数据库中的分类代码、化学文摘数据库中的化学物质登记号等。

三是选用常用的专业术语:在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。

四是选用同义词与相关词:同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。

4.编写检索提问式

在选择好检索词后,检索用户可以用布尔运算符或位置运算符对各检索词进行组配,构造检索提问式。从某种意义上讲,检索提问式是检索策略的具体体现,是检索构造中的关键环节,一个准确合理的检索提问式可以极大地提高检索的质量和速度。不同的检索者拟定检索式的方法和技巧各有不同,但有几条基本原则应遵守:首先,要符合概念组配的原则;其次,应拟定精练的检索式,能化简的检索式尽量化简。同时,对于位置运算符的选择,应根据文献中常见的词间关系来选择。把选择好的检索词用系统规则或允许使用的符号连接组配起来,便成为一条检索式。构造检索式常用到的组配符号主要有布尔运算符、截词符、位置运算符、字段限制符等。

(二)上机操作

步骤:进入检索系统—选择数据库或文档—选择检索途径—键入检索词—组配检索词—审核命中文献—优化检索结果—打印检索结果—退出检索系统。

同类推荐
  • 从牛津讲坛到三一学院:在牛津与剑桥听讲座

    从牛津讲坛到三一学院:在牛津与剑桥听讲座

    《从牛津讲坛到三一学院:在牛津和剑桥听讲座(汉英对照)》内容简介:牛津和剑桥是莘莘学子心中神圣的殿堂,这不仅在于它们课堂上传授的知识,更在于它们沉淀下来的那些引人深思的智慧。如今,就让我们走进这两卒思想的殿堂,聆听智慧流淌的声音!?无论你是在校的莘莘学子,还是社会上的“打拼”一族,抑或是经历丰富的成功人士,阅读《从牛津讲坛到三一学院:在牛津和剑桥听讲座(汉英对照)》,将会提升你的品位,启迪你的心智,陶冶你的性情。
  • 警察素质与警察意识

    警察素质与警察意识

    本书把中国近现代史教育与公安人才培养研究结合起来,探索了公安人才培养的新途径,为人民警察意识的培养和人民警察素质的提高进行了有益的尝试。
  • 袁宝华文集第二卷:文选(1981年2月-1984年6月)

    袁宝华文集第二卷:文选(1981年2月-1984年6月)

    本文集为十卷本,汇集了作者在解放初期恢复东北工业,制定和实施“一五”计划,赴苏谈判156项工程,三年“大跃进”大炼钢铁,国民经济调整,建立新中国物资管理体制,“文化大革命”期间国民经济运行,改革开放期间国民经济管理,企业整顿和改革,制定《企业法》,开创职工教育和MBA教育工作,开拓企业思想政治工作,创建民间经济类社团,建设中国企业家队伍,以及担任中国人民大学校长工作中的理论著作和文章。
  • 三明市情概览

    三明市情概览

    三明市位于闽西北和闽中结合部,武夷山脉与戴云山脉之间,总面积22959平方公里,远在旧石器时期就有古人类在此栖息。新中国成立后的20世纪50年代后期,三明市被辟为福建省工业基地。
  • 多维视域的大众传媒

    多维视域的大众传媒

    本书是在中国广播电影电视总局的人文社科项目和中国传媒大学“382人才工程”的基础上形成的成果。本书尽量做到有理论有实际,论述深入浅出,适合大众阅读,希望能在传播理论的研究方面起到积极的促进作用。
热门推荐
  • 清伊

    清伊

    与其说是别人让你痛苦,不如说是自己的修养不够。没有谁的人生总是顺心如意,没有谁的夜晚总是美梦。
  • 我的萌主女友

    我的萌主女友

    屌丝青年夏侯纯被莫名其妙召唤到平行都市,成了大小姐的宠物。随身携带“萌主守卫者系统”,随着女主人的心情值提升,就能兑换一切来自动漫空间的能力和道具。为了成为大神,重返地球回家路,夏侯纯开始了他的最强召唤兽传奇!宣言:“虽然我家大小姐很傲娇,但是你们谁也不能欺负她!不准让她不高兴!必须每天萌萌哒!”“否则,纯哥会开启轮回眼,身着圣斗衣,变身撒亚人,左手震震果实,右手斩魄刀,教你如何做人!”“我的目标是:终有一天,扑倒大小姐,PAPAPA”。群号:311950201
  • 非韩篇

    非韩篇

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 驭灵大师

    驭灵大师

    一片光使他重归了世界,使他踏上冒险未知而又新颖的征途,他的“武力”区于世界,已脱离潮流,可是他却遇强则强、逆流而上…
  • 乞王天下

    乞王天下

    本书为小说集,收录的作品包括:主编、白活、猎人、草原深处的村庄、蔚蓝 一个民族英雄的梦、萨县抗日英烈考、辽西匪事、小镇人物、乞王天下、叩安天下父母、终极对话、苍天亦怒。
  • 最具影响力的思想先驱(下)

    最具影响力的思想先驱(下)

    文学作品是作家根据一定的立场、观点、社会理想和审美观念,从社会生活中选取一定的材料,经过提炼加工而后创作出来的。它既包含客观的现实生活,也包含作家主观的思想感情,因此,文学作品通过相应的表现形式,具有很强的承载性,这就是作品的具体内容。 文学简史主要指文学发展的历史进程,这跟各国历史发展是相辅相成的。历史的发展为文学的发展提供了时代背景,而文学的发展也形象地记录了历史发展的真实面貌。
  • 培养青少年树立榜样的故事(青少年健康成长大课堂)

    培养青少年树立榜样的故事(青少年健康成长大课堂)

    一滴水可以折射阳光的光辉,一本好书可以滋润美好的心灵。健康的身心、丰富的情感、较强的实践能力、优良的品质、过硬的特殊技能、良好的习惯、深厚的文化底蕴及必要的合作素质等,是青少年朋友在成长道路上顺利前进所需要的最基础、最必要的条件,为青少年朋友们从自身着眼、开创成功指明了方向。社会是一幅斑驳陆离的图画,人生是一条蜿蜒扭动的曲线。知识是智慧和能力的基础。知识能够守护生命,是保护自己的盔甲。
  • 楼高上,风儿吹

    楼高上,风儿吹

    小楼昨夜又东风,故国不堪回首月明中。本是情敌的两个人却因一场意外牵动一生。
  • 都是幻

    都是幻

    《都是幻》收《梅魂幻》和《写真幻》两篇作品,《梅魂幻》六回,叙孽龙投胎而生的南斌,梦幻中娶十二位梅花宫主事,颇有寓意。《写真幻》六回,叙池上锦和画中美人燕飞飞的情恋故事。两篇作品,类似才子佳人小说,但又以幻梦的寄寓而异其趣旨,是清初不多见的优秀作品。
  • 福妻驾到

    福妻驾到

    现代饭店彪悍老板娘魂穿古代。不分是非的极品婆婆?三年未归生死不明的丈夫?心狠手辣的阴毒亲戚?贪婪而好色的地主老财?吃上顿没下顿的贫困宭境?不怕不怕,神仙相助,一技在手,天下我有!且看现代张悦娘,如何身带福气玩转古代,开面馆、收小弟、左纳财富,右傍美男,共绘幸福生活大好蓝图!!!!快本新书《天媒地聘》已经上架开始销售,只要3.99元即可将整本书抱回家,你还等什么哪,赶紧点击下面的直通车,享受乐乐精心为您准备的美食盛宴吧!)