登陆注册
8362000000042

第42章 计算机信息检索常用方法和步骤

一、计算机信息检索的方法

(一)布尔逻辑检索

布尔逻辑检索就是利用布尔逻辑运算符(AND、OR、NOT等)来对提问式中的各个检索词进行逻辑组配,以确定文献被命中的条件和组配次序的检索方法。它适用面最广,使用频率最大。布尔逻辑运算符有以下三种。

1.AND(或,):逻辑与

“逻辑与”用“AND”或“,”表示,检索式写作“A AND B”或“A,B”,是一种用于相交关系的组配,表示检索结果应同时含有检索词A和B的文献信息。“逻辑与”运算是一种缩小化检索。检索时,“逻辑与”组配越多,检索限定范围越小,检索命中的文献结果也就越少。

2.OR(或+):逻辑或

“逻辑或”用“OR”或“+”表示,检索式写作“A ORB”或“A+B”,是一种用于并列关系的组配,表示检索结果含有检索词A或者B,或同时有A和B的文献信息。“逻辑或”运算是一种命中条件扩大化的检索。检索时,使用“逻辑或”可连接同一检索式的多个同义词、近义词和相关词,扩大检索范围,检索命中的文献结果也就更多。例如某用户想查找研究杜甫的文献,检索途径选择题名后,输入“杜甫”,命中500多篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中600多篇。

3.NOT(或-):逻辑非

“逻辑非”用“NOT”或“-”表示,检索式写作“A NOTB”或“A-B”,是一种用于排除关系的组配,表示检索含有检索词A而不含检索词B的文献信息。

“逻辑非”运算是一种缩小命题的检索。组配越多,检索命中的文献结果越少。使用“逻辑非”可以排除不希望出现的概念,提高查准率。常用于主题概念去除某段年份的文献、某个语种或去除某种类型(会议、期刊)的文献等情况。

当多个布尔逻辑运算符在一个检索式中出现时,它们的运算“级别”是不同的。大部分数据库是这样规定的:“-”优先级最高,“*”次之,“+”最低。在有括号的情况下,先执行括号内的逻辑运算;在多层括号时,先执行最内层括号中的运算。用这些逻辑运算符将检索词组配构成检索式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

(二)截词检索

所谓截词检索,就是指用给定的词干做检索词,检索与含有该词干的全部检索词相关的文献。由于西文单词是由字母组成,许多单词具有相同的词干,为了查找某一词干的不同变化形式,做到一“词”多用,防止漏检,可进行截词检索。它可以起到扩大检索范围、提高查全率、节省检索时间等作用,对西文文献尤为重要。截词检索首先要对检索词进行截断,根据截断的位置不同,分为后截断、前截断、中截断、复合截断;根据截断的数量不同,分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。不同的系统所用的截词符也不同,常用的有“?”、“、”、“$”、“*”等。

———后截断(右截断),是将截词符放在一个字符串的右方,满足截词符左方所有字符的记录都为命中记录。例如:“HEAL*”,则前4个字符为“HEAL”的所有词都满足条件,系统可检出含有“HEALTH”、“HEALTHY”等词汇的文献。

———前截断(左截断),是将截词符放在一个字符串的左方,满足截词符右方所 有 字 符 的 记 录 都 为 命 中 记 录。如:“?GRADUATE”可 检 出 含 有“POSTGRADUATE”、“UNDERGRADUATE”等检索词的文献。

———中截断,是将截词符放在一个字符串的中间,满足截词符两侧所有字符的记录都为命中记录。这种方法对于解决英美不同拼法、不规则的单复数变化很有用。如:“M?N”可检出“MAN”、“MEN”等检索词的文献。

———复合截断,又称前后截断,是将前截断和后截断结合使用,即中间一致检索。如:“?MIGRAT?”可检出含有“MIGRATE”、“IMMIGRATE”、“EMIGRATE”、“MIGRANT”、“IMMIGRANT”、“EMIGRANT”等检索词的文献。

———有限截断,允许截去有限个字符,截几个字符就加几个“?”,空一格后加 一 个“?”表 示 截 词 符。如:“STUD????”可 检 出:STUDY、STUDIES、STUDIED、STUDING,其词尾可有0—3个字母。

无限截断,允许截去无限个字符,又称开放式截断。如:“COMPUTE?”的检索结果包括COMPUTE、COMPUTERS、COMPUTERED、COMPUTERING、COMPUTERIZATION……

(三)字段检索

字段检索,就是把检索词或检索式限定在某个(些)字段中。字段一般有两种类型,一是基本字段,即反映文献内容特征的主要字段;二是辅助字段,即反映文献外部特征的次要字段。如果某一记录的指定字段中含有用户输入的检索词,即为命中,否则,就将该记录排除。检索时,既可以对检索词进行字段限定,也可以对检索式或检索生成的文献集合进行字段限定。限定的方法一般是把指定字段的标识符(代码)作为后缀,加到检索词或检索式之后。

采用基本字段限定检索词的范围时,通常将字段代码放在检索词后面,中间用“/”隔开,被称为字段后缀检索,格式为:检索词/字段代码,如“档案信息/TI”(TI为题名字段代码),表示查找题名字段中含有“档案信息”的文献。使用辅助字段时要用字段前缀检索,即在字段代码放在检索次的前面,中间用“=”隔开,如“JN=WALLSTREET”(JN为期刊字段代码),表示查找发表在 WALLSTREET期刊上的文献。

(四)词位置检索

词位置检索就是利用位置运算符连接各个检索词,让计算机进行相应的位置逻辑运算,从而查找出所需信息的检索方法。其中,位置运算符是用于规定检索词在文献记录中的位置关系的符号。在实际检索中,利用位置运算符可有效提高查全率和查准率。

常用的位置运算符有:

1.有间断无序邻接

邻接符号NN,检索式为A(NN)B,表示它关联的两个概念 A、B之间可以插入0—N个其他词汇,且两个概念前后顺序不定(顺序可以颠倒),其中,N代表可以插入的词的个数。当N=0时,检索式可直接写作:A(N)B,例如“档案馆(2N)数字化”表示在“档案馆”和“数字化”两个词中间(顺序可以颠倒)不含有其他词(N=0)或包含有1个词(N=1)或两个词(N=2)的所有组合都符合检索的标准。

当连接符号只有(N)时表示用此符号连接的两个检索词(如A(N)B)可以按任意次序紧靠在一起,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码),即N=0.

2.有间断有序邻接

邻接符号NW,检索式为A(NW)B,表示它关联的两个概念A、B间可以插入0—N个其他词汇,但两个概念前后顺序固定,不可改变,其中N代表最多可以插入词的个数。当N=0时,检索式可以直接写作:A(W)B,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码)。

3.同字段邻接

邻接符号F,要求被连接的检索词出现在同一字段(FIELD)中,词序可变,字段类型可用后缀符限定。

例如:“MARKET?(F)INFORMATION/DE,TI”说明“MARKET?”和“INFORMATION”两个词必须同时出现在叙词字段或题名字段中。

4.同句邻接

邻接符号S,表示被连接的检索词出现在同一子字段(SUBFIELD)或同一自然句(SENTENCE)中,两个词之间可夹若干词,其先后顺序不受限制。使用该词位置运算符检索能使检索结果更准确些,但由于词与词之间位置关系限制比较严,所以有可能丢失一些与检索课题相关但词位置方面却不能满足检索条件的文献。从语言使用风格和技巧来看,同一思想、同一概念的表达可以有不同的形式,而且不同的作者也可能有不同的表达形式。因此,为了提高检全率可以放松对词与词之间的要求,改用同句位置运算符进行检索。

5.同文邻接

邻接符号C,它是CITATION的缩写,表示所连接的两个词在一篇文献的记录中查找,只要这两个词同时出现在该记录中,词序不分先后,也不分字段,中间插入词的个数不限。

6.同标引邻接

邻接符号L,是LINK的缩写,它要求所连接的两个检索词同时出现在标引词字段中,而且具有词表规定的等级关系。因此,这个运算符只使用于有正式词表,且表中词具有等级关系的数据库。

7.同自然段邻接

邻接符号P,是PARAGRAPH的缩写,检索式为A(P)B,表示它所关联的两个概念必须在同一自然段中出现。

二、计算机信息检索的步骤

(一)检索准备工作

1.分析检索课题

通过对检索课题进行全面的分析研究,明确待查课题的学科性质、主要内容、相关学科及检索目标,所需文献的类型、年限、语种、输出方式、检索费用等内容。

2.选用检索系统或数据库

利用哪些检索系统(或数据库)来进行查找,这直接与检索结果有关。要根据课题要求,综合考虑选用的检索系统(或数据库)涉及的学科范围、文献类型、存储年限、检索费用、使用方法等,选择与所查课题相适应、质量较高、检索手段较完善的检索系统和数据库。

3.选择检索词

检索词(或检索项)既是构成检索策略的基本元素,同时也是进行逻辑组配和编写提问检索式的最小单位。检索词选择是否恰当,将直接影响检索效果。在全面了解检索课题的相关问题后,提炼主要概念与隐含概念,排除次要概念,以便确定检索词。检索词的确定一般有以下几种方法:

一是选用主题词:当所选择的数据库具有规范化词表时,应优先从词表规定的专业范围出发,选用各学科具有检索价值的基本名词术语。

二是选用数据库规定的代码:许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,世界专利文摘数据库中的分类代码、化学文摘数据库中的化学物质登记号等。

三是选用常用的专业术语:在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。

四是选用同义词与相关词:同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。

4.编写检索提问式

在选择好检索词后,检索用户可以用布尔运算符或位置运算符对各检索词进行组配,构造检索提问式。从某种意义上讲,检索提问式是检索策略的具体体现,是检索构造中的关键环节,一个准确合理的检索提问式可以极大地提高检索的质量和速度。不同的检索者拟定检索式的方法和技巧各有不同,但有几条基本原则应遵守:首先,要符合概念组配的原则;其次,应拟定精练的检索式,能化简的检索式尽量化简。同时,对于位置运算符的选择,应根据文献中常见的词间关系来选择。把选择好的检索词用系统规则或允许使用的符号连接组配起来,便成为一条检索式。构造检索式常用到的组配符号主要有布尔运算符、截词符、位置运算符、字段限制符等。

(二)上机操作

步骤:进入检索系统—选择数据库或文档—选择检索途径—键入检索词—组配检索词—审核命中文献—优化检索结果—打印检索结果—退出检索系统。

同类推荐
  • 好学生是这样培养出来的

    好学生是这样培养出来的

    如何“让每一个学生都成为最好的自己”?怎样“成为一名真正的初中生”?什么是“初二现象”?“面对压力,家长该走出哪些误区”? …… 张凤兰与其教育团队将通过八中初中部十余年的教育探索为您自己作答。本书不仅体现了北京八中初中部的办学特色,更体现了现今初等教育的发展。本书可以视作学生初中三年学习与生活的指南性读物,对于广大校长、教师、学生以及学生家长都有很好的指导与借鉴价值。
  • 媒介空间论:媒介的空间想象力与城市景观

    媒介空间论:媒介的空间想象力与城市景观

    城市不仅是一个地理样本,也是文化样本,其中的种种景观充满了空间的隐喻。基于对受到媒介日益深远影响的城市的关注,作者从媒介空间论的视角,对城市与媒介所组成的多样空间进行了深入细致的分析与研究。媒介在城市形成与发展过程中,是一种极为重要的表现途径。本研究并不回避媒介与观察者的主观性,相反,借助媒介的空间想象力,呈现了城市中各种地理要素及社会文化所组成的复杂面貌。《21世纪媒介理论丛书·媒介空间论:媒介的空间想象方式与城市景观》对城市的中心与边缘、政治图景与性别空间、城市的全球化与地方感等内容也进行了充分的阐释。
  • 中国古代文论修辞观

    中国古代文论修辞观

    《中国古代文论修辞观》比较全面地对中国文学形式化的民族文化作了系统而深入的研究,可以弥补西方结构主义、符号学之缺撼。同时,开拓了中国古代文论修辞观这一新的学术领域。本书认为中国哲学作为独特的文化力量,影响着中国、又学的审美方式和语言表现形式。“兴”原来是礼仪活动中的行为仪式,作为审美概念,是从礼的领域转向了诗学领域,五行思想也使中国文学形成特有的审美性时空,而风水观念在山水诗中的运用,使自然山水在文本中成为理想化的、秩序化的存在,对偶受阴阳哲学影响,是一种动静相乘,刚柔相形的参天地、察幽微的传统的审美方式。
  • 斯特娜的自然教育法(精典教育)

    斯特娜的自然教育法(精典教育)

    本书以自然教育法的原著版本为基础,参阅了近年来自然教育法的多种国内译本,介绍了斯特娜的自然教育法。书中介绍了自然教育法的宗旨,并对自然教育法中涉及的众多领域做了介绍,描述了数学、外语、生物、地理、历史等学科的游戏学习方法,对孩子的感官能力、思维动力、动手能力、品德素质的培养都提供了训练方法及操作原则。
  • 中国党政公文写作要领与范例

    中国党政公文写作要领与范例

    《中国党政公文写作要领与范例》——以写作的基础知识为主线,以其艺术性、技巧性为点,实例佐证为辅,选例准确,讲明要领。
热门推荐
  • 遇见你,遇见谁

    遇见你,遇见谁

    一个人一生遇见几个人才可以遇见真爱,我们每天都有跻身而过的路人,有的只是和我摩肩接踵,有的可能碰撞出火花,只是在追求幸福的这一条路上,永远都不怕晚。
  • 妖孽.

    妖孽.

    在妖的世界里,都有属于自己的爱情,见证这些妖的恋爱奇迹......稀奇古怪的妖们牺牲了自己.......
  • 糖尿病最佳保健方案

    糖尿病最佳保健方案

    为使糖尿病患者掌握糖尿病及其相关知识,树立战胜糖尿病的信心,积极配合医生诊治,选择最佳保健方案,达到满意的治疗效果,提高生活质量,组织了长期从事糖尿病研究和临床工作的学者、专家编写本书。本书的内容丰富,系统介绍了糖尿病的基本知识,指导糖尿病患者用药、饮食、运动、日常生活起居护理,提出预防、心理、婚育、性生活方面的保健方案。
  • 转身遇见青花瓷

    转身遇见青花瓷

    刚拿到录取通知书,就被小时定下的娃娃亲逼婚,可是他现在是个混混而且纯粹就是玩玩,不答应,不答应竟然就打人,人渣,父母被摁倒在地打,陌生男子来救。人我给你赶走,父母我送他们出国避难,但是我有条件:你要跟我领证,你可以继续做你原来的事,只要跟我领证,而且你所有的费用我都会支付,只要你好好活着。我虽然觉得不靠谱还是签了字,我不知道这只是我悲剧的开始!(本文纯属虚构,请勿模仿。)
  • 三品鸟诗歌集

    三品鸟诗歌集

    诗歌,是人的精神世界,能够体现人类的感情世界。诗歌,丰富多彩,有很多的思想在里面,更是人一生的财富。我爱诗歌,愿意为他献出我的生命。
  • 狼牙会之再战天

    狼牙会之再战天

    古狼牙何失?千年已去,吾印已弱。子等不服,我要嗜天!
  • 极致黑夜

    极致黑夜

    Silvia,中文名沐西,17岁,是英国王室公主,女王最宠爱的小孙女,智商200,在耶鲁拥有经济,医学双博士学位,唯一的怪癖是害怕别人的触碰。在中国圣樱贵族学校遇到四大恶魔校草,齐天羽,蓝漓,欧阳东旭和白乔,他们是四大财团的帅公子,他们碰撞在一起将产生怎样的火花。。然而,英国伯爵和英国女王之间的斗争,沐西,英国的小公主,西尔维娅·沐,转学到中国后和德里克公爵之间的相遇,相守。共同抵抗英国伯爵希尔法的非人道作为。。期间,也有女子为了爱情疯狂,男子的爱情守护。
  • 一梦十夏

    一梦十夏

    夏日炎炎,十年即过。重归旧梦,朝花夕拾。谨此致,曾经芬芳的花季……
  • 十万个穿越

    十万个穿越

    一个吸血鬼被丢到了鲁鲁修的世界;爱尤菲,爱柯内莉亚,也爱发战争财,11区骑士去死去死,我也是吸血鬼,我不为帝国征战,只为自己的君主挥剑,我就是夏洛特.阿斯布鲁德。一个懒鬼来到了死神的世界,在山老头的黑线中,他成为了第一个不会白打、鬼道、瞬步的队长。龙族世界的有一个衰小孩,一个喜欢干翻龙王的衰小孩,他做这些只是为了那句:“大师兄,帅爆了!”……一个怀揣黑科技的的战争贩子&反世界倾向者转世到了高达seed的世界,但身份却是帕特里克那军国主义狂人的私生子,也就是大脑门阿斯兰的异母兄长……——————一个个小小的故事,构成了这个大大的世界——————PS:前方高能,注意!PS:保护好各位看过的钛合金硬化氪金狗目。
  • 陈兰彬与晚清外交

    陈兰彬与晚清外交

    本书通过时代赋予的使命、从村庄走出来的翰林、入幕府办洋务、率领幼童走向美国、留美学生撤回等章节介绍了陈兰彬与晚清外交的故事。