登陆注册
6501800000018

第18章 2 搜索引擎

3.2.1搜索引擎的系统结构与原理

搜索引擎的检索系统由以下几个部分组成:

1)搜索器

互联网每时每刻都在增加新的内容,为了及时反映信息源的情况,人们开发出一种名为“网络蜘蛛”或“机器人”的网页搜索软件,负责访问网络上的各个站点,搜集网上不断更新的网页信息并带回搜索系统。搜索器的主要功能就是在互联网中漫游、发现和搜集信息。它常常是一个遵循一定协议的计算机程序,即蜘蛛程序。她日夜不停地运转,要尽可能多、尽可能快地抓取网页搜集各类信息。同时,由于互联网上的信息更新非常快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接,保证检索结果的质量。

2)分析器

分析程序通过一些特殊算法,从蜘蛛程序抓回的网页源文件中抽取主题词,并对其赋予不同的权值,以表明这些主题词同网页内容的相关程度,以判断网页内容。分析程序的目的是从一个URL到相应网页的主题词建立起的一种关联,并通过对主题词的提取和分析,判断该网页所描述的信息。

3)索引器

信息进行分类整理,建立各种索引并更新搜索引擎数据库。索引器中将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的URL,并以特定的数据结构存在索引数据库中。

倒排表是一个索引结构,包括两个索引表:文档表和术语表。

文档表由文档记录组成。每一条记录包括两个字段,一个是“文档标号”(DOC_ID),另一个是“张贴表”(POSTING_LIST),张贴表是一组出现在文档之中的术语的列表(或术语存储的地址表),它们按某种相关度量排序。

术语表则由一组术语记录组成,每一条记录中包含两个字段:一个是术语标号(TERM_ID),另一个也是“张贴表”,此表中记录了含有此术语的文档标号。

由此种结构可以很容易地完成诸如“请返回所有与一个(组)关键词相关的文档”或“请返回与给定的一个或几个文档中术语相关的所有术语”这样的请求。

例如,用户输入了3个关键词,则可在术语表中先查到三个术语的标号,取这三个标号对应记录中的所有文档标号的交集(公共部分),作为检索的返回结果。它们是同时含有三个关键词的所有文档的标号集,由此标号集对应为这些文档的链接地址,由此可链接并查到所有文档。

4)检索器

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

5)用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎、高效率、多方式地从搜索引擎中得到有效、及时的信息。

通过WEB服务器软件,为用户提供浏览器界面下的信息查询。每个搜索引擎都提供了一个良好的界面,并具有帮助功能。用户只要把想要查找的关键字或短语输入查询栏中,点击“查询”按钮,搜索引擎就会根据用户输入的提问,在索引中查找相应的检索词语,进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链形式)。用户点击搜索引擎提供的链接点,马上就可以访问到相关网页。有些搜索引擎将搜索的范围进行了分类,如“网站”、“中文网页”、“新闻”等,在指定的类别中进行检索可以提高查询效率,搜索结果的“命中率”较高。

3.2.2搜索引擎的分类

1)按照信息搜集方法的不同分

(1)目录式搜索引擎(DIRECTORYSEARCHENGINE)。通过人工方式来搜集信息并对信息进行归类。首先,编辑人员通过查看相关网页,根据网页的内容提炼出主题词和网页摘要,并将该网页的链接归入事先确定好的分类目录中。这种做法与图书馆的分类人员所进行的工作类似。由于此类搜索引擎主要是由人工进行分类的,所以信息准确度高,能够比较好地满足查询者的需要。但是由于需要人工介入,因此目录创建的工作量大,收集的信息量有限,信息更新不及时。这类搜索引擎的代表是:YAHOO!。

(2)机器人搜索引擎(CRAWLER_BASEDSEARCHENGINE)。由蜘蛛人程序按照某种规则自动在互联网上搜集信息,并进行归类。具体内容参见上一节的介绍。这类搜索引擎的代表是:GOOGLE。

(3)元搜索引擎(METASEARCHENGINE)。元搜索引擎和一般搜索引擎的区别在于:元搜索引擎没有自己的数据库,它是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。网上的一些元搜索引擎地址如下:

HTTP://WWW。MAMMA。COM

HTTP://DOGPILE。COM

由于目录式和机器人式的搜索引擎各有优点,因此目前,各门户网站上的搜索引擎通常是将两者结合起来使用。例如,新浪在使用人工分类的同时,也使用了机器人搜索引擎。用户在进行查询时,可以同时得到两种不同的搜索引擎所反馈的结果。

2)按照检索软件分类

按照检索软件的不同,搜索引擎可分为三大类:全文数据库检索、非全文数据库检索、主题指南类检索。

(1)全文数据库检索。能够提供完整的文献和信息检索,查全率很高。但由于信息量非常大,检索起来比较困难,对检索技术的要求很高。

(2)非全文数据库检索。仅提供部分全文检索,有时需要二次检索,感到不太方便。但具有速度快、使用简便、索引量大的特点。

(3)主题指南类检索。是目前网络检索中最常用的检索软件。这种软件查准率高、速度快、使用方便。现大部分网站都具备主题指南类检索功能。

3.2.3搜索引擎注册

1)商业化注册及原因

在利用搜索引擎进行注册时,由两种途径。一种途径是分别到各个搜索引擎去注册;另一种途径是通过专业网站或软件进行一次性多个搜索引擎注册。

前者适合少量注册,后者涉及商业化的注册服务。在企业营销中,常用的是商业化注册。原因有以下几点:

(1)跟踪和了解搜索引擎站点资源是一件困难的事情

搜索引擎站点的数目很多,要掌握这些站点,并了解每个站点的特点,是一件十分困难的事情。用户如果逐一根据搜索引擎提供的站点注册入口进行注册,非常耗用时间。

(2)搜索引擎注册已经成为网络空间的一种技术

为了在搜索引擎结果中取得排名靠前,需要采用许多复杂的注册技术。搜索引擎排列结果所依赖的因素各不相同,而且搜索引擎本身也在不断变化,因此要想在众多搜索引擎中都取得靠前的排名,就必须针对不同的搜索引擎进行页面的优化。也就是说,要为每个搜索引擎定制不同的META和其他页面元素。

2)蜘蛛式搜索引擎的注册技巧

根据蜘蛛式搜索引擎的工作原理,可以采用如下一些方法使自己的网站排名尽量靠前。

(1)确定恰当的网页标题。网页标题是出现在WEB浏览器顶端名称栏的内容,即是网页文件源代码中<TITLE>标记符与</TITLE>标记符之间的那段文字。有些搜索引擎通过对网页标题的判断来确定网页主题内容是最重要的因素。所以,标题与主题的相关程度对决定页面的级别是非常重要的,在设计标题的时候应该紧扣页面的主题。

(2)META标记。<META>具有多种功能,具体的功能由它的两个参数指定。

其一,HTTP-EQUIV参数:具有多种功能,具体的功能由它的内容指定。HTTP-EQUIV=CONTENT-TYPE用来指定浏览器所使用的编码种类。

其二,CONTENT参数:具有多种功能,具体的功能由它的内容指定。CONTENT=“TEXT/HTML;CHARSET=GB2312"由来指定浏览器只使用GB编码汉字。

注意,这行语句的内容与格式基本上是固定的,不必深究它的细节,只要将它添加到网页首部即可。加入这行语句后,不管浏览器目前处于哪种编码状态下,“网上音像店”总是自动显示GB编码汉字。

此外,<META>标签能使搜索引擎更容易找到你的位置。在你的网页中<HEAD>标签和</HEAD>标签之间加上<META>标签,当然别忘了把你自己的信息填入引号之内。

<METANAME=“KEYWORDS"CONTENT=“ONLINEMARKETING,ONLINE,MARKETING,HIGHTECHNOLOGY,WEB,INTERNET,DUMMIES,GEN-IUSES,VEEBLEFETZER">

<METANAME=DESCRIPTIONCONTENT=“在互联网上订购、销售中外音像制品">:该行为搜索引擎提供简介信息;

<METANAME=KEYWORDSCONTENT=“音像">:该行为搜索引擎提供关键词信息。

注意:某些公司在他们的META标签内容上走了极端。他们使用了与之竞争的公司及其产品的名字作为关键字,以使访问者浏览自己的网站。这种行为不仅不道德,而且还会招致法律责任。

(3)拟定准确的头行和主体的内容。除了页面的标题之外,页面文件主体内容靠近主标题的正文部分的内容非常重要,通常也对搜索引擎判定页面的内容有较大的影响。并且有的搜索引擎,比如EXCIT就不支持META,它的“蜘蛛”软件自动将正文的前20行视为描述文字,并将其中重复次数最多的单词视为关键字。

(4)制作站点的通道页。多数搜索引擎拒绝对所递交的URL的第二级或第三级以下层次网页的索引。解决的方法就是做一个“通道页”(HALLWAYPAGE)。“通道页”中放置网站的所有链接。注意,某些搜索引擎限制接受同一域名下的网页数,所以建议在“通道页”中按网页的重要程度排序链接,而且每个“通道页”中的链接数应当控制在50个以内。

(5)优质的页面

其一,避免死链接。检查链接是否正确,避免死链接。

其二,蜘蛛软件对包含在图像中的超链接是不能识别的,也就是说,蜘蛛软件是不能沿着图像中的超链接过渡到下一个页面的。因此,除了图像链接之外还要包括文本链接。

其三,避免提交含有帧的页面。许多搜索引擎软件是不认识帧的。因此最好将主页设计成无帧的页面。

其四,经常更新。为了鼓励网页更新,搜索引擎将清除长期没有更新的网页。

3)目录查询站点的注册技巧

(1)提供良好的网页。由于网页经过人工的判断来决定是否纳入分类目录,所以设计良好的网页会增加进入搜索引擎的可能性。在YAHOO网站中,就明确指出了这一点。

(2)优秀的内容。根据搜索引擎的统计结果来看,尽管人们可以采取许多提升排名的方法,但是优秀的内容仍然是保证排名在搜索结果前列的保证。

(3)选好适合的目录。企业应当对自己的网站有一个准确的定位。企业需要研究搜索引擎的分类目录,看看企业的产品或服务最适合于哪个分类目录。登录到合适的网站目录对于企业的成功是非常重要的。

3.2.4搜索引擎流程图

在上网搜索之前,需要先定好计划,给出了一个搜索计划的例子,它以流程图的方式去搜寻关于“数据采掘”的学术文档。

3.2.5智能代理

1)概念

计算智能(COMPUTATIONALINTELLIGENCE)指用计算手段实现机器智能的方法,包括用符号运算和逻辑推理实现智能的传统人工智能和智能技术的新进展——神经网络(NEURALNETWORKS)、模糊逻辑(FUZZYLOGIC)、进化计算(EVOLUTIONARYCOMPUTATION)、混沌(CHA-OS)和粗集(ROUGHSETS)理论,强调依赖于数值数据的智能。

智能代理技术是计算智能的一种应用,它的硬件基础可以是互联网(INTERNET)或单片系统(SYSTEMONACHIP)。若使用互联网,智能代理可表现为在互联网上漫游的电子机器人群体,它们可用于完成各种各样的任务,例如,信息收集、网络控制等。若使用单片系统,它是单片系统中一种会学习的软件,该单片系统需嵌入在其他设备中使用,智能代理则以嵌入系统(EMBEDDEDSYSTEM)形式出现,这构成了智能设备。以嵌入系统为代表的嵌入计算正在成为信息技术后PC时代除互联网络外又一个国际研究热点。

2)应用

智能代理在许多方面有着重要的应用意义。

其一,信息服务。信息服务是最广大的用户群接触网络环境的首要渠道。对于信息内容已经相当丰富的英语文化圈来说,进一步提高信息服务的质量,改变目前信息服务中存在的“信息过载”和“资源迷向”的状况,是信息服务业面临的最紧迫的任务。智能代理正好可以适应这方面的需要。具体地说,用于信息服务的智能代理主要完成以下功能:①导航,即告诉用户所需要的资源在哪里;②解惑,即根据网上资源回答用户关于特定主题的问题;③过滤,即按照用户指定的条件,从流向用户的大量信息中筛选符合条件的信息,并以不同级别(全文、详细摘要、简单摘要、标题)呈现给用户;④整理,即为用户把已经下载的资源进行分门别类的组织;⑤发现,即从大量的公共原始数据(比如股票行情等)中筛选和提炼有价值的信息,向有关用户发布。这些都是使信息服务走向个性化主动服务不可缺少的功能。目前在此方面已经有了一些能够使用的系统,但智能化的程度还远远不够,且主动有余、过滤不足已经造成了一些负面的影响,亟待尽快发展更先进的人工智能技术予以解决。

其二,电子商务。越来越多的人看好INTERNET上的商业机会。网上的商品越多,在网上寻找商品就越是买方的一大负担;同时,卖方商品的推销也有一个对客户实行因人而异的主动服务问题。因此,采用智能AGENT系统,代表买方去网上查看“广告牌”、逛“商店”寻找商品甚至讨价还价,代表卖方分析不同用户的消费倾向,并据此向特定的潜在用户群主动推销特定的商品,都是非常有诱惑力的。

现在已经出现了几种在网络上运行的智能代理软件(比如WWW。SHOPFIND。COM,WWW。ROBOSHOPPER。COM),尽管人们对智能代理软件的期望很高,但是由于技术方面的限制,智能代理软件的功能仅限于完成某些特殊的功能,还不能尽如人意。

同类推荐
  • 飞鸟集·新月集(新课标同步课外阅读)

    飞鸟集·新月集(新课标同步课外阅读)

    《飞鸟集》与《新月集》是文学巨匠泰戈尔最具美感和欣赏性的代表作,也是世界上最杰出的诗集和散文集之一。白太和黑夜、海洋和河流、自由和背叛、哲学和宗教,都在泰戈尔的笔下合二为一。短小的语句阐述了深刻的人生哲理,引领读者在读完后探寻真理和智慧,是他诸多文集中最适合青少年阅读的作品,对陶冶他们的情操和激发他们对文学的热爱有着不可估量的作用。本书为《飞鸟集》与《新月集》的合订本,由我国著名的翻译家郑振铎翻译,附录中收录了泰戈尔生平、泰戈尔访华记及1913年诺贝尔文学奖获奖致辞,具有很高的文学价值和收藏价值。
  • 语用学教程

    语用学教程

    语用学是20世纪70年代、80年代由西方学者们建立和发展起来的语言学的一门独立的新学科。本书是在1996年和1998年先后两次为北京大学中文系汉语专业研究生开设“语用学”课讲稿的基础上修订、整理而成的。本书除作为中国语言文学系汉语专业研究生的教材之外,还可以作为外国语言文学、哲学系、社会学系、心理学系等系研究生的教材,以及所有对提高自身言语交际能力感兴趣的人们的有益的参考书。
  • 科技档案管理学

    科技档案管理学

    本书全面系统地介绍了我国科技档案事业创建与发展的过程,对科技档案的概念、科技档案超前管理、科技档案资源管理、科技档案信息管理以及科技档案工作的组织管理作了深入的阐述。本书可作为高等学校档案学专业教科书或各类档案业务培训教材,也可供广大科技档案工作者、业务指导人员及档案学研究人员阅读、参考。
  • 玩转魔方步步高(青少年挖掘大脑智商潜能训练集)

    玩转魔方步步高(青少年挖掘大脑智商潜能训练集)

    潜能是人类原本存在但尚未被开发与利用的能力,是潜在的能量。根据能量守恒定律,能量既不会消灭,也不会创生,它只会从一种形式转化为其他形式,或者从一个物体转移到另一个物体,而转化和转移过程中,能的总量保持不变。
  • 我的大学(语文新课标课外必读第二辑)

    我的大学(语文新课标课外必读第二辑)

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。
热门推荐
  • 狼性:强者的博弈生存法则

    狼性:强者的博弈生存法则

    《狼性:强者的博弈生存法则》简介:在自然界残酷的竞争中。狼族凭借坚韧、顽强、忠诚、合作、牺牲等最优秀的个体素质与最卓越的团队精神,成为最有生命力和竞争力的种群,成为个性张扬的强者。它们与恶劣的自然环境战斗,与身强力壮的狮虎战斗,与荷枪实弹的人类战斗,在自然界的竞争中始终牢牢占据着强者的地位,从而雄行天下。西武编著的《狼性:强者的博弈生存法则》通过对狼的优秀素质和卓越精神的深入剖析,揭示了在残酷的社会竞争中,一个人如果拥有狼的这咎素质,则他强大的力量足以令任何对手恐惧,取得令人瞩目的成功;一个团队如果具有了狼的这种精神,那它将无往而不胜,创造出巨大的辉煌。
  • 爱恨修魔录

    爱恨修魔录

    他是出生在最底层的穷屌丝,她是出生在至高层的白富美;他粗茶淡饭,在黑暗中遥望光明。她锦衣玉食,集万千宠爱于一身;他憎恨世界,她热爱世界。本是毫无关联的两个人,却在命运的安排下,偶然相遇,从此纠缠不清……看平凡少年袁秋实,修魔问道,与各路美女之间的恩怨故事,美丽善良的白富美,精明能干的御姐,童颜巨乳的小公主,热血正义的警花……一一闪亮登场,大家鼓掌欢迎!大义灭亲,弃暗投明,邪不胜正……什么是对?什么是错?要是我们生于黑暗,是否还会那么坚信光明?支撑起我们世界观、人生观、道德观的,是不变的真理,还是仅仅因为我们的立场。转换立场之后,我们是否还会依然坚持原来的想法?我想知道答案!
  • 地府执法者

    地府执法者

    我本是堂堂警界新人王,却因一个名字,被没文化的黑白无常阴差阳错给勾错了魂。由于小时候身子弱,还命中带煞,被做道士的叔叔逼着认了阎王做干爹。这一入地府,哇靠!瞬间变成了金光闪闪的官二代啊!与钟馗判官称兄道弟,把黑白无常当小弟使唤,没事还当个阳间的阴差,我这装逼的人生溜得飞起啊!
  • 清宫冷妃:臣妾做不到啊

    清宫冷妃:臣妾做不到啊

    我吃了我爱的人,连皮带骨。我吃了爱我的人,贪婪咀嚼。背叛我的爱人呀,我饿了,挖出你的心肝来填充我饥饿的灵魂吧。和尚啊,你满口慈悲,不若舍身喂我?这是一个被心上人害死的姑娘复仇的故事,因为只剩下一堆骨头,所以用人皮伪装自己。美艳无双的画皮呀,你的灵魂可在叫喧着饥饿?这是一个‘吃货’的倾国传奇。
  • 快穿之原配对官配

    快穿之原配对官配

    反正都是穿越,那我多穿几次总可以吧。思洛被坑了,坑的满脸血,系统虽然不出声,可心肝黑的让她不忍直视.....她可以反对吗?不能....那好吧,你是老大,您说啥就是啥!!!!
  • 复仇三女皇的蓝色之恋

    复仇三女皇的蓝色之恋

    三个神秘的女生,因为复仇,相识在了一起,她,和她的妈妈,被她的养父和另一个女人,以及一个孩子,推落海底;她,和她的养母,姐姐,被她的养父和后妈,以及名义上的妹妹,无情的推落悬崖;她,被一个手臂上画着一条毒蝎的男人,杀了全家,当时,她被压在养父母的身躯下,躲过一劫,十年了,当初六岁的她们,已经出落的亭亭玉立,十年来的艰苦训练,就是为了今日的复仇!
  • 杀手妻子你别闹

    杀手妻子你别闹

    林秀伊,明面食神,暗面杀手,武功不行,但是医毒不错,(指的是古代)!一朝穿越成已婚!医相公,开食楼!没事调戏调戏亲亲小相公!在古代轻轻松松赚大钱,幸幸福福陪相公!安安稳稳过日子!本文全身心轻松!放心,无虐!
  • 满是觞地狱的新娘

    满是觞地狱的新娘

    三年前的一场误会,一段她自认为美满的婚姻,只因五年后的另一个她盛装归来,她为他付出的一切只换了一句:"她回来了,我们离婚吧。”
  • EXO之其实我爱你

    EXO之其实我爱你

    “吴亦凡啊,你到底还要我做什么,是不是要把我整个人玩死了你才肯放手?”蓝锡言望着面前的人,“这是你应该得的.”吴亦凡不为所动。这是一个微虐的故事,由于作者是第一次写,写的不好请见谅。
  • 神奇宝贝之逆天宝贝

    神奇宝贝之逆天宝贝

    不一样的小智,不一样的神奇宝贝……本书纯属自己虚构与原著不同,但不脱离原著………'