登陆注册
8929800000012

第12章 数据存储与数据挖掘(4)

1.多媒体数据库

音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从多媒体数据中找出所需要的数据和信息有一定的困难。目前,对多媒体数据的处理往往局限于存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索一般依据文件标识、关键字等进行,局限性很大。基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,已成为研究的热点,基于内容的音频、视频信息的聚类、分类、相似性查询等数据挖掘技术正在兴起。

2.空间数据库

空间数据库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等:空间数据库有许多与关系数据库不同的特征。空间数据库包含了拓扑或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,常用空间推理、地理计算和空间知识表示技术。空间数据挖掘是指在空间数据库中非显式存在的知识、空间关系或其他意义的模式等的提取,它需要综合数据挖掘和空间数据库技术。目前在GIS中得到广泛的应用,空间数据挖掘的方法主要有归纳方法、聚集方法、统计信息网格算法(STING)以及空间聚集和特征邻近关系采掘等。

3.文本数据库

一般认为,数据挖掘的大部分研究主要针对结构化的数据,如关系的、事务的数据川。然而在现实世界中,可获取的大邻分信息存储在文本数据库中,由新闻、论文、书籍、数字图书馆、电子邮件消息等各种数据源的大量文档组成。文本数据库中存储的数据一般是半结构化的数据,也可能包含大量的非结构化的成分。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,而用户需要知道不同文档的比较,以及文档的重要性和相关性排列,或需要找出多文档的模式或趋势。文本挖掘不仅仅是把统计模型应用到数据文件上,而且是揭示文本集合之间的联系。特别地,联机文本挖掘指把网上的文本数据仔细搜寻一遍并从中获得一些信息,目前是通过互联网的搜索和文本分析方法实现。

4.Web数据库

Web数据库是Web和数据库技术的有机结合,是一个庞大而复杂的数据库,其存储数据的最大特点就是半结构化。Web上的每一个站点就是一个数据源,每一站点的信息和组织都不一样,形成了一个巨大的异构数据库环境。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题,这就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在,另外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型描述语言,将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。显然,面向Web的数据挖掘比一般的数据挖掘要复杂得多。

3.4.4数据挖掘的方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大regina大学开发的kddr;美国kansas大学开发的lers等。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michal-ski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

同类推荐
  • 泛长三角区域合作背景下的江苏经济创新发展

    泛长三角区域合作背景下的江苏经济创新发展

    本书主要讲述泛长三角区域的经济合作分析。江苏省域经济的创新发展,应跳出江苏看江苏,跳出长三角番江苏,在泛长三角区域合作背景下“东融西延”:东向融入上海、长三角经济;西向沿长江流域经济带、双陆桥经济带极化和辐射。
  • 创业案例集

    创业案例集

    本书收集了23个案例,其中包括江苏诚信空调设备有限公司创业纪实、红宝丽集团创业之路、南京固柏橡塑制品有限公司的成长之路、泰兴市航联电连接器厂创业之路等。
  • 幸福乡村江山

    幸福乡村江山

    本书从基本县情、历史沿革、经济社会发展现状入手,总结江山社会主义新农村建设的主要做法,分析典型案例,凝练江山社会主义新农村建设的品牌特色和经验启示,积极探索有效推进新农村建设的新理念、新途径和新方法。
  • 你一定要知道的经济常识全集

    你一定要知道的经济常识全集

    经济学是一门经世济民的实用科学。与人们的日常生活密切相关。其研究对象,既包括政策制定者如何“经纶济世”,也包括一家一户一人怎样消费、购物、储蓄、投资的小计划。所以说,经济学是一门生活化的学问,它就在我们身边。本书摆脱了经济学惯有的复杂与枯燥,用通俗易懂的语言将其内在的深刻原理与奥妙进行深入浅出的分析,使读者轻松了解经济学的基本面貌。同时,将经济常识同每一个普通人的生活联系起来,便于读者用经济学的视角和思维来开展行动,从而培养经济头脑,创造人生财富。
  • 穿越镀金时代

    穿越镀金时代

    作者认为中国过去几十年的发展时期是一个“镀金时代”。在这段历史中,中国实现了真实的成长,同时也积聚了经济泡沫。作者把中国的增长秘笈归结为一个脱胎于较低生产力水平、僵硬计划管理体制的“史前经济体”,快速形成市场和资本的现代化过程。它压缩了超过200年的悲欢离合和生生灭灭,是一个从残酷野蛮、积累加速准备起飞的前现代,到狂飙突进、推崇生存价值和经济效率最大化的现代化阶段,再到强调多元生活价值、主观幸福,不再唯经济增长至高无上的后现代的完整演化过程。但从现在开始,镀金时代结束,进步时代开始,接下来的10年至关重要,将直接决定中国是否能迈进一线大国的行列。
热门推荐
  • 异能妈咪:做我娘子好不好

    异能妈咪:做我娘子好不好

    【感谢阅文书评团提供书评支持】“你要他还是要我?”佘玉枫指着她身后高大帅气笑得灿烂的阳光男孩。“我都要可不可以啊?”纤纤纠结着看了眼身后的儿子,说道。“不可以,有他就没我!”“可他也是你的儿子啊!”他的儿子?怎么可能?他才22岁!怎么可能会有这么大的儿子??她才刚满20岁,又怎么可能会有高她两公分的儿子?不不不,这一切都不是真的。
  • 我生何惧

    我生何惧

    六个人,加入一场战争。究竟是生是死,谁也不知。他们与死神永远都只有一线之隔
  • 玄幻高手穿越都市

    玄幻高手穿越都市

    夜星是一位玄幻高手,因打通空间通道穿越地球,实力骤降,原本世界巅峰的他却要一点一点的重新开始修炼,不过这也挺不错的,泡妞,赚钱,打架,装逼,爽歪歪,虽然地球也有修真高手,但是夜星根本就不怕,超高的战斗经验,打扁金丹,元婴,渡劫,化神,飞升的强者!本书书友群:580944674
  • 王爷请自重之溺宠王妃

    王爷请自重之溺宠王妃

    她是21世纪令人闻风丧胆的金牌冷面杀手-----初夏。她杀人从不需要理由,只要给钱就算是国家干部也可以轻易杀掉。她机智,敏捷但最后却败给了……一朝穿越成为将军府的嫡小姐。在众目睽睽之下,暴揍众姨娘和姐姐。当街强吻冰山王爷……
  • 福妻驾到

    福妻驾到

    现代饭店彪悍老板娘魂穿古代。不分是非的极品婆婆?三年未归生死不明的丈夫?心狠手辣的阴毒亲戚?贪婪而好色的地主老财?吃上顿没下顿的贫困宭境?不怕不怕,神仙相助,一技在手,天下我有!且看现代张悦娘,如何身带福气玩转古代,开面馆、收小弟、左纳财富,右傍美男,共绘幸福生活大好蓝图!!!!快本新书《天媒地聘》已经上架开始销售,只要3.99元即可将整本书抱回家,你还等什么哪,赶紧点击下面的直通车,享受乐乐精心为您准备的美食盛宴吧!)
  • 末日神使

    末日神使

    自“未明状时期”之后,曾经支配人类梦境,过去,黑暗的往日支配者再次回来。世界因此再次被恐惧笼罩,那种恐怖的存在,普通人看上一眼,就会疯狂。多看一眼,就会变成狰狞的怪物。在这样被恐惧淹没的情况下。有人选择了臣服,想要生存下去;有人选择了疯狂,尝试忘记恐惧;更有人选择了崇拜,希望得到力量。但有这么一个人,选择狂暴的反抗。他企图杀死这些上古邪神!他徜徉在恐惧之海,搜寻着与往日支配者并驾齐驱的知识。他穿梭在末日废土,屠杀着那些召唤上古邪神的自私人类。他是手持混沌,背负罪恶。他是血腥的屠夫,他是末日的神使···司徒出品,貌似精品。克苏鲁背景,给您不一样的末日。
  • 相思谋:妃常难娶

    相思谋:妃常难娶

    某日某王府张灯结彩,婚礼进行时,突然不知从哪冒出来一个小孩,对着新郎道:“爹爹,今天您的大婚之喜,娘亲让我来还一样东西。”说完提着手中的玉佩在新郎面前晃悠。此话一出,一府宾客哗然,然当大家看清这小孩与新郎如一个模子刻出来的面容时,顿时石化。此时某屋顶,一个绝色女子不耐烦的声音响起:“儿子,事情办完了我们走,别在那磨矶,耽误时间。”新郎一看屋顶上的女子,当下怒火攻心,扔下新娘就往女子所在的方向扑去,吼道:“女人,你给本王站住。”一场爱与被爱的追逐正式开始、、、、、、、
  • 三界神皇

    三界神皇

    剑皇重生蛮荒,发现自己无法修炼,自废修为,重修剑道,直达巅峰。
  • 世界第一侦探殿下

    世界第一侦探殿下

    著名世界大侦探夏洛特·林顿,在取得英国公爵与法国骑士之后,与世界医学会副会长简普一起探案的故事。他们去到许多地方。他们曾经和许多侦探共事,例如日本工藤新一等。也曾和世界著名大盗鲁邦三世打过交道,也和FBI有关系。他们在许多案子中发挥所长去破案,让罪恶的黑暗暴露在正义的阳光下
  • 李鸿章的成事之道

    李鸿章的成事之道

    李鸿章是中国清朝末期重臣,洋务运动的主要倡导者之一,淮军创始人和统帅,晚清最杰出的外交家。他的后半生致力于外交事业。李鸿章不仅是一位中国近代史上争议最大的历史人物,而且也是一位影响了近代中国近半个世纪的晚清军政重臣。