数据挖掘的国内外研究现状
发布网友
发布时间:2022-04-29 17:16
我来回答
共4个回答
懂视网
时间:2022-04-14 21:33
数据挖掘导论读书笔记之绪论 数据挖掘的前提:数据收集和数据存储技术的快速进步。数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。 数据挖掘是在
数据挖掘导论读书笔记之绪论
数据挖掘的前提:数据收集和数据存储技术的快速进步。
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。
数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。
数据挖掘与知识发现
数据挖掘是数据库中知识发现不可缺少的一部分(knowledge deiscovery in database)KDD,KDD是将未加工的数据转换为有用信息的整个过程。
输入数据:输入各种形式存储,并且可以驻留在几种的数据存储库中,活分布在多个站点上。
数据预处理:将未加工的输入数据转换成适合分析的形式。包括:融合来自多个数据源的数据,清洗数据,以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。是整个知识发现过程中最费力,耗时的步骤。
后处理:将数据挖掘的结果所揭示的规律结合商业活动管理工具,从而开展或者测试有效的商业活动。使那些有效,有用的结果集成到决策支持系统中。
数据挖掘需要解决的问题
可伸缩
由于数据产生和收集技术的进步,大数据越来越普遍。如果数据挖掘算法要处理这些海量数据集,算法必须是可伸缩的(scalabe)。使用抽样技术或者开发并行和分布算法来提高可伸缩性。
高维性
现在数据通常是具有成千上百属性的数据集。具有时间或者空间分量的数据集也经常具有很高的维度。为底维数据开发的传统的数据分析技术通常不能很好处理高维度数据,此外,对于某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加
异种数据和复杂数据
传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务,科学以及其他领域的作用越来越大,越来越需要处理异种属性的技术。如:具有序列和三维结构的DNA数据等。为了挖掘这种复杂对象而开发的技术应当考虑数据间的联系。如:时间和空间的自相关性,图的连通性等
数据的所有权与分布
有时,需要分析的数据并非存放在一个站点或者归属一个机构,二十地理上分布属于多个机构。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:如何降低执行分布式计算所需要的通信量,如何有效的统一从多个资源得到的数据挖掘结果,如何处理数据安全性等
非传统的分析<喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vc3Ryb25nPgq0q82ztcTNs7zGt723qLv509rSu9bWvNnJ6KGqvOzR6bXExKPKvaOsvLTM4bP20rvW1rzZyeijrMi7uvPJ6LzGyrXR6cC0ytW8r8r9vt2jrMi7uvPV67bUvNnJ6LfWzvbK/b7doaO1q9Xi0ru3vbeo0KfCyrK7uN+ho9LytMvQ6NKq19S2r7XEsvrJ+rrNxsC5wLzZyeiho7TLzeLK/b7dzdq+8sv5t9bO9rXEyv2+3c2os6Oyu8rHvqvQxMnmvLC1xMq10em94bn7o6y2+MrHyv2+3bXEyrG7+tDQ0fmxvqOob3Bwb3J0dW5pc3RpYyBzYW1wbGWjqaOssrvKx8vmu/rR+bG+KHJhbmRvbSBzYW1wbGUpoaMKPGJyPgoKPGJyPgoKPHN0cm9uZz7K/b7dzdq+8rXExvDUtDwvc3Ryb25nPgrOqsHL063VvcnPyva1xMz01b2jrMr9vt3N2r7ywPvTw8HLyOfPwsHs0/K1xMu8z+ujugoKPHVsPgo8bGk+zbO8xtGntcSz6dH5o6y5wLzGo6y82cnovOzR6TxsaT7Iy7mk1sfE3KOsxKPKvcq2sfCjrLv6xvfRp8+wtcTL0cv3y+O3qKOsvajEo7y8yvW6zdGnz7DA7cLbPGxpPtfu08W7rzxsaT69+LuvvMbL4zxsaT7Qxc+iwts8bGk+0MW6xbSmwO08bGk+v8nK07uvPGxpPtDFz6K87Mv3PGxpPsr9vt2/4s+1zbM8bGk+uN/Q1MTcsqLQ0LzGy+O8vMr1PGxpPrfWsrzKvby8yvUKCjxpbWcgc3JjPQ=="file:///C:/Users/Administrator/AppData/Local/YNote/data/zbm1109004380@163.com/051ecd2cc8c344c8beec2debf77cf266/qq%E6%88%AA%E5%9B%BE20140719151635.png?90" alt="">
数据挖掘任务
通常分为两大类:
预测任务:根据其他属性的值,预测特定属性的值。被预测的属性称目标变量(target variable)活因变量(dependent variable)。用来做预测的属性称为说明变量(explanatory variable)或者自变量(independent variable)
描述任务:导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),本质上,描述性数据挖掘任务通常是探查性的。需要做后处理技术验证和解释结果
预测建模(predictive modeling)涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification)用于预测离散的目标变量;回归(regression)用于预测连续的目标变量。
如:预测web用户是否网购是分类,因为该目标变量是二值的。预测某股票的未来价格是回归的,因为价格具有连续值属性。两项任务都是训练一个模型,是目标变量预测值与实际值之间的误差达到最小。
关联分析(association analysis)用来发现描述数据中强关联特征的模型。所发现的模式通常用蕴含跪着或者特征子集的形式表示。由于搜索通奸是指数规模,关联分析的目标是以有效的方式提取最有趣的模式。
聚类分析(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组,找出显著影响地球气候的海洋区域等。
异常检测(anomaly detection)的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)异常检测算法的目标是发现真正的异常点。而避免错误地将正常的对象标注为异常点。换言之,好的异常检测器必须具有高的检测率和底的误报率。应用包括:检测网络攻击,欺诈等
热心网友
时间:2022-04-14 18:41
摘要:随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。
关键词:数据挖掘;知识;分析;市场营销;金融投资
随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。由此,数据挖掘技术应运而生。下面,本文对数据技术及其应用作一简单介绍。
一、数据挖掘定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为:按企业制定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
二、数据挖掘技术
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,*文其中数据仓库技术的发展与数据挖掘有着密切的关系。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中,因为数据仓库会对数据进行清理,并会解决数据的不一致问题,这会给数据挖掘带来很多好处。此外数据挖掘还利用了人工智能(AI)和统计分析的进步所带来的好处,这两门学科都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘所发现的知识的不同,其所利用的技术也有所不同。
1.广义知识。指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向屙性的归约等。数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在*数据库中。而面向属性的归约是以类SQL语言来表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。
2.关联知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规
则发现方法是Apriori算法和FP—Growth算法。关联规则的发现可分为两步:第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。
3.分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类方法有决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K—Means划分等。其中最为典型的分类方法是决策树。它是从实例集中构造决策树,是一种有指导的学习方法。
该方法先根据训练子集形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练子集中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的屙性,该分枝对应该屙性的某一可能值。
4.预测型知识。它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年BoX和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。
5.偏差型知识。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。
三、数据挖掘流程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,*业论文并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如下:
过程中各步骤的大体内容如下:
1.确定业务对象,清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构不可预测,但要探索的问题应该是有预见的,为了数据挖掘而挖掘则带有盲目性,是不会成功的。
2.数据准备。(1)数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(2)数据预处理。研究数据的质量,进行数据的集成、变换、归约、压缩等.为进一步的分析作准备,并确定将要进行的挖掘操作的类型。(3)数据转换。将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成功的关键。
3.数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。
4.结果分析。解释并评估结果。其使用的分析方法一般应视挖掘操作而定,通常会用到可视化技术。
5.知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。
四、数据挖掘的应用
数据挖掘技术从一开始就是面向应用的。目前在很多领域,数据挖掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。
1.市场营销。由于管理信息系统和P0S系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场营销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。数据挖掘在营销业上的应用可分为两类:数据库营销(database markerting)和货篮分析(basket analysis)。数据库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客,以便向它们推销产品。通过对已有的顾客数据的辱淅,可以将用户分为不同级别,级别越高,其购买的可能性就越大。货篮分析
是分析市场销售数据以识别顾客的购买行为模式,例如:如果A商品被选购,那么B商品被购买的可能性为95%,从而帮助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也更有目的性。这方面的系统有:Opportunity Ex-plorer,它可用于超市商品销售异常情况的因果分析等,另外IBM公司也开发了识别顾客购买行为模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2.金融投资。典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。代写硕士论文由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Selector和LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。
3.欺诈甄别。银行或商业上经常发生诈骗行为,如恶性透支等,这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,这样当某项业务符合这些特征时,可以向决策人员提出警告。
这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;FAIS则是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的*数据表单。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程的研究、web信息检索等。
结束语
随着数据库、人工智能、数理统计及计算机软硬件技术的发展,数据挖掘技术必能在更多的领域内取得更广泛的应用。
参考文献:
[1]闫建红《数据库系统概论》的教学改革与探索[J].山西广播电视大学学报,2006,(15):16—17.
参考资料:http://www.pe2008.xjtu.e.cn/lunwen/
热心网友
时间:2022-04-14 19:59
懒惰阿。。。
开题还是论文?
这个没有,你问多少人也不会为这点分给你现写的。
告诉你个好方法:从中国知网(没账号密码?不好意思,再悬赏200分自己问去吧)上搜索往年的论文,然后把.NK格式的大论文的前言部分找自己需要的粘贴下来,再自己添几句话使之看起来不象别人的文章,多搜几篇1000字很好搞定,就看你想不想做了。
话已至此,得分~~
热心网友
时间:2022-04-14 21:34
相关范文:
数据挖掘技术及其应用
摘要:随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。
关键词:数据挖掘;知识;分析;市场营销;金融投资
随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。由此,数据挖掘技术应运而生。下面,本文对数据技术及其应用作一简单介绍。
一、数据挖掘定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为:按企业制定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
二、数据挖掘技术
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,*文其中数据仓库技术的发展与数据挖掘有着密切的关系。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中,因为数据仓库会对数据进行清理,并会解决数据的不一致问题,这会给数据挖掘带来很多好处。此外数据挖掘还利用了人工智能(AI)和统计分析的进步所带来的好处,这两门学科都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘所发现的知识的不同,其所利用的技术也有所不同。
1.广义知识。指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向屙性的归约等。数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在*数据库中。而面向属性的归约是以类SQL语言来表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。
2.关联知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规
则发现方法是Apriori算法和FP—Growth算法。关联规则的发现可分为两步:第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。
3.分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类方法有决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K—Means划分等。其中最为典型的分类方法是决策树。它是从实例集中构造决策树,是一种有指导的学习方法。
该方法先根据训练子集形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练子集中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的屙性,该分枝对应该屙性的某一可能值。
4.预测型知识。它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年BoX和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。
5.偏差型知识。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。
三、数据挖掘流程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,*业论文并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如下:
过程中各步骤的大体内容如下:
1.确定业务对象,清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构不可预测,但要探索的问题应该是有预见的,为了数据挖掘而挖掘则带有盲目性,是不会成功的。
2.数据准备。(1)数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(2)数据预处理。研究数据的质量,进行数据的集成、变换、归约、压缩等.为进一步的分析作准备,并确定将要进行的挖掘操作的类型。(3)数据转换。将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成功的关键。
3.数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。
4.结果分析。解释并评估结果。其使用的分析方法一般应视挖掘操作而定,通常会用到可视化技术。
5.知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。
四、数据挖掘的应用
数据挖掘技术从一开始就是面向应用的。目前在很多领域,数据挖掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。
1.市场营销。由于管理信息系统和P0S系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场营销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。数据挖掘在营销业上的应用可分为两类:数据库营销(database markerting)和货篮分析(basket analysis)。数据库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客,以便向它们推销产品。通过对已有的顾客数据的辱淅,可以将用户分为不同级别,级别越高,其购买的可能性就越大。货篮分析
是分析市场销售数据以识别顾客的购买行为模式,例如:如果A商品被选购,那么B商品被购买的可能性为95%,从而帮助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也更有目的性。这方面的系统有:Opportunity Ex-plorer,它可用于超市商品销售异常情况的因果分析等,另外IBM公司也开发了识别顾客购买行为模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2.金融投资。典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。代写硕士论文由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Selector和LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。
3.欺诈甄别。银行或商业上经常发生诈骗行为,如恶性透支等,这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,这样当某项业务符合这些特征时,可以向决策人员提出警告。
这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;FAIS则是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的*数据表单。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程的研究、web信息检索等。
结束语
随着数据库、人工智能、数理统计及计算机软硬件技术的发展,数据挖掘技术必能在更多的领域内取得更广泛的应用。
参考文献:
[1]闫建红《数据库系统概论》的教学改革与探索[J].山西广播电视大学学报,2006,(15):16—17.
其他相关:
http://www.wendang.com/soft/3556.htm
数据挖掘研究现状及最新进展(CAJ格式)
仅供参考,请自借鉴
希望对您有帮助
补充:
如何撰写毕业论文
本科专业(含本科段、独立本科段)自考生在各专业课程考试成绩合格后,都要进行毕业论文的撰写(工科类专业一般为毕业设计、医科类一般为临床实习)及其答辩考核。毕业论文的撰写及答辩考核是取得高等教育自学考试本科毕业文凭的重要环节之一,也是衡量自考毕业生是否达到全日制普通高校相同层次相同专业的学力水平的重要依据之一。但是,由于许多应考者缺少系统的课堂授课和平时训练,往往对毕业论文的独立写作感到压力很大,心中无数,难以下笔。因此,对本科专业自考生这一特定群体,就毕业论文的撰写进行必要指导,具有重要的意义。
本文试就如何撰写毕业论文作简要论述,供参考。
毕业论文是高等教育自学考试本科专业应考者完成本科阶段学业的最后一个环节,它是应考者的总结性独立作业,目的在于总结学习专业的成果,培养综合运用所学知识解决实际问题的能力。从文体而言,它也是对某一专业领域的现实问题或理论问题进行科学研究探索的具有一定意义的论说文。完成毕业论文的撰写可以分两个步骤,即选择课题和研究课题。
首先是选择课题。选题是论文撰写成败的关键。因为,选题是毕业论文撰写的第一步,它实际上就是确定“写什么”的问题,亦即确定科学研究的方向。如果“写什么”不明确,“怎么写”就无从谈起。
教育部自学考试办公室有关对毕业论文选题的途径和要求是“为鼓励理论与工作实践结合,应考者可结合本单位或本人从事的工作提出论文题目,报主考学校审查同意后确立。也可由主考学校公布论文题目,由应考者选择。毕业论文的总体要求应与普通全日制高等学校相一致,做到通过论文写作和答辩考核,检验应考者综合运用专业知识的能力”。但不管考生是自己任意选择课题,还是在主考院校公布的指定课题中选择课题,都要坚持选择有科学价值和现实意义的、切实可行的课题。选好课题是毕业论文成功的一半。
第一、要坚持选择有科学价值和现实意义的课题。科学研究的目的是为了更好地认识世界、改造世界,以推动社会的不断进步和发展。因此,毕业论文的选题,必须紧密结合社会主义物质文明和精神文明建设的需要,以促进科学事业发展和解决现实存在问题作为出发点和落脚点。选题要符合科学研究的正确方向,要具有新颖性,有创新、有理论价值和现实的指导意义或推动作用,一项毫无意义的研究,即使花很大的精力,表达再完善,也将没有丝毫价值。具体地说,考生可从以下三个方面来选题。首先,要从现实的弊端中选题,学习了专业知识,不能仅停留在书本上和理论上,还要下一番功夫,理论联系实际,用已掌握的专业知识,去寻找和解决工作实践中急待解决的问题。其次,要从寻找科学研究的空白处和边缘领域中选题,科学研究
还有许多没有被开垦的*地,还有许多缺陷和空白,这些都需要填补。应考者应有独特的眼光和超前的意识去思索,去发现,去研究。最后,要从寻找前人研究的不足处和错误处选题,在前人已提出来的研究课题中,许多虽已有初步的研究成果,但随着社会的不断发展,还有待于丰富、完整和发展,这种补充性或纠正性的研究课题,也是有科学价值和现实指导意义的。
第二、要根据自己的能力选择切实可行的课题。毕业论文的写作是一种创造性劳动,不但要有考生个人的见解和主张,同时还需要具备一定的客观条件。由于考生个人的主观、客观条件都是各不相同的,因此在选题时,还应结合自己的特长、兴趣及所具备的客观条件来选题。具体地说,考生可从以下三个方面来综合考虑。首先,要有充足的资料来源。“巧妇难为无米之炊”,在缺少资料的情况下,是很难写出高质量的论文的。选择一个具有丰富资料来源的课题,对课题深入研究与开展很有帮助。其次,要有浓厚的研究兴趣,选择自己感兴趣的课题,可以激发自己研究的热情,调动自己的主动性和积极性,能够以专心、细心、恒心和耐心的积极心态去完成。最后,要能结合发挥自己的业务专长,每个考生无论能力水平高低,工作岗位如何,都有自己的业务专长,选择那些能结合自己工作、发挥自己业务专长的课题,对顺利完成课题的研究大有益处。
选好课题后,接下来的工作就是研究课题,研究课题一般程序是:搜集资料、研究资料,明确论点和选定材料,最后是执笔撰写、修改定稿。
第一、研究课题的基础工作———搜集资料。考生可以从查阅图书馆、资料室的资料,做实地调查研究、实验与观察等三个方面来搜集资料。搜集资料越具体、细致越好,最好把想要搜集资料的文献目录、详细计划都列出来。首先,查阅资料时要熟悉、掌握图书分类法,要善于利用书目、索引,要熟练地使用其他工具书,如年鉴、文摘、表册、数字等。其次,做实地调查研究,调查研究能获得最真实可靠、最丰富的第一手资料,调查研究时要做到目的明确、对象明确、内容明确。调查的方法有:普遍调查、重点调查、典型调查、抽样调查。调查的方式有:开会、访问、问卷。最后,关于实验与观察。实验与观察是搜集科学资料数据、获得感性知识的基本途径,是形成、产生、发展和检验科学理论的实践基础,本方法在理工科、医类等专业研究中较为常用,运用本方法时要认真全面记录。
第二、研究课题的重点工作———研究资料。考生要对所搜集到手的资料进行全面浏览,并对不同资料采用不同的阅读方法,如阅读、选读、研读。
通读即对全文进行阅读,选读即对有用部分、有用内容进行阅读,研读即对与研究课题有关的内容进行全面、认真、细致、深入、反复的阅读。在研读过程中要积极思考。要以书或论文中的论点、论据、论证方法与研究方法来触发自己的思考,要眼、手、脑并用,发挥想象力,进行新的创造。
在研究资料时,还要做好资料的记录。
第三、研究课题的核心工作―――明确论点和选定材料。在研究资料的基础上,考生提出自己的观点和见解,根据选题,确立基本论点和分论点。提出自己的观点要突出新创见,创新是灵魂,不能只是重复前人或人云亦云。同时,还要防止贪大求全的倾向,生怕不完整,大段地复述已有的知识,那就体现不出自己研究的特色和成果了。
根据已确立的基本论点和分论点选定材料,这些材料是自己在对所搜集的资料加以研究的基础上形成的。组织材料要注意掌握科学的思维方法,注意前后材料的逻辑关系和主次关系。
第四、研究课题的关键工作―――执笔撰写。考生下笔时要对以下两个方面加以注意:拟定提纲和基本格式。
拟定提纲包括题目、基本论点、内容纲要。内容纲要包括大项目即大段段旨、中项目即段旨、小项目即段中材料或小段段旨。拟定提纲有助于安排好全文的逻辑结构,构建论文的基本框架。
基本格式:一般毕业论文由标题、摘要、正文、参考文献等4方面内容构成。标题要求直接、具体、醒目、简明扼要。摘要即摘出论文中的要点放在论文的正文之前,以方便读者阅读,所以要简洁、概括。正文是毕业论文的核心内容,包括绪论、本论、结论三大部分。绪论部分主要说明研究这一课题的理由、意义,要写得简洁。要明确、具体地提出所论述课题,有时要写些历史回顾和现状分析,本人将有哪些补充、纠正或发展,还要简单介绍论证方法。本论部分是论文的主体,即表达作者的研究成果,主要阐述自己的观点及其论据。这部分要以充分有力的材料阐述观点,要准确把握文章内容的层次、大小段落间的内在联系。篇幅较长的论文常用推论式(即由此论点到彼论点逐层展开、步步深入的写法)和分论式(即把从属于基本论点的几个分论点并列起来,一个个分别加以论述)两者结合的方法。结论部分是论文的归结收束部分,要写论证的结果,做到首尾一贯,同时要写对课题研究的展望,提及进一步探讨的问题或可能解决的途径等。参考文献即撰写论文过程中研读的一些文章或资料,要选择主要的列在文后。
第五、研究课题的保障工作―――修改定稿。通过这一环节,可以看出写作意图是否表达清楚,基本论点和分论点是否准确、明确,材料用得是否恰当、有说服力,材料的安排与论证是否有逻辑效果,大小段落的结构是否完整、衔接自然,句子词语是否正确妥当,文章是否合乎规范。
总之,撰写毕业论文是一种复杂的思维活动,对于缺乏写作经验的自考生来说,确有一定的难度。因此,考生要“学习学习再学习,实践实践再实践”,虚心向指导教师求教。