连续数据的离散化研究[开题报告]

3.0 文小白 2023-11-09 11 0 26KB 5 页 10文币
侵权投诉
开题报告
信息管理与信息系统
连续数据的离散化研究
一、选题的背景、意义
21 世纪以来,随着科学技术社会生产力的迅速发展以及人们认识和管理水平的提高,
时伴随着信息化,电子化进程的发展,信息处理在整个社会规模上迅速产业化。同时计算机和信
息技术的高速发展给人类社会带来了巨大的变化和影响,数据库管理系统的日益普及,使人们
能够非常方便地获取和存储大量的数据,数据成为了最重要的战略资源。
如今,随着计算机、网络和通讯等信息技术的高速发展,当今社会已经进入了网络信息时代,
计算机技术得到了迅猛的发展,特别是存储技术、数据库技术和网络技术,信息处理在整个社会
规模上迅速产业化,在技术表现为整个社会对大规模数据操作的产业化。存储设备单位价格的不
断下跌而容量的急剧扩大,关系数据库、对象数据库、多媒体数据库、地理信息数据库和空间数据
库的不断成熟并得到广泛的应用,数据库管理系统的日益普及,这使得人们所积累的数据越来
越多,并且数据与信息系统中的不确定性更加显著。海量的数据背后隐藏着许多重要的信息,人
们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以
高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现
有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆炸但知识
贫乏的现象”。 例如,商业上条形码的普遍使用,使得每天很多行业都积累了数以万计的数据,
各种同步卫星每小时传回地球的遥感图像数据就达 50 千兆字节。要把大量的数据作为信息,信
息成为知识,知识付诸于应用,已使一些传统的方法感到无能为力。
海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行深入分析,以便更好地利
用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但
无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据
背后隐藏知识的手段。因此,如何从大量的、杂乱无章的、强干扰的数据中挖掘出潜在的、有利用
价值的信息,便成为人类智能信息处理中面临的前所未有的挑战。由此产生了人智能研究的一
崭新领域一一数据挖掘Data Mining简称 DM)
数据库中存在连续型性,而现有的很多数据挖掘方法能处理离散型
性,因而要对连续属性进行离散化。因此,连续属离散化方法成为数据挖掘领域重要的
作,直接影响到数据挖掘的量。
由于各种领域的实应用的进,对于数据的化算法取得了猛进的发展
连续属性的离散问题被广泛研究,并取得了大量成从不同领域提出了多种
化方法。
连续数据离散化技术在传统的机器学习当作边缘课题够的重,随着
近年来数据挖掘的不断更发展,数据化在数据挖掘技术中显现出其不可代的重要
性,在规则取、分类等很多算法中,其是在应用粗集进行数据挖掘的研究中,连续
性数据必须进行离散化。但作为一种比较新兴领域,其现有的算法还远没有达到
的程。因此,为对连续数据的离散研究是当今国内的一个重要的课题
为数据挖掘做准备,掌握连续数据的化方法并知各种方法的对于数据处理
要的。因此,本次毕业设计选择连续数据的离散研究选题
二、研究的基本内容与拟解决的主要问题
1 研究基本内
掌 握 连 续 离 散 化 方 法 的 基 本 思 想 , 设一 个 连 续 性 的 决 策 信 息 系 统
s=(UAT∪D),这里 U 为有非空的样本集合论域或对象空AT 空间的非空
集合D决策属集合,对于每连续a∈AT,其域旷样本Ua上的
取值范围,由实数上的一段左闭右开[VaWa)来表样本空间 U连续离散
化的就是要在每个连续a域 Vɑ 寻找一个当的ɑ,且在下的系统
初始系统同的决策能力,只将属性值域划分为相交的子间,对每个子
符号赋值,得到一组屹上的离散化取值。因为是由一域屹内割点序列
(v.<v:⋯⋯<v)确定的,所以,离散化就是要在每连续域屹点序列集合出一
当的点序列,进而形成满足系统要的分。
学习掌握几典型连续数据离散化方法,并熟练掌握其中一种,利用实现并
编写一个连续数据离散化的方法,并用实连续数据进行离散化后放置到程序决策树分析方
C4.5 中进行测
2.拟解决问题
学习连续数据离散化的方法,包括局部离散化和全局离散化方法、监督离散化和非监督离散
化方法、静态离散化和动态离散化方法。同时,熟练掌握其中一种方法并程实现,并通
数据对连续属离散化并对离散化后的数据进行分析
三、研究的方法与技术路线、研究难点,预期达到的目标
1. 研究方法和技术路线
主要采用的研究方法为实验法、文献资料法、程序设计法、数据分析法,即根据离散化的方法
找到具体的对连续数据的离散化的步骤,用软件工程的方法实现系统程序。
本次设计中用的环境Visual Studio 2005 c#Microsoft SQL Server 2000 数据库。
工具 Visual Studio.NET .NET 平台最为强大的工具,无软件服务
业应用程 Visual Studio.NET 都可以提供近乎完美 Visual
Studio.NET 提供包括设计、码、编译调试数据库联接操作等基本功能和开放架构服务
器组件开平台工具和应用程布工具以及性能报告等高功能。
Microsoft SQL Server 2000 Microsoft
SQL Server 数据库管理系统的一个版本Internet 成、伸缩和可用性、业数据库等功能
的数据库管理系统。
2.研究难点
本次设计中理论内容是学习过程中新问题,因此,理掌握连续
化的理和算法是一个挑战;另外后如何通程来实现连续属离散化方法
文研究难点
3
1查到连续数据离散化的方法并熟这些离散化方法
2)掌握连续数据离散化方法
3掌握离散化方法的基础上,通过编程实现其中一种算法。
四、论文详细工作进度和安排
2011.01.11--2011.03.01 统开代码计设阶段开始论文稿,成论
提纲。
2011.03.01—2011.3.15 论文初稿
2011.03.16—2011.05.05 毕业实习,论文完善
2011.05.06---2011.05.12 论文定稿
摘要:

开题报告信息管理与信息系统连续数据的离散化研究一、选题的背景、意义21世纪以来,随着科学技术和社会生产力的迅速发展以及人们认识和管理水平的提高,同时伴随着信息化,电子化进程的发展,信息处理在整个社会规模上迅速产业化。同时计算机和信息技术的高速发展给人类社会带来了巨大的变化和影响,数据库管理系统的日益普及,使人们能够非常方便地获取和存储大量的数据,数据成为了最重要的战略资源。如今,随着计算机、网络和通讯等信息技术的高速发展,当今社会已经进入了网络信息时代,计算机技术得到了迅猛的发展,特别是存储技术、数据库技术和网络技术,信息处理在整个社会规模上迅速产业化,在技术表现为整个社会对大规模数据操作的产...

展开>> 收起<<
连续数据的离散化研究[开题报告].doc

共5页,预览5页

还剩页未读, 继续阅读

作者:文小白 分类:学术研究 价格:10文币 属性:5 页 大小:26KB 格式:doc 时间:2023-11-09

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 5
客服
关注