此前不明的信息就是指该信息是事先不曾想到的,既数据挖掘是要发觉这些不可以靠判断力发觉的信息或专业知识,乃至是违反判断力的信息或专业知识,发掘出的信息越发意想不到,就很有可能越有使用价值.在商业服务运用中最典型性的事例便是一家连锁加盟店根据数据挖掘发觉了小孩子尿不湿和葡萄酒中间拥有 令人震惊的联络.
数据挖掘和数据仓库
绝大多数状况下,数据挖掘必须先把数据从数据仓库中取得数据挖掘库或数据市集中(见图1)。从数据仓库中立即获得开展数据挖掘的数据有很多益处。就如大家后边会提到的,数据仓库的数据清除和数据挖掘的数据清除类似,假如数据在导进数据仓库时早已清除过,那很可能在做数据挖掘时就没必要在清除一次了,并且全部的数据不一致的难题都早已被你解决了。
数据挖掘库很有可能就是你的数据仓库的一个逻辑性上的非空子集,而不一定非要是物理学上独立的数据库。但假如你的数据仓库的云计算服务器早已很焦虑不安,那么你最好是還是创建一个独立的数据挖掘库。
自然为了更好地数据挖掘你也无须非要创建一个数据仓库,数据仓库并不是必不可少的。创建一个极大的数据仓库,把每个不一样源的数据统一在一起,处理全部的数据矛盾难题,随后把全部的数据导入到一个数据仓库内,是一项极大的工程项目,很有可能要用两年的時间花几百万的钱才可以进行。仅仅为了更好地数据挖掘,你能把一个或好多个事务管理数据库导到一个写保护的数据库文件,就把它作为数据市集,随后在他上边开展数据挖掘。