数据挖掘--认识数据

十念  金牌会员 | 2024-6-15 00:42:28 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 569|帖子 569|积分 1707

数据挖掘--引论
数据挖掘--认识数据
数据挖掘--数据预处理
数据挖掘--数据堆栈与联机分析处理
数据挖掘--挖掘频仍模式、关联和相关性:基本概念和方法
数据挖掘--分类
数据挖掘--聚类分析:基本概念和方法

数据对象与属性类型



  • 属性:是一个数据字段,表现数据对象的一个特征
  • 标称属性:值是一些符号或事物的名称
  • 二元属性:布尔属性(1或0)
  • 序数属性:用有序字母或者数字来表现不划一级1-大,2-中,3-小
  • 数值属性:区间标度属性(温度)、比率标度
  • 离散属性与一连属性:具有有限或无线可能个数
数据的基本统计描述

中列数:(max+min)/2

盒图

四分位数极差:IQR=Q3-Q1
离群点:大于Q3有1.5倍IQR,小于Q1有1.5倍IQR
最大,最小(不超过1.5倍IQR)(没有的话以最大观察值为准)
中位数


分位数图




分位数-分位数图



区别

因可以说分位数和分位数图是相关的概念,但并不完全雷同。分位数是描述数据会合某个位置的值,而分位数图则是以图形方式展示了数据集的团体分布情况。
度量数据的相似性和相异性

数据矩阵与相异性矩阵

数据矩阵:两张雷同长宽的表来实现对象-属性
相异性矩阵:存放n个对象两两之间的相近度(任意两个之间的距离)


标称属性的相近性度量

d(i,j)=(p-m)/p
p:总属性个数
m:i,j雷同的属性个数
二元属性的相近性度量



列出列联表
算出q,r,s,t
对称二元相异性:

非对称二元相异性(正匹配比度匹配有意义的多,因此负匹配数t忽略不计):

数值属性的相异性:闵可夫斯基距离

欧式距离、曼哈顿距离(差值相加)、上确界距离(max|xi1-xi2|)(差值最大)


闵可夫斯基距离:是对欧几里得距离的推广,可以理解为不同维度考察下的距离


序数属性的相近度量



混淆类型属性的相异性

混淆类型相异度盘算的头脑:按不同类型的属性(如数值型,二元变量,名义变量等),根据各自类型的盘算方法盘算之后再加权求和。






关于指示符(即 权重):指示符为0有两种情况


余弦相似性






免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

十念

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表