(七)机器学习 - 散点图

打印 上一主题 下一主题

主题 882|帖子 882|积分 2648

散点图(Scatter Plot)是一种用于展示两个变量之间关系的图表范例。它通过在二维平面上绘制点来表示数据的分布情况,每个点的横坐标(x轴)和纵坐标(y轴)分别对应数据集中的两个变量的值。散点图的主要目的是观察和分析两个变量之间是否存在某种相干性,比方正相干、负相干或无相干。
  
 
散点图的一些关键特点: 

  • 数据点:每个数据点在图表上的位置由其对应的两个变量值决定。
  • 变量关系:通过观察数据点的分布模式,可以判断两个变量之间是否存在相干性。如果数据点大致沿着一条直线分布,这可能表明两个变量之间存在线性关系。
  • 趋势和模式:散点图可以揭示数据的趋势和模式,如点的分布是否集中、分散,是否存在聚集区域或非常值。
  • 正相干和负相干

    • 正相干:如果一个变量的值增加时,另一个变量的值也倾向于增加,这种关系称为正相干。
    • 负相干:如果一个变量的值增加时,另一个变量的值倾向于减少,这种关系称为负相干。

  • 无相干:如果数据点在图表上随机分布,没有显着的模式,这可能表明两个变量之间没有显着的相干性。
  • 非常值:散点图可以直观地表现非常值,即那些与其他数据点显着偏离的点。
  • 多变量分析:在三维空间中,可以使用三维散点图来展示三个变量之间的关系。
1、使用Python 的Matplotlib 模块绘制散点图:
  1. // 它需要两个长度相同的数组,一个数组用于 x 轴的值,另一个数组用于 y 轴的值
  2. import matplotlib.pyplot as plt
  3. x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
  4. y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
  5. plt.scatter(x, y)
  6. plt.show()
复制代码
结果:
 
2、随机数据分布 
在机器学习中,数据集可以包含成千上万乃至数百万个值。
测试算法时,您可能没有真实的数据,您可能必须使用随机生成的值。
实例:

创建两个数组,它们都添补有来自正态数据分布的 1000 个随机数。
第一个数组的平均值设置为 5.0,标准差为 1.0。
第二个数组的平均值设置为 10.0,标准差为 2.0:
  1. // 有 1000 个点的散点图:
  2. import numpy
  3. import matplotlib.pyplot as plt
  4. x = numpy.random.normal(5.0, 1.0, 1000)
  5. y = numpy.random.normal(10.0, 2.0, 1000)
  6. plt.scatter(x, y)
  7. plt.show()
复制代码
结果: 
 
   散点图在各个领域中都有广泛的应用,包罗经济学、社会学、生物学、工程学和医学等,它们是探索变量之间关系的重要工具。通过散点图,研究者可以直观地观察数据的分布特性,为进一步的统计分析提供初步的线索。 
  END. 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南七星之家

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表