读商战数据挖掘：你需要了解的数据科学与分析头脑10数据科学技术

登录 · 发表于 2025-7-9 05:16:49

1. 面向分析工程

1.1. 数据科学的本质是根据原则性技术，提取数据中的信息或知识
1.2. 很难把技术与紧张的商业问题完全匹配，也很难得到能直接应用于技术的数据

1.2.1. 商业人士通常比数据科学新手更容易担当这个事实，由于在统计学、呆板学习和数据挖掘等领域的教学过程中，学生们面对的问题通常都可以用他们所学的工具直接解决

1.3. 商业问题很少是单纯的分类问题、回归问题或聚类问题，它们就是商业问题
1.4. 许多行业都存在雷同目标市场营销的问题
1.5. 目标市场营销问题的基本结构也出现在许多其他问题中
1.6. 期望值框架可以有助于把很复杂的商业问题分解成一个个子问题，以便于寻找解决方案

1.6.1. 期望值的分解能使我们在数据理解环节的努力更集中

1.7. 选择性毛病

1.7.1. 数据来自于以前的捐款活动，即来自于以前简直响应过的捐款人
1.7.2. 选择性毛病，数据不是从需要现实应用模型的总体中随机选择的，相反它在某种程度上是有偏的
1.7.3. 有的数据科学技术能够资助建模者处置惩罚这样的选择性毛病

1.8. 数据应该被作为一项资产来处置惩罚

1.8.1. 不仅要思量如何利用已有资产，还要思量如何投资资产，以得到高额回报
1.8.2. 不但对数据资产的投资需要审慎进行，工具也是如此
1.8.3. 学习曲线有助于理解数据量和相应的泛化能力提升的关系
1.8.4. 对数据进行投资，以观察更大的数据量是否会带来更好的性能，以及曲线外凸是否代表了更大的提升空间
- 1.8.4.1. 如果通过分析发现投资并不划算，那么我们可以停止投资

1.9. 我们无法从这个变乱中获取数据
1.10. 在这方面准确建模的成本太高
1.11. 该变乱太不可能发生，可直接忽略
1.12. 对现在这种情况而言，这个公式已经足够了，我们可以用它进行下一步了
1.13. 分析工程的重点不在于找出可以处置惩罚所有的偶然情况的复杂的解决方案

1.13.1. 要深化对问题的数据分析式思考，从而明确数据挖掘的作用，思量业务约束、成本和收益，并有意识地、明确地简化假设
1.13.2. 项目成功的概率就会提升，部署过程中出现意外的风险也就降低了

2. 其他数据科学任务与技术

2.1. 商业问题本身提供了其解决方案的目标和约束条件，而数据和领域知识提供了原质料，数据科学则提供了可以将问题分解为子问题的框架以及用于解决这些问题的工具与技术
2.2. 共现和关联

2.2.1. 寻找匹配项
2.2.2. 共现分组或关联发现是根据涉及实体的变乱，找出实体间的关联
2.2.3. 规模较小的、地区性的配送中心只会存储卖得较好的产品
2.2.4. 共现分组就是在数据中寻找统计数字“有趣”的数据项组合
2.2.5. 关联的支持度
- 2.2.5.1. 一种控制复杂度的简单方法是建立约束条件，即符该合共现规则的数据必须到达某个最小比例
2.2.6. 规则的置信度或强度

2.3. 提升度和杠杆率

2.3.1. 提升度，即某种关联出现的频率比偶然出现高多少
2.3.2. 如果关联出现的次数比偶然情况下更频繁，那么该关联就是料想之外的
2.3.3. 提升度的计算仅需应用概率的基本概念
2.3.4. A与B的共现的提升度是两者现实同时出现的概率，与两者不相关（互相独立）时同时出现的概率相比力的结果
2.3.5. 提升度只是计算所发现的关联出现的概率比偶然情况下高多少的方法的其中一种
2.3.6. 计算两个量的差值（而非比例），被称作杠杆率
2.3.7. 一种适用于几乎不可能偶然出现的关联，而另一种则更适用于相对更可能偶然出现的关联

2.4. 用户画像

2.4.1. 寻找典范行为
2.4.2. 用户画像的目的是描述个人、群组或总体的典范行为特性
2.4.3. 欺诈检测的画像可能需要关于用户工作日和周末信用卡使用均值、信用卡跨国使用情况、商家和产品类别的使用情况和可疑商家的使用情况复杂的描述
2.4.4. 用户行为的画像一般可以在整个总体、小群体、乃至每个人的层面上来进行
2.4.5. 高斯混合模型（GMM）
2.4.6. “软”聚类，也称概率聚类

2.5. 链路猜测和社交保举

2.5.1. 有时，与其猜测数据项的性质（目标变量值），不如猜测数据项之间的关系
2.5.2. 链路猜测在社交网络体系中非常常用

2.6. 数据约简、潜在信息和影戏保举

2.6.1. 针对某些商业问题，我们希望把大型数据集更换成较小的数据集，但是该小数据集要生存大数据集中的大部分紧张信息
2.6.2. 较小的数据集不仅处置惩罚起来更方便，或许还能更好地显现其中的信息
2.6.3. 数据约简通常需要断送一些信息，但是在数据的洞察或易处置惩罚性与信息损失之间进行衡量非常紧张，而这种衡量每每证实断送信息是值得的
2.6.4. 数据约简和链路猜测一样，都是一种一般任务，而不是一种特殊技术
2.6.5. 最常用方法是把模型建立在偏好的潜在维度的底子上
2.6.6. 用潜在维度进行影戏保举的思路是，把每部影戏用潜在维度表示成特性向量，同时把每个用户的偏好也用潜在维度表示成特性向量，然后计算用户和所有影戏的相似度评分，并据此向用户保举影戏

2.7. 毛病、方差和集成方法

2.7.1. 构造许多保举模型，并把它们组合成一个“超等模型”
- 2.7.1.1. 构造了一个集成模型
2.7.2. 在许多情况下，集成模型可以提高模型的泛化能力
- 2.7.2.1. 不仅适用于保举问题，还广泛适用于分类、回归、类概率估计等问题
2.7.3. 如果我们把每个模型当作目标猜测任务中的一种“专家”，那么模型的组合就是一群专家
- 2.7.3.1. 如果每个专家知道的事情完全一样，那么他们就会给出雷同的猜测，这会使集成模型的优势无法体现
- 2.7.3.2. 如果每个专家理解问题的角度稍有不同，那么他们就会给出互补的猜测，因而整个专家组的猜测会比个人的猜测信息量更大
2.7.4. 误差越不相关越好，最好能完全独立
- 2.7.4.1. 在整合所有猜测时，这些误差就能互相抵消，使猜测真正互补，从而使集成模型优于任意一个独立的模型
2.7.5. 误差因素
- 2.7.5.1. 内在随机性
  
  2.7.5.1.1. 仅包括猜测非“确定性”的情况
  
  2.7.5.1.2. 贝叶斯率
- 2.7.5.2. 毛病
  
  2.7.5.2.1. 建模过程可能是“有毛病的”。
  
  2.7.5.2.2. 我们没有无限多的训练数据，只有一些有限的样本
- 2.7.5.3. 方差
  
  2.7.5.3.1. 方差小的模型通常毛病较大，反之亦然
  
  2.7.5.3.2. 如果我们的建模方法方差极高，那么对多次猜测取匀称就能降低猜测的方差
  
  2.7.5.3.3. 集成方法会大幅度提升高方差方法的猜测能力
  
  2.7.5.3.4. 集成方法通常用于树型归纳，由于分类树和回归树每每方差较高
2.7.6. 随机森林、套袋法和自助法，这些都是用于树形模型的常见集成方法

2.8. 数据的因果表明

2.8.1. 病毒式营销的目标是构造像传抱病一样迅速流行的活动，但这种流行背后的关键假设是消费者之间会互相影响
2.8.2. 无法在不理解基本原则的条件下理解因果数据科学

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

读商战数据挖掘：你需要了解的数据科学与分析头脑10数据科学技术

本帖子中包含更多资源

浏览过的版块

锦通

读商战数据挖掘：你需要了解的数据科学与分析头脑10数据科学技术

本帖子中包含更多资源

浏览过的版块

锦通

登录参与点评抽奖加入IT实名职场社区