大数据、呆板学习与量化投资（一）

民工心事 · 2024-12-16 14:13:52

原文：Big Data, Machine Learning and Quatative Investment
  译者：飞龙
  协议：CC BY-NC-SA 4.0
  第一章：算法是否会梦见人工 Alpha？

迈克尔·科洛
1.1 介绍

大多数金融实践的核心，无论是来自均衡经济学、行为心理学还是署理模型，传统上都是通过优雅理论和一种“脏”履历证实的婚姻形成的。正如我在伦敦政治经济学院的博士课程中所学到的，优雅的理论是美丽智慧的标记，可以分辨出基于署理人的模型中玄妙的衡量，形成复杂的均衡布局，并指出常规真理核心存在的偶然冲突的悖论。然而，“脏”履历工作经常被猜疑地嘲笑，但不情愿地被承以为须要的，以赋予实质和真实天下的应用。我记得在风起的庭院和狭窄的通道里进行的许多对话，良好的博士生们争论着“但我如作甚我的假设找到一个测试？”。
在量化金融范畴，许多伪数学框架已经出现并消散，通常是从附近的科学借用的：从物理学的热力学，Eto’s Lemma，信息论，网络理论，各种来自数论的部分，偶尔另有从不太高科技但不情愿承认的社会科学，比如心理学。它们来了，又走了，被市场吸取（而不是被击败）。
呆板学习和极端模式辨认专注于大规模履历数据，以前所未见的规模转化和分析数据，揭示以前无法检测到的细节模式。风趣的是，呆板学习在概念框架方面几乎没有提供任何东西。在某些圈子里，它以缺乏概念框架为傲，以为这是其优势，而且消除了否则会限制模型的人类偏见。无论你是否以为它是一个好工具，你都必须尊重如许一个观念，即过程速率只会变得更快更强大。
明天我们可以称之为神经网络或其他名称，终极我们将达到一个几乎可以在靠近实时的情况下发现和检查大多数以致全部模式排列组合的田地，此时核心几乎完全会合在界说客观函数而不是框架布局上。
本章的其余部分是关于呆板学习怎样帮助我们更多地相识金融市场的一组观察和例子，以及正在如许做。它不仅来自我的履历，还来自与学者、从业者、盘算机科学家的许多交流，以及大量关于这些主题的书籍、文章、播客和如今到场其中的广阔智慧海洋。
如今是一个让人着迷而且具有量化思维的不可思议的时代，我们至少可以成为未来几代人思考这些问题的有效媒介，以一种审慎和科学的方式思考，纵然他们使用这些庞大的技能工具。
1.2 复制还是重塑

天下的量化再次成为人类的迷恋。这里的量化是指我们可以将我们作为人类观察到的模式分解为组成部分，并在更大的观察范围内以更快的方式复制它们的想法。量化金融的基础可以追溯到投资原则，大概说是几代敏锐的投资者所做的观察，他们辨认出了这些想法，而无需大规模数据的帮助。
早期的因子投资和量化金融的想法是对这些看法的复制；它们并没有发明投资原则。代价投资的概念（对资产和公司进行组件估值）是许多代人研究和理解的概念。量化金融将这些想法拆解，取得可观察和可扩展的元素，并将它们扩展到大量（可比较的）公司之间。
实现规模的本钱仍旧是怎样将特定的投资看法应用于特定公司的复杂性和眇小差异，但是假定这些眇小差异在较大规模的投资组合中被分散，而且仍旧被大部分忽视。投资看法与未来回报之间的关系被复制为曝光和回报之间的线性关系，很少关注非线性动态或复杂性，而是专注于多样化和大规模应用，这被以为是今世投资组合的更好结果。
然而，从早期因子研究中出现了一种玄妙的共同活动和相干性的认识，它如今是今世风险管理技能的核心。这个想法是具有共同特征（让我们称之为量化投资看法）的股票也大概在宏观风格因素上具有相干性和相互依赖。
在我看来，这个小小的观察实际上是对到谁人时候，以及在许多圈子里仍旧云云，孤立地思考股票的投资天下的一种重新发明，将核心从单个股票移动到连接许多个别没有直接业务关系但仍具有相似特征的股票的常见“线索”或因子，这大概意味着它们会一起买卖。这种“因子”链接成为投资过程的目的，而且其辨认和改进成为许多投资过程的目的——如今（在 2010 年代后期）它正在再次引起兴趣。告急的是，我们开始将天下看作一系列因素，有些是暂时的，有些是恒久存在的，有些是短期和恒久的预测，有些提供风险而且需要消除，有些提供高风险回报。
因子代表了编织全球金融市场图景的看不见（但可检测到的）线索。当我们（量化研究者）积极发现和理解这些线索时，天下上很多人都专注于公司、产品和周期性收益的可见天下。我们将天下描绘成一个网络，其中连接和节点是最告急的，而其他人则将其形貌为一系列投资理念和变乱。
重塑发生在兴趣对象的转变上，从个别股票到一系列网络关系，以及它们随时间的升沉。这种转变既玄妙又严重，大概仍旧没有完全被理解。良好的因子时间模型很少见，关于怎样思考时间的活跃辩论仍在进行中。情境因子模型更加罕见，对实证和理论工作提出了特殊风趣的范畴。
1.3 呆板学习的重塑

使用呆板学习进行重塑为我们提供了类似的机会，让我们重新思考金融市场的方式，我以为这种方式包罗对投资对象的辨认以及我们对金融网络的看法。
请允许我用一个简单的类比来进行思维练习。在手写或面部辨认中，我们作为人类寻找某些模式来帮助我们理解天下。在意识、感知的层面上，我们寻找人的脸上的模式，鼻子、眼睛和嘴巴。在这个例子中，感知的对象是那些单元，我们评估它们与我们所知的其他对象的相似性。然后，我们的模式辨认在组件方面的维度相称低。我们已经将问题分解为一组有限的分组信息（在这种情况下，是面部的特征）。
在今世呆板学习技能中，人脸或手写数字被分解成更小、因此更多的组件，然后我们对这些种别进行评估。以手写数字为例，图片的像素被转换为数值表现，然后使用深度学习算法寻找像素中的模式。
我们拥有不可思议的工具来处理大规模数据，并在样本的亚原子水平上寻找模式。在人脸、数字和许多其他事物的情况下，我们可以通过复杂的模式找到这些模式，这些模式已经不再直观或可以被我们（有意识地）理解；它们不是辨认鼻子或眼睛，而是在信息的深层折叠中寻找模式。偶然，这些工具可以更加高效地找到模式，比我们更快，而我们的直觉无法跟上。
将这个类比运用到金融范畴，大部分资产管理都涉及到财务（根本）数据，如收入表、资产负债表和收益。这些项目有效地表征了一家公司，就像一个人的主要特征可以表征一个人一样。如果我们拿这些项目来用，大概有几百个，并将它们用于像呆板学习如许的大规模算法中，我们大概会发现我们在开始之前已经给自己造成了严重限制。
神经网络的“魔力”在于它们能够辨认原子级别（例如，像素级）信息，并通过向它们提供更高级的布局，我们大概已经在限制它们发现新模式的能力，即超出我们在线性框架中已经辨认的模式。再创新在于我们找到新的构造和更“原子”的投资表现形式的能力，以使这些算法更好地发现模式。这大概意味着远离报告的季度或年度财务报表，也许使用贩卖和收入的更高频率指标（依赖于替换数据源），作为发现更高频率、埋伏更连贯的模式的一种方式，以便预测价格颠簸。
通过呆板学习进行再创新也大概意味着将我们的注意力转向将金融市场建模为一个复杂（大概只是庞大）的网络，其中问题的维度大概会爆炸性地高，难以让我们的思维来处理。要估算一个网络的单个维度，实际上就是要估算一个 n × n 的协方差矩阵。一旦我们将这个系统内生化，许多 2D 矩阵内的链接就会成为其他链接的函数，在这种情况下，模型是递归的，而且是迭代的。而且这只是在二维空间。将金融市场建模为神经网络已经实验过，但应用有限，而最近更多的是供应链的想法正在流行，作为发现公司之间玄妙联系的一种方式。替换数据大概会揭示公司之间的新的显着可观察的联系，就他们的商业往来而言，这些联系可以构成一个网络的基础，但更大概的是，价格会颠簸得太快、太多，以至于不能简单地由平均供应合同确定。
1.4 信任问题

现实情况是，逃脱我们注意力的模式要么太玄妙，要么太多，要么在数据中太快了。我们无法直观地辨认它们，大概围绕它们构建故事，这自然会使我们不信任它们。数据中的一些模式对于投资来说将是无用的（例如噪音、非活动性和/或不可投资），因此这些模式很快就会被剔除。但许多其他模式将是强大而有效的，但完全不直观，也许对我们来说是含糊的。我们的自然反应将是质疑自己，并确保它们是非常庞大的信号群体的一部分，以便在孤立地多样化问题特定信号。
只要我们的客户也是人类，我们就会面对沟通挑战，尤其是在表现较差时。当表现强劲时，不透明的投资流程很少受到质疑，复杂性以致大概被视为积极的、有差异性的特征。然而，在大多数情况下，表现不佳的不透明投资流程很快就会受到猜疑。在许多今世投资汗青的例子中，“量化分析师”们在表现不佳的时期每每难以表明他们的模型，并很快被投资者抛弃。赋予他们的智力优越性的同样优点很快就酿成了弱点和被嘲笑的点。
叙事，即用舒服认识的轶事和类比包裹复杂性的艺术，感觉上就像是使用技能模型的一项须要本钱。然而，在金融创新中，这大概是创新的一大障碍。投资信念以及我们产生舒服轶事的能力，通常是为了重新确认广泛存在的直觉投资真理，而这些真理又得到了数据中“公道”的模式的支持。
如果创新意味着转向金融中的“呆板模式”，具有更高复杂性和动态特征，那么这将是一种信仰的飞跃，我们放弃了对投资洞察力的作者身份，和/或从某种肴杂开始，例如捆绑，使得无法对单个信号进行检察。无论哪种方式，纵然投资信号自己增加了代价，超出故事被担当的范围之外的移动也会存在肯定的额外业务风险。
如果我们要创新信号，我们很大概也需要创新叙事。数据可视化是这个范畴一个很有远景的范畴，但如果我们要展示市场网络或完整因子布局的视觉亮点，我们大概会发现自己比金融界其他部分更快地担当虚拟和增强现实装备。
1.5 经济存在主义：伟大设计还是意外？

如果我告诉你，我创建了一个预测经济部门回报的模型，但是这个模型自己在很大水平上是不直观的，而且高度情境化的，这会让你感到担心吗？如果我告诉你，一个核心组成部分是最近报纸上报道该行业产品的文章数量，但是这个组成部分不能保证在我下一次估计中 ‘构建’ 模型。我遇到的大多数研究职员都有一个选择埋伏模型的概念框架。通常，涉及一个思维练习，将给定的发现与宏观图片联系起来，并问： ‘这真的是天下运行的方式吗？这有意义吗？’ 没有这一点，结果很轻易因其履历上的脆弱性和样本内偏见而被挑剔。我们在那里进行了玄妙的飞跃，那就是假设经济体系有一个中央的 ‘秩序’ 或设计。经济力量通常是从一群得到信息和理性的人的集体行动中高效定价和生意业务风险和回报的。
（如果不是伪理性）署理。纵然我们以为署理人没有得到信息，大概不是完全理性的，他们的集体行动也可以带来有序的系统。
我们在经济学中的思考在很大水平上基于如许一个观念：有一个正在发挥作用的 ‘宏伟设计’，一个宏伟的系统，我们正在检测和估计，并偶尔利用。我不是指的是有暂时变化或进化的暂时 ‘小均衡’ 的想法，而是指的是根本没有任何均衡的观念。
达尔文的随机突变、进化和学习的概念挑战了这种天下观的核心。 Dennett5 奇妙地将这种天下观表达为一系列偶尔变乱，很少提及宏观层面的秩序或更大的目的。 “能力而无理解” 的概念被发展为一个框架，用来形貌智能系统怎样在一系列适应性反应中产生，而没有背后的更大秩序或 “设计”。在他的书中，哈拉瑞 6 形貌了人类从觅食转向有组织的农场的进化。如许做，他们的数量增加了，他们如今无法再回到觅食。路径依赖性是进化的告急部分，并限制了进化在未来方向上的发展。例如，它无法 “进化” 觅食实践，由于它不再如许做，如今它正在进化农业。
呆板学习，以及像随机森林如许的模型，很少表明有更大的图片或概念框架，但最轻易表明为一系列（随机）数据进化，导致我们观察到的当前 ‘本相’。
一组经济力量共同作用以产生经济状态的想法，被一系列随机突变和进化路径所取代。对于金融量化模型，这意味着有很强的路径依赖性。
这对于一个担当过经济训练的思考者来说是具有挑战性的，偶然以致是直接令人不安的。一个模型能够仅仅由于“就是如许”而产生一系列的相干性的想法令人担心，特殊是如果路径方向（突变）是随机的（对研究者而言）- 我们似乎已经勾勒出了水滴沿着玻璃滚动的路径，但几乎不知道是什么引导了这条路径自己。正如闻名的投资者乔治·索罗斯 7 形貌他的投资哲学和市场：一系列的输入和输出，就像一个“炼金术”实验，一系列的试验和失败。
1.6 这个系统究竟是什么？

重新发明需要重新审阅回报的根本缘故因由，大概还包罗非常回报。在自然界、游戏中以及特征辨认中，我们通常知道到场的规则（如果有的话），我们知道游戏，我们知道特征辨认的挑战。金融市场中的一个中心要素，尚未得到办理的是它们的动态性质。随着元素的辨认、相干性的估计、回报的盘算，系统大概会非常敏捷地移动和变化。
大多数（常见的）量化金融模型更注重横截面辨认，而不太关注时间序列预测。在时间序列模型中，它们每每是连续的，大概具有状态依赖性，通常嵌入了一种切换模型。无论哪种方法，都没有对市场动态大概发生变化的缘故因由有更深入的理解，事前的预测（根据我的履历）每每依赖于状态的串行相干性和偶尔的市场极端情况来“震荡”系统。8 在这个意义上，金融市场的真正复杂性大概被严重低估了。我们可以期待呆板学习算法从眇小的复杂性和市场关系中挖掘出更多吗？大概是的。然而，干净数据的缺乏，以及横截面信息分割的大概性，暗示着某种监视学习模型，其中研究者设定的事前布局与模型自己估计的参数一样大概成为乐成或失败的根源。
一个盼望是呆板学习模型所暗示的关系布局可以启发并引导新一署理论家和基于署理的仿真模型，这些模型反过来大概产生更精致的事前布局，以理解市场的动态复杂性。我们大概无法学习到市场的埋伏动态属性，而不使用某种事前模型，其埋伏特性我们大概永远无法观察到，但大概可以推断。
一个用来演示这个想法的思维实验是一个简单的 2D 矩阵，有 5 × 5 个元素（大概足够多以分析这一点）。每秒钟，有一粒沙子从上方落到一个单独的方块上。随着时间的推移，每个方块中沙子的数量增加。有一个规则，如果一个方块上的沙子塔比另一个方块上的沙子塔高得多，它就会坍毁到相邻的方块上，将沙子传递过去。终极，一些沙子会倒在平面的四条边之一上。系统自己是复杂的，它在各个区域积累了“压力”，并偶尔释放出压力，当一个方块上的沙子从一个方块掉落到另一个方块，终极掉到边沿时。如今想象一个单独的研究者，站在方块平面的下方，对平面上发生的事情一无所知。他们只能观察到落到边沿的沙子粒子的数量，以及是哪个边沿。从他们的角度来看，他们只知道如果有一段时间没有沙子落下，他们应该更担心，但是他们对导致偶发雪崩的系统没有任何概念。基于价格的呆板学习模型遭受类似的限制。它们只能推断出这么多，而且有一系列复杂系统大概导致给定市场特征的设置。在面对复杂性自然的遮蔽时，选择一个独特或“真实”的模型，特殊是对于研究职员来说，是一项几乎不大概的使命。
1.7 动态预测与新方法论

如今我们回到更直接的问题：量化资产管理。资产定价（股票）广泛地始于通常依赖于你选择的视角的两种条件之一：

市场由金融资产组成，价格是对拥有这些资产未来长处（通常是现金流）的公平估值。预测是对未来现金流/根本面/收益的预测。数据范畴由公司组成，它们是未来现金流的捆绑包，其价格反映了相对（或绝对）对这些现金流的估值。
市场由由带有不完善信息的署理人生意业务的金融资产组成，根据一系列考虑因素。因此，回报简单地是一场“生意业务游戏”；预测价格就是预测其他署理人未来的需求和供给。这大概需要或大概不需要（通常不需要）理解根本信息。实际上，对于高频策略，几乎不需要相识基础资产，只需要相识其在将来某个日期的预期价格。

典范地使用高频微布局，如成交量、买卖价差和日历（时间）效应，这些模型旨在预测未来需求/供给不均衡，并在从纳秒到通常的几天的时间段内获益。
没有太多的先前建模，由于衡量几乎是由设计，始终对经济信息做出反应的频率太高，这意味着它大概受到生意业务模式的驱动，而且重新均衡频率与正常经济信息并行运行。
1.8 根本因素、预测和呆板学习

在根本投资过程的情况下，资产定价的‘语言’充满了对公司业务状况、财务报表、盈利能力、资产和一般业务远景的参考。绝大多数共同基金行业都是以这种观点运作的，分析公司与行业同行、全球同行以及整个市场相对于其未来业务乐成的情况。试图定价逾越 CAPM 的系统性风险的绝大多数金融文献，如多因子风险溢价和新的因子研究，通常将一些不可分散的业务风险作为埋伏回报的情况。这些模型的过程相称简单：基于财务报表、分析和建模的组合提取根本特征，并应用于相对定价（横截面）或总（时间序列）收益。
对于横截面收益分析，特征（以非常常见的指标如盈利/价格为例）在广泛的横截面中被界说，并被转换为 z 分数，Z ∼ N(0,1)，或百分位品级（1–100），然后通过函数 f与一些未来收益 rt+n 相干联，其中’n’通常为 1–12 个月的前瞻性收益。函数 f在套利定价理论（APT）文献中找到其归属，并通过排序或线性回归导出，但也可以是与未来收益的简单线性相干（也称为信息系数，IC），一个简单的启发式桶排序练习，一个线性回归，一个逐步线性回归（用于多个 Z 特征，以及边际使用是否感兴趣），或它可以相称复杂，而且由于’Z’信号被植入到具有多种特征的现有均值方差优化投资组合中。
告急的是，“Z”的预测通常被界说为具有广泛横截面吸引力的（例如，全部股票应该在横截面中可测量）。一旦交给一个良好分散的应用程序（例如，有很多股票），任何围绕线性拟合的错误（盼望）将被分散化。然而，通常不会耗费太多时间界说差异的 f功能形式。除了通常用于处理“巨细”的二次形式（通常用于处理“巨细”）或偶尔的交互（例如，质量巨细）之外，没有真正好的方法来考虑怎样使用“Z”中的信息。这个范畴在更好的股票特定测量的支持下很大水平上被忽视，但仍旧是同样的标准化，同样的 f*。
因此，我们的目的是改善 f*。通常情况下，我们有几百个根本“Z”可以选择，每个都是横截面上的连续变量，横截面上最多大约有 3000 只股票。我们可以将 Z 转换为十分位成员资格的指示变量，但通常，我们想要使用极端十分位作为指示，而不是分布的中间部分。拥有根本变量“Z”和基于“Z”的一些指示 ZI 后，我们开始探索差异的非线性方法。我们开始感到兴奋，由于埋伏的新的超级办理模型就在我们眼前。
我们遇到的第一个问题是：“我想要预测什么？”随机森林、神经网络通常寻找二元结果作为预测变量。回报是连续的，大多数根本结果也是云云。在我们选择对象之前，我们应该考虑我们正在寻找什么样的系统。
我想要预测公司的某项选择，例如选择更换首席执行官的公司，购买或出售资产的公司，收购竞争对手的公司。然后，我盼望从这些行动中获益。但是公司是怎样做出这些选择的呢？
他们是否与经济因素隔脱离来制定决策，是否真的存在无条件的选择，还是这些公司已继续到某种埋伏经济变乱的影响？例如，公司很少会孤立地取消股利。通常情况下，取消的选择已继续到非常糟糕的市场条件的严重影响。因此，我们的模型很大概辨认处于财务困境中的公司，而不是那些真正“选择”取消股利的公司。要深图远虑什么是“选择”，什么是“状态”，在某些选择被以为是不可避免的情况下。
我想要预测公司的不当行为，然后通过做空/避开那些公司。无论是有意还是无意，那些误报财务状况的公司，但终极被发现的（我们盼望云云！），因此我们有了一个样本集。这对新兴经济体尤其风趣，由于这里的财务控制，例如国有企业，大概与简单的公开披露存在冲突的长处。这感觉像是法庭会计的一个激动人心的范畴，其中“线索”被捡起并由算法匹配在不大概通过人类直觉单独跟踪的模式中。我以为我们必须重新审阅这里的最初假设：这是无意的吗？因此我们正在建模组织内在的不确定性/复杂性，还是这是有意的，这在某种水平上是一种“选择”。
独立变量的选择应该理想地同时影响两者，但“选择”想法需要更多关于别有效心动机的信息。
我只想要预测回报。直截了当地，我们可以说：我们能否利用根本特征来预测股票回报？我们可以界说相对回报（前十分位数、前五分位数？）在肯定未来期间内超过一些同行群体，并将其标记为“1”，其他统统标记为“0”。如果我们可以整理好我们（少量的）根本数据，重新估计我们的模型（神经网络或其他什么）并设置一些回溯窗口，我们应该能够以蛮力办理这个问题。然而，这大概会导致一个极端动态的模型，因素之间的告急性极端变化，而且大概不清晰哪个模型是最佳的“局部极值”。大概，我们可以基于总回报目的界说我们的因变量，例如在未来一段时间内的任何 +20%，我们将专注于确定一个“极端颠簸者”模型。但是为什么公司会经历非常大的价格跳跃呢？上述任何一个模型（收购、逾越预期、大幅惊喜等），大概是候选者，大概如果不是，我们实际上正在预测横截面颠簸率。例如，在 2008 年，实现正回报 +20% 大概几乎是不大概的，而在 2009 年后期，如果您是一家银行，则被期望是如许的。横截面颠簸率和市场方向一定是“状态”，以启用（或取消资格）股价出现 +x% 的概率。因此，总回报目的模型不太大概在差异的市场周期中表现良好（横截面颠簸率 regime），在此期间达到 +20% 的无条件概率显着差异。将这些嵌入其中有效地转换了 +20% 相对于横截面的标准偏差移动时，您如今又回到了相对回报的游戏中。

如果您特殊盼望让方法论驱动您的模型决策，那么您必须担当价格是连续的这个观念，而且根本会计数据（至少报告的）是离散的而且通常是高度管理的。如果您的预测期间低于会计信息的报告频率，例如月度，那么您根本上是依赖于汗青上声明的财务账目与今天的价格之间的分歧来驱动信息的变化，因此，在很大水平上是依赖于周转率。当您处理大型的“分组”分析时，例如分桶或回归分析时，这不太令人担心。如果您使用非常细致的工具，如神经网络，它们将捕获到微小的偏差并赋予其有意义的关系，这大概会成为一个更大的问题。
使用条件模型，如动态嵌套逻辑（例如随机森林），大概会突出显示那些平均组别，它们比其他一些组别更有大概跑赢市场，但是它们的特征（在确定节点的方面）将是极其动态的。条件因子模型（情境模型）今天已经存在；事实上，大多数因子模型是在地理配景（例如任何商业可用的风险模型）和在某些情况下是在规模内确定的。这实际上意味着回报预测是基于你所处市场的哪个部分。从经济原理的角度来看，这很难公道化，由于这将需要在信息生成或强烈客户效应中进行某种水平的分割。例如，一组客户（针对美国小型市值）以为，增长率是推动回报，而另一组客户（日本大型市值）则寻求完全差异的东西。如果天下被分别得那么细，为资产定价辩护将是困难的（但不是不大概的），作为某种全球（不可分散）风险的补偿。无论采用何种履历方法，条件资产定价模型都应该积极说明为什么他们以为价格在财务报表之间的相对短时间内云云动态地受到云云差异的根本面驱动。

总之，像呆板学习方法如许的大规模但敏感的工具与使用根本信息进行横截面回报预测的团结必须非常审慎和专注。这一范畴的许多定量工作都依赖于蛮力（近似）对像贝塔如许的敏感度的盘算。研究职员会发如今 APT 回归或 IC 的主流盘算中，很少夸大错误修正方法，这些方法依赖于捕获信号（Z）与未来回报之间的广泛、平均关系。偶尔（通常是在横截面颠簸较大的时期），会在会议上展示非线性因子回报的内容，听众会心心相印地点头，但实质上却无法进行调解。线性函数 f*的诱惑太大，太根深蒂固，不轻易克服。
过去，我们进行了实验，以确定非线性估计器能为模拟回测增加多少额外代价。对于活动缓慢的信号而言（每月重新均衡，6-12 个月的时间跨度），很难终极击败一个没有过度拟合的线性模型（大概至少可以轻松辩护的模型）。同样，因子定时是一个吸引人的非线性建模范畴。然而，因子回报自己是通过大量的噪声和围绕盘算的固有假设盘算的。这些假设使得定时自己非常主观。一个构建良好的（通常意味着颠末良好回测的）因子将具有平稳的回报系列，除了汗青上大概有一些埋伏的劫难性的颠簸。使用时间序列神经网络实验预测这些变乱何时发生，将比线性框架更加强大地利用一些通常是不可重复的明显迹象。
具有讽刺意味的是，因子被构建为作为投资组合的恒久持有补充因子。这意味着通过使用连续的定机遇制，以致是颠末拟合的机制，很难改进恒久持有收益。通过汗青上错过一两个极端的收益变乱，然后考虑生意业务本钱，通常会看到稳健的线性因子胜出，这会令方法论上热切的研究职员感到沮丧。
终极，我们最好是生成一个构建不太美满但具有一些时间序列特征的因子，并实验对其进行定时。
在这一点上，感觉我们已经来到了一个困难的段落。对于基础研究职员来说，感兴趣的单位通常是某种基于会计的度量标准（收入，收入等），所以在这个天下上使用呆板学习似乎类似于让一辆法拉利在伦敦的高峰交通时间行驶。换句话说：这看起来很吸引人，但大概感觉像痛苦。我们还能做什么呢？
1.9 结论：寻找钉子

这是科学研究者们爱上一种新方法并花时间寻找要应用该方法的问题。就像挥动你最喜好的锤子，四处走动寻找钉子一样，呆板学习看起来像是一种没有显着独特应用的激动人心的方法分支。我们越来越多地看到传统模型使用呆板学习技能进行重新估计，而在某些情况下，这些模型大概会带来新的看法。每每情况是，如果模型受到限制，由于它们是为线性估计而构建和设计的，我们将需要重新发明原始问题，并重新设计实验，以期从数据中窥视出全新的东西。
在评估模型、设计新模型或在白板前探究想法时，一个有效的引导原则是问问自己或同事：“我们在这里相识了什么？”终极，履历或轶事调查的目的是更多地相识我们周围这个复杂、神奇和鼓舞人心的天下的运作方式，从优雅的数学到杂乱的复杂系统，以及最杂乱的：数据。一个研究职员如果确信自己通过模型代表了对天下的某种‘真理’，无论采用什么样的方法和复杂度，都更有大概被人信任、记着，终极得到回报。我们不应该夸大或迷恋个别模型，而应该始终积极改善对天下的理解，以及我们客户的理解。
强大的模式辨认方法，如呆板学习，有能力为人类对复杂系统的理解增加力量，包罗金融市场，也包罗许多社会系统。我经常提醒那些使用和运用这些模型的人应该注意推理、谦卑和信任。天下会因量化而热恋，并因被承诺过多而冷淡。呆板学习和人工智能（AI）几乎肯定会在某个时刻让我们扫兴，但这不应该阻止我们；相反，它应该鼓励我们寻求更好、更风趣的模型，以更多地相识这个天下。
第二章：顺从大数据

Rado Lipuš 和 Daryl Smith
2.1 弁言：替换数据 - 概述

大约 20 年前，一小部分富有创新精神的对冲基金和资产管理者开始使用替换数据和呆板学习技能。然而，近年来，使用替换数据的基金司理数量和新的商业可用数据源的供应量都大幅增加。
我们已经发现了 600 多种商业可用的替换数据集，这些数据集在过去几年内已经上市。如今，每月约有 40 种新的颠末彻底检察的替换数据集被添加到 Neudata 平台上的替换数据总数中。我们预计在未来几年内，数据集的总数将稳步增加，缘故因由如下：（i）更多的数据枯竭公司正在将其现有数据变现，（ii）新的和现有的初创公司参加这一范畴，提供新鲜和额外的替换数据产品。
2.1.1 界说：为什么‘替换’？与传统的对立

对于初学者来说，“替换数据”一词指的是可用于量化和自主投资策略中的投资管理分析和决策目的的新奇数据源。根本上，替换数据指的是过去七年中主要创建的数据，直到最近才对投资界可用。在某些情况下，创建替换数据的最初目的是为了提供分析工具，供各行各业的非投资公司使用。在许多其他情况下，替换数据是经济活动的副产品，通常被称为“排放数据”。替换数据主要由买方和卖方以及在肯定水平上由私募股权、风险投资和公司非投资客户使用。
2.1.2 替换并非总是大数据，大数据也不总是替换

“大数据”和“替换数据”这两个术语经常被互换使用，而且许多人将两者都用于非布局化数据的情境，而且在某些情况下用于指代大量数据。
“替换数据”一词最初是由美国的数据经纪人和顾问使用的，大约五年前开始广泛被担当。与其他地区相比，美国资产管理行业更广泛理解替换数据的寄义：例如，在欧洲，这一术语直到 2017 年才开始得到更广泛的承认。
在 2016 年和 2017 年，卖方、传统数据供应商和其他类型的会议组织者举行的大量会议和活动无疑有助于推广替换数据的认知度。此外，在过去一年里，许多关于替换数据和人工智能的调查和报告，由卖方银行、数据供应商和顾问撰写，也有助于教诲买方和更广泛的行业。
替换数据源究竟指的是什么，有多少来源可用，哪些来源最实用？
2.2 采用的驱动因素

2.2.1 创新扩散：我们如今处于何种状态？

金融行业在替换数据方面仍处于早期采用阶段（图 2.1）。这一点可以从积极寻找和研究替换数据来源的买方公司数量来证实。然而，替换数据的采用正处于向早期多数阶段过渡的关键时刻，由于我们观察到越来越多的资产管理公司、对冲基金、养老基金和主权财富基金正在创建替换数据研究能力。

大多数创新者和早期采用者位于美国，而欧洲和亚洲基金的比例很小。大多数创新者和早期采用者具有系统化和量化的投资策略，而且在相称大水平上是以消费者为重点的自主基金。
2017 年，我们看到基于根本策略的基金兴起。
然而，只管传统管理者对使用替换数据的兴趣增加，但量化策略的采用速率显着更快。
我们猜疑其中一个主要缘故因由是运营知识。简而言之，对于以根本策略为驱动力的公司来说，整合和研究替换数据更具挑战性，由于通常所需的技能和数据基础办法不敷，研究团队经常存在明显的技能缺口。
因此，评估、处理、确保合规性和获取大量数据集的使命需要对现有流程进行彻底改革，并大概代表一个庞大的组织挑战。
对于大型、成熟的传统资产管理公司，一个告急的障碍是向研究团队提供测试数据的内部流程缓慢。这个过程通常需要对新数据提供商进行尽职调查，为测试数据签署法律协议（在大多数情况下是免费的），以及（iii）合规团队的批准。资产管理公司内部这些流程的框架，以及因此需要为研究团队组织大量新数据集所需的时间，差异很大。在创新的对冲基金，这大概只需要几天/几周，而在不太注重数据和组织效率较低的资产管理公司，则大概需要数月时间。
投资界对替换数据的采用受到了金融科技的进步推动，并提高了分析差异数据集的技能能力。许多投资者、对冲基金和资产管理者都将这些发展视为传统投资方法的补充工具，可在未摆设此类能力的投资司理身上得到优势。
今天，只管许多投资专业人士声称替换数据是一种新的投资前沿，但可以说，这个前沿已经相称成熟，由于行业从业者如今已经相称广泛。正如 EY 2017 年全球对冲基金和投资者调查所指出的，当到场者被问及“您投资的对冲基金中有多少使用非传统或下一代数据和‘大数据’分析/人工智能来支持其投资流程？”时，平均答案为 24%。也许最风趣的是，当同一到场者被问及他们预计三年后这一比例将是多少时，答案增加到了 38%。
根据 Opimas Analysis 的数据，投资管理者在替换数据上的全球支出预计将以 21%的复合年增长率增长，预计到 2020 年将超过 70 亿美元（图 2.2）。

图 2.2 替换数据支出。
来源：Opimas 分析。来源：https://www.ft.com/content/0e29ec10-f925-11e79b32-d7d59aace167
2.3 另类数据类型、格式和范围

另类数据源的分类有几个挑战。起首，数据提供商提供的信息形貌其产品的方式每每不一致且不完整，不敷以满意投资管理目的。其次，另类数据的性质大概复杂且多方面，以及源数据通常无法轻松分类或形貌为单一类型。传统来源，如 Tick 或价格数据、根本数据或参考数据，较不复杂，更轻易界说。

我们将每个数据源归类为 20 种差异类型，对于大多数另类数据示例，多个种别都实用。例如，一个情况、社会和管理（ESG）数据集大概包含“众包”、“网络爬取”、“新闻”和“社交媒体”的组成部分（见图 2.3）。更进一步，数据集还可以是派生产品，并以差异格式提供：

原始数据，占我们数据源的 28%。
布局化或聚合，35%。
信号（派生指标），22%。
报告，15%。

2.3.1 另类数据分类和界说

表 2.1 数据分类类型
数据集种别界说众包数据是从大量的贡献者那里网络的，通常使用社交媒体或智能手机应用程序经济网络的数据与特定地区的经济相干。例如，商业流量、通货膨胀、就业或消费者支出数据情况、社会和管理（ESG）数据被网络以帮助投资者辨认差异公司的情况、社会和管理风险变乱任何能够告知用户股票价格敏感变乱的数据集。例如，收购关照、催化剂日历或生意业务警报提供的例子金融产品与金融产品相干的任何数据集。例子包罗期权定价、隐含颠簸率、ETF 或布局化产品数据基金流向与机构或零售投资活动相干的任何数据集根本面数据来源于专有的分析技能，与公司根本面相干物联网数据来自于相互连接的物理装备，例如 Wi-Fi 基础办法和带有嵌入式互联网连接的装备位置数据集通常来自于手机定位数据新闻数据来自于新闻来源，包罗公开可用的新闻网站、新闻视反复道或特定公司的公告供应商价格定价数据来源于生意业务所表里调查和投票底层数据是通过调查、问卷或核心小组网络的卫星和航拍底层数据是通过卫星、无人机或其他航拍装备网络的搜索数据集包含或来源于互联网搜索数据情感分析输出数据来源于自然语言处理（NLP）、文本分析、音频分析或视频分析等方法社交媒体底层数据是通过社交媒体来源网络的生意业务型数据集来源于收据、银行对账单、光荣卡或其他数据生意业务等来源气候数据来源于网络气候相干数据的来源，如地面站和卫星网络抓取数据来源于定期从网站网络特定命据的自动化过程网络和应用跟踪数据来源于（i）从现有网站和应用程序中归档并跟踪每个网站的特定变化的自动化过程，大概（ii）监视网站访客行为出处：Neudata。 2.3.2 有多少替换数据集？

我们估计今天买方使用的替换数据源超过 1000 个。其中大多数 - 21%（图 2.4） - 属于网络和应用相干数据种别，8%是宏观经济数据，包罗就业、国内生产总值（GDP）、通货膨胀、生产、经济指标等多个子种别（图 2.4）。

前六个数据种别占全部数据源的 50%。需要注意的是，一个数据集可以被归类到多个种别中。一个数据集大概包含多个来源，而且实用于差异的用例。
然而，投资管理中使用这些数据源的方式并不统一，并不反映数据源的供给方的情况。
2.4 怎样知道哪些替换数据有效（哪些没有）

对许多基金司理来说，终极的问题是选择哪个数据源进行研究或回测。其中一个关键问题是，哪个数据集易于操纵？
需要进行多少数据清理、映射和准备工作，才能准备好并集成一个研究数据库中的数据集？
我们试图答复这些问题的一种方式是根据表 2.2 中的八个因素为每个数据集评分。可以理解的是，每个基金司理对表 2.2 中哪些因素最告急会有差异的看法。许多人会有特定的“硬性停止”。例如，一个人大概只想回测一个具有至少五年汗青、每年本钱低于 50000 美元、至少逐日更新一次，而且与至少 1000 个公开上市的股票相干的数据集。
固然，上述因素只是一个初步概述，以便机构投资者准确相识一个数据集与另一个数据集的差异。除此之外，另有许多定性因素需要考虑，以便评估一个数据集是否值得进一步调查。这通过一个彻底的调查过程来实现，该过程试图答复 80 到 100 个问题，这些问题反映了我们经常从投资界收到的查询。例如：

数据的根本来源是什么？
数据是怎样网络和随后交付的？
三年前的数据是否像今天一样完整？
面板规模随时间的变化怎样，存在哪些偏差？
数据交付是否实时？
数据是否是“点对点”的？
数据是否映射到标识符或代码，如果是，是怎样映射的？
这个数据集与类似产品有何区别？
到如今为止，哪些机构投资者对此提供感兴趣（如果有的话）？
地理覆盖范围是什么，这大概会怎样扩展？
与该数据集相干的可投资公司具体清单是什么？

因素形貌数据汗青长度可用汗青数据的最早时间点数据频率数据可以交付的频率宇宙覆盖数据集涉及的可投资公司数量市场的隐蔽性Neudata 对于机构投资者对该数据集的认识水平的评估拥挤因素Neudata 对于使用此数据集的多少对冲基金和资产管理客户的估计独特性Neudata 对于此特定命据集的独特性的评估数据质量Neudata 对数据的完整性、布局、准确性和实时性的评估的一个函数年度价格数据提供商收取的年度订阅价格来源：Neudata。 TABLE 2.2 评估替换数据有效性的关键标准
我们通过与数据提供商举行多次会议、检察样本数据（通常与感兴趣的客户共享）以及检察独立的相干来源（例如学术论文）来找到这些问题的答案。通过执行这些步骤，不仅创建了一个全面而独特的数据集概要，还可以提供发起的用例，这些用例可应用于回测过程。
2.5 替换数据的本钱是多少？

对于数据提供商和替换数据的购买者来说，最具挑战性的问题之一是怎样确定命据集的价格。
对于许多新进入金融服务行业的数据提供商来说，确定价格大概非常困难，缘故因由有两个。起首，在许多情况下，新提供商对同行或可比数据订阅定价的理解和知识是不存在的或非常有限的。其次，数据提供商不知道买方将怎样使用其数据，以及数据集对资产管理者提供的代价或 alpha 有多大。对于资产管理者来说，数据集的增值将取决于许多因素，例如投资策略、时间跨度、宇宙规模以及许多其他对基金司理策略独特的因素。如果新的替换数据源与资产管理者已经使用的数据集高度相干，那么新的替换数据源的边际 alpha 大概会太小。
对于开始研究替换数据的资产管理者来说，挑战在于为数据订阅制定预算。年度数据订阅价格将根据数据格式（如第 2.3 节所述）、数据质量和其他数据提供商特定因素而大幅变化。替换数据集的价格范围从免费到 250 万美元年度订阅费用。大约 70% 的数据集定价在每年 1 至 15 万美元的范围内。另有几个免费的替换数据集。然而，对于一些免费数据源，大概存在数据检索、清理、规范化、映射到标识符等间接本钱，以使这些数据源对基金司理的研究和生产有效（图 2.5）。
2.6 案例研究

下面显示了过去一年由 Neudata 的数据搜索团队网络的五个例子。仅提供了全面报告的摘录，而且提供者名称已被肴杂。

2.6.1 美国医疗记载

提供商：一家早期数据提供商，能够在处方后的三天内提供医疗保健品牌贩卖数据。
2.6.1.1 总结

该组提供了从医疗记载中得出的对医疗保健行业的看法。在过去的七年里，该公司与美国各地的医疗转录公司合作，并使用自然语言处理（NLP）技能来处理数据。
该数据集提供约 2000 万份医学转录记载，涵盖了全部 50 个州，每月新增 125 万条记载（2016 年每月新增 25 万条记载），7000 名涵盖全部专业范畴的大夫，和 700 万名患者。数据在患者脱离大夫办公室后的 72 小时内就可以得到，而且可以以布局化或非布局化格式（CSV 文件）访问。
2.6.1.2 关键收获

该团队声称是唯一商业化这些数据的公司。迄今为止，该产品已被用于(i)追踪药物上市后的情况，(ii)调查特定品牌被低估的缘故因由，以及(iii)在 FDA 批准前发现涉及公司产品和标签扩展的不良变乱。
2.6.1.3 状态

公司在过去的六个月里曾与两家自营对冲基金合作，并如今正在寻求达成独家生意业务（图 2.6）。
2.6.2 印度发电数据

提供者：一家已经创建的数据提供商，但尚未推出涉及印度电力行业的逐日数据交付。

2.6.2.1 摘要

这家数据提供商的核心业务包罗向对冲基金、经纪商和商业银行的客户提供数据分析和研究服务。
其中一个尚未推出的产品将提供印度电力行业的逐日更新。具体来说，这包罗电力供应的数量（以百万单位计的能量）和质量（以兆瓦计的峰值短缺），按地区和州分别。数据集还将包罗电力发电在州和来源（即煤炭、太阳能、风能和水电能源）之间的分配。总共，每天将更新约 10000 个数据点。
2.6.2.2 关键收获

我们相信这是一个独特的产品，由于数据的细粒度和交付频率。全面的细节，比如发电厂的发电量，可以从 2014 年开始提供。较少详细的数据集可以从 2012 年开始提供。一旦推出，数据集可以通过 API 提供。
2.6.2.3 状态

到如今为止，尚无客户使用这个数据集，该团队正在积极寻找对如许一个数据集感兴趣的机构。一旦找到感兴趣的方，我们相识到设置 API 数据源需要大约四周的时间（图 2.7）。
2.6.3 美国收益表现预测

提供者：一家投资银行的数据服务部门，为 360 家美国公司提供收益表现预测，主要会合在零售部门。

2.6.3.1 摘要

这项产品于 2016 年 9 月推出，团结了（i）在线用户搜索数据，（ii）来自 6500 万装备组成的地理位置数据，以及（iii）贩卖点生意业务数据。输出是一个季度信号，旨在向客户提供有关给定公司相对于以前季度表现怎样的想法。收益信号在给定公司财务季度竣事后的 3 到 10 天通过 FTP 或该团队的网站交付。整个宇宙的汗青数据从 2012 年末开始可用。
2.6.3.2 要点

埋伏用户应注意（i）提供的不是绝对收益数字，而是相对于以前期间的恣意比例为每家公司提供的相对收益措施，（ii）最近扩展的宇宙的外样本数据仅有四个月汗青，（iii）直到最近，该产品仅涵盖大约 60 家美国股票； 2017 年 8 月，该宇宙扩大到 360 只股票，并超出零售范畴，包罗电影院、餐厅和旅店连锁店。
自当时起，该团队告诉我们，客户的兴趣明显增加了。
2.6.3.3 状态

大约有八个客户正在使用此数据集，其中一半是量化基金。只管最近几个月来的兴趣增加了，但我们相识到该团队渴望限制访问（图 2.8）。
2.6.4 中国制造业数据

提供者：一家利用先辈的卫星图像分析来帮助用户跟踪中国经济活动的数据提供商。

2.6.4.1 摘要

这项产品是一个制造指数，其盘算基于中国大陆约 6000 个工业区的图像，覆盖面积为 50 万平方公里。
用于构建指数的数据点每周以 CSV 文件的形式向客户交付，耽误两周。汗青数据可追溯至 2004 年。
2.6.4.2 要点

该团队声称该产品是中国工业活动的最快和最可靠的指标。具体而言，该团队声称该指数比中国采购司理人指数（PMI）更准确，后者经常因缺乏准确性和可靠性而受到观察者的质疑。
2.6.4.3 状态

该团队于 2017 年初开始向一家大型跨国银行的定量部门出售基础数据。最近，其他定量分析师也对此表现出了兴趣，到如今为止，该团队有四个客户接收相同的基础数据。
由于客户需求，该团队正在使用 CUSIP 对特定工业区进行映射过程，预计将于 2018 年初完成（图 2.9）。
2.6.5 空头数据

提供者：这家公司网络、 consolida 和分析全球超过 600 家投资司理持有的上市证券的全部权数据。
2.6.5.1 概要

该团队从 30 多个国家的监管机构网络披露，详细说明白大约 3200 家股票的多空头寸。这些披露是

由投资司理整合并允许客户对聚合输出执行自己的分析。例如，客户可以发如今特定时间段内有多少其他司理对给定股票进行了相同的空头持仓，以及他们的头寸有多大。每天提供更新，而且可以从 2012 年起得到汗青数据。
2.6.5.2 主要收获

全部权数据以简单，标准化的格式出现，易于分析。相反，监管机构提出的数据通常没有标准化，而且偶然大概会误导。例如，许多资产管理人以差异的名称披露空头寸，这大概是试图低估其头寸。
然而，该提供的数据网络方法能够辨认此活动，并相应地汇总披露，为给定证券提供全球，准确的司理级持有。
2.6.5.3 状态

该团队在 2017 年扩张，无论是在覆盖范围上（在 2H17 添加了北欧和额外的亚洲国家，包罗台湾，新加坡和韩国）还是在资产管理客户上（从 1H17 的零增加到 2H17 的 12）（图 2.10）。
2.6.6 Carillion 的倒闭 - 一种用例示例用于 Alt Data

哪些替换数据提供商可以辨认 2018 年 1 月进入清算程序的英国修建服务公司 Carillion 的倒闭？

以下我们形貌了五种非常差异的替换性数据产品以及其数据与 Carillion 输出之间的关联。
2.6.6.1 一个采购数据提供商确定了 Carillion 日益增长的债务负担

云云广为人知的是，2017 年 Carillion 的最大问题之一是债务增加。
截至年底，平均净债务达到 9.25 亿英镑，同比增长 58％，如图 2.11 所示。
然而，我们发现最风趣的是，从 2017 年 7 月 Carillion 初次盈利警告到 2018 年 1 月清算之间，该集团（及其子公司）赢得了代价 13 亿英镑的 10 项公共部门奖项 - 进一步增加了集团的债务负担，而且大概揭示了政府没有意识到 Carillion 处于多么严重的财务困境中。
一个数据提供商不仅会发现这些合同奖项（因此，不断增长的债务负担），还会提供额外的分析。该提供商的数据库涵盖了过去五年的公共采购关照，并提供了超过 62,000 个供应商的详细信息。逐日更新，其中包含代价超过 2 万亿英镑的招标关照和代价 7990 亿英镑的合同奖项。通过搜索诸如 Carillion 之类的特定名称，用户可以得到指标，例如：

未来到期合同的数量和代价。
已赢得合同与任何时期到期合同的比率。
市场份额趋势，平均合同规模，收入会合度和客户流失率。

2.6.6.2 这个商业聚合器提供了详细的空头头寸分析

卡里利安的失败也受到了对冲基金的关注，这些基金做出了空头生意业务（例如 Marshall Wace 和 CapeView Capital），而且早在 2013 年就开始对该集团采取了空头头寸。在 2017 年 7 月 10 日该集团股价下跌了 39% 之前，卡里利安是富时 250 指数中空头头寸最多的股票之一。只管这种明显的空头长处相对为人所知，但要从公开披露中准确确定（i）谁持有什么股份，（ii）持偶然间多长，（iii）每个空头持有者在任何时候的盈亏仍旧很困难和耗时。
在我们看来，一个特定的数据供应商将非常有效。该集团网络、整合并分析全球 600 多家投资司理持有的上市证券的全部权数据。此外，该公司通过投资司理整合这些披露，并允许客户对汇总输出进行自己的分析。就卡里利安而言，用户将会知道，例如，Marshall Wace 持有他们的仓位多长时间，这在时间上是怎样变化的，以及全部未平仓生意业务的当前盈亏情况。数据每天更新，汗青数据从 2012 年提供（图 2.12）。
2.6.6.3 另一家提供商可以帮助辨认晚发票付款的汗青。

卡里利安案例还凸显了耽误付出的问题，之后透露该集团向分包商付出了 120 天的耽误。正如富时文章《卡里利安倒闭加剧了分包商反对耽误付款的案例》所夸大的那样，英国政府在 2017 年通过了法规，意味着大公司需要每年报告两次他们的付出条件（其中大多数公司将在 2018 年 4 月初次如许做）。然而，通过观察公司发票数据，比如另一家提供商提供的数据，可以找到更详细的分析和更新更频仍的数据。
只管该集团无法向我们确认它是否具有与卡里利安特定的发票数据，但我们以为该集团，以及其他折价单子提供商，值得一提，由于它们是帮助辨认处于财务困境初期的公司以及哪些公司正在经历的有效来源（图 2.13）。

2.6.6.4 这家薪酬基准数据提供商指出，在崩溃后，高管薪酬与同行相比较高的比率，

董事会学会代表英国老板的主要游说团体称颂 Carillion 的董事们得到的薪酬“极不符合”，指出“Carillion 缺乏有效的管理”，并补充说如今必须“考虑董事会和股东在崩溃前是否利用了适当的监视责任”。
实际上，回顾起来，2016 年 Carillion 对高管奖金的追索条件的放松似乎是相称不符合的。
我们询问了一家特定薪酬基准数据提供商的首席执行官，是否可以通过简单研究 Carillion 的薪酬数据找到任何警示信号。
根据该提供商的记载，只管 Carillion 的平均员工工资大抵符合其竞争对手的水平，但与同一行业高管薪酬相比，高管薪酬比例高于平均水平（图 2.14 和 2.15）。
与这家数据提供商进一步讨论后，明白了其基金司理客户可以得知从 2015 年开始，高管与平均薪酬比的比率呈上升趋势。此外，提到 2014 年首席执行官的加薪，几年前似乎就已经注意到了可疑的高管薪酬迹象：
看到过安然，凡萊特和其他管理劫难，当公司需要两页来披露首席执行官的加薪时，情况就不对了。

2.6.6.5 这家企业管理数据提供商指出了未表明的高管去职

在询问其对 Carillion 的看法时，一家企业管理数据提供商指出，对他们来说最大的红旗之一是几名高管无任何表明地脱离了公司。
例如，2017 年 9 月，Carillion 财务总监扎法尔·汗在担任不到一年后忽然辞职，没有对他忽然去职的表明。Carillion 还进行了一系列管理重组，导致战略总监肖恩·卡特从他的职位上去职 - 同样在宣布中没有表明。
该数据提供商的首席执行官表现：“这些未表明的去职在我们看来引起了埋伏的管理问题。”
以及董事会成员构成的不够多样化。
此外，同一提供商指出，人们可以质疑董事会成员的构成混合，以及是否有董事具备适当的技能/专业知识来管理公司，大概是否有健全的风险管理和公司管理实践（图 2.16）。
2.7 最大的替换数据趋势

在这一部分中，我们简要介绍了替换数据范畴中我们正在看到的一些最大趋势。
2.7.1 替换数据仅实用于股票吗？

在分析替换数据时发现的一个令人惊讶的发现是，它实用于全部资产种别，而不仅仅是上市股票，这是最常见的假设。

全部替换数据集的百分比实用于非上市股票或私营企业。
关于私营企业及其品牌和产品的数据正在被自由裁量管理职员和私募股权公司用于比较分析（图 2.4）。
2.7.2 供应端：数据集发布

2017 年，我们看到了位置、网络和应用跟踪来源大幅增加。2017 年全部新发布的商业可用数据来源中，有四成来自这三类数据。
值得一提的另一组数据是生意业务数据集，特殊是涵盖非美国地区的（图 2.5）。
2.7.3 最常见的查询

关于需求，2017 年大多数月份所询问的热门种别包罗 ESG、生意业务、情绪和经济数据。
2.8 总结

替换数据范畴非常分散，新的数据提供者和现有提供者正在加速推出新数据集。最大比例的数据集实用于美国市场。然而，非美国数据提供者正在追赶替换数据的供应。我们以为，实用于公开股票的替换数据约占全部数据的近 50%，而对于非上市股票、固定收益、外汇和商品的数据可用性，远比买方社区意识到的要广泛。
替换数据的应用案例备受掩护，而且很难找到 alpha 和数据集实用性的证据。
替换数据的采用仍处于早期阶段。然而，系统性和量化策略已经最积极地探索替换数据来源，并拥有明显的数据预算和研究团队。2017 年，我们观察到根本或自由裁量策略在替换数据研究项目和工作方面明显增加。总的来说，与买方使用传统数据源相比，替换源的使用仍旧微不敷道。除了买方对替换数据的有限使用外，还要指出，替换数据在大多数情况下被用作多因素方法的一部分。同一数据集可以用于差异的时间范围，此外，用例和方法也各不相同。
早期采用者有显着的优势和机会。此外，有强有力的证据表明，某些数据集将取代或替换现有广泛使用的来源，并成为未来的主流数据来源。
第三章：投资管理中呆板学习应用的近况

叶卡捷琳娜·西洛特尤克
3.1 弁言

通过每天通过智能手机应用程序，家用产品如 Alexa 和 Google Home 以及 Uber 和 Facebook 服务中使用的匹配算法等应用人工智能（AI）的应用，金融服务业以外的行业专业人士和学术界纷纷料想为什么投资管理行业的大部分，如果不是绝大部分，不是由上述科技公司使用的算法原则管理的。我经常与专业人士和客户进行谈话，他们推测如果 AlphaGo 能够云云快速地学会击败人类，那么在几年内，主导机构和零售投资者资金的很大水平上将是天下上的 AlphaGo。然而，除了生意业务本钱、数据网络和处理以及执行基础办法等问题外，金融市场代表着一个更加复杂的生态系统，其中不断反馈的到场者不断地重写规则。
3.2 数据，无处不在的数据

在这种情况下，一个广泛的假设是，对专有数据或大数据的访问将先验地为投资策略创造恒久的竞争优势。例如，在会议演示中，人们已经讨论过，具有客户数据访问权限的全球企业的企业财务和财务部门（如宜家）雇用量化分析师来理解公司的全球信息流并创建专有的生意业务信号。仅凭客户购买行为和电子商务/网站分析/社交媒体的“签到状态”信息就已经证实无法生成优秀的信号。为了得到更好的生意业务结果，需要具有宏观信息（利率、货币）、技能数据（生意业务模式）和根本来源（公司收益信息）必须被纳入考虑。全球企业养老金计划和苹果公司等公司金融部门对外部资产管理人的传统和替换指令搜索数量几乎证实了这一观点，即数据访问并不是投资策略乐成的充分条件。
这些结果并不令人惊讶。金融数据与 99.9%的人工智能所使用的数据差异。此外，金融专业人士更广泛地得到大数据的机会是最近才开始的。越来越多的数据科学家一直在将新兴数据集转化为金融生意业务目的。大数据的处理和利用与金融数据有何差异？起首，让我们比较图像背后的数据（可以从 CIFAR（n.d.）的公共可用库中挑选一张图片，大概拍一张照片）和自成立以来的苹果股票逐日股价数据（TechEmergence 2018）。
很显着的是，(CIFAR)图像数据集是静态和完整的 - 其元素之间的关系在全部时间内是固定的（或任何照片都是云云）。在 CIFAR 案例中，图像具有 100%的标记。相比之下，根据盘算（TechEmergence 2018），苹果的逐日股价有 >∼10k 个数据点 - 自 1980 年 12 月 12 日上市以来的每个生意业务日都有一个。纵然以分钟为单位的分辨率（TechEmergence 2018），数据点的数量也会与单个低分辨率照片相似，而且与平凡照片中的像素之间的关系根本差异。股票的金融数据系列并不是一个大数据。数据科学家可以通过从各种数据源（如电子原质料价格、汇率大概对苹果的 Twitter 情感）进行投影，从而创造出一个苹果的大数据分析问题。然而，人们必须意识到，在大数据中，会有许多变量的组合大概与苹果的价格巧合。因此，在金融范畴乐成应用人工智能方法将取决于数据科学家将有关苹果的数据转换为特征的工作。
特征工程是代价链的一个组成部分，其过程是将原始数据转换为更好地代表预测模型中埋伏问题的特征，从而提高模型对未见数据的准确性。在人工智能范畴取得乐成归根结底归结为表征问题，科学家必须将输入转换为算法可以理解的东西。这需要大量的工作来界说数据集、清理数据集以及进行训练以及经济直觉。
只管较少提到，人工智能一般多年来一直被一些资产管理公司使用（最初是高频生意业务公司）（Kearns 和 Nevmyvaka 2013），大多数情况下是在执行方面（以降低总体生意业务本钱），而不是在投资信号生成和投资组合管理方面。处理能力速率的增加以及数据处理和存储本钱的降低改变了金融公司应用人工智能技能于投资管理过程更广泛部分的经济学。然而，仍旧存在差异，这些差异涉及对金融市场状态进行建模，这促使人们对将人工智能引入金融范畴与其他行业采取审慎态度（NVIDIA 深度学习博客无日期）：
(a) 差异于一些其他具有静态关系的情况（如照片的情况），游戏规则随时间而改变，因此问题是怎样忘记过去有效但如今大概不再实用的策略。
(b) 市场状况只能部分可观察 - 因此，纵然市场设置相称相似，也大概导致相反的发展趋势。
© 信号目的并不像猫狗分类问题那么简单，人们不能立即验证信号的有效性。
本章的后续部分将引导读者相识金融范畴人工智能应用的光谱，论述行业与 AI 促进因素的相互关系，并就未来行业发展的情景展开讨论。我们将为从业者、学生和年轻专业人士提出发起作出结论。
3.3 人工智能应用的光谱

3.3.1 Ai 应用分类

为了更好地相识通过 AI 进行投资和利用大数据的埋伏发展（Sirotyuk 和 Bennett 2017），瑞士信贷的 AI 专家将该行业分类如图 3.1 所示。当读者沿着 y 轴向上移动时，数据复杂度与大数据的四个 V（速率、多样性、容量、真实性）相一致增加。较低的列意味着利用标准价格数据（合同价格数据源），根本指标（P/E，P/B，**Div Yield（股息率）**和情绪数据。较高的列使用更复杂的数据（包罗文本和语音等非布局化数据），并包罗以专有方式网络或处理的数据（例如，市场影响，对手在短时间内的报价-询价）。y 轴上的顶级代表大数据，如通过卫星图像跟踪海洋活动和停车场占用情况。
在 x 轴上，作者渐渐引入更先辈的数据处理技能，这些技能更适合表明和对这些复杂数据集做出反应 - 从传统工具（如分析统计学）到基于 AI 的研究系统（例如自然语言处理，NLP）到完全自主的 AI 生意业务系统。
引入了一个共同点 - 麦当劳股票生意业务 - 作为一个例子，说明白在每个框中算法设计和生意业务怎样发展。
麦当劳案例之后是投资管理行业应用的一个例子。
在短期至中期内，通过 AI 应用提高 alpha 的预期发生在表格的中等列中，由“高级生意业务”表现，‘竞争数据科学家’和’主数据科学家’。
3.3.1.1 高级生意业务

被归类为’高级生意业务’的内容倾向于使用复杂的分析技能处理现有数据，并实现更快的反应时间。
那些生意业务员能够处理大量数据集或文本，并提取有代价的信息。一个很好的例子是你在公司报表中有差异的脚注时（资产负债表或利润表），AI 系统能够系统地进行捕获（Allison 2017）。
3.3.1.2 竞争数据科学家

竞争数据科学家代表利用公共和专有、布局化和非布局化数据集的投资组合 - 例如，一个投资组合司分析实验使用 NLP 技能分析媒体对某个地区或国家的一组股票的态度是否积极或悲观（Allison 2017）。

3.3.1.3 主数据科学家

主数据科学家大概已经使用非常先辈的卫星图像来相识海上或港口船只的位置，以相识市场中的活动情况。
随着系统获取更多数据，颠末训练和测试，演变向右移动（Allison 2017）。展望未来，我们应该期待看到投资行业从布局化数据和有限的人工智能转向融合一些非布局化数据和更先辈的数据处理技能。到场者的方式显然取决于他们的技能组合，以及某些数据的可用性或开发自己的专有数据集和/或大数据融合的经济学。
3.3.2 金融分析师还是竞争性数据科学家？

为了演示 AI 系统怎样饰演金融分析师的脚色（又称’竞争性数据科学家’，如图 3.1 所示），可以看到图形处理单元（GPUs）和翻译器促进了深度学习（一类基于学习数据表现的呆板学习方法）的实施（NVIDIA 深度学习博客 n.d.）。多年来，金融分析师的工作是定期筛选新闻文章，听取公司电话会议，与投资者关系部门联系，从定性讨论中得出结论并向生意业务员提出发起。这个过程耗时且相称手动。它还需要专业化，由于分析师按部门和/或地理位置分别，而且需要具备本地语言知识或通过先前的工作凭证具有对‘家庭’行业的理解。如今想象一下，使用 GPU 和深度神经网络库，这个‘虚拟分析师’ - 呆板 - 可以将来自公共和专有数据库的新闻输入到深度学习系统中（NVIDIA 深度学习博客 n.d.）。训练后，呆板可以在每三毫秒解剖一篇文章（相比之下，金融分析师在 2-3 分钟内欣赏一篇文章）；如许，呆板每天处理数十万篇文章。该过程的工作方式如下。AI 系统在文章中辨认数百个关键词。然后，‘一个无监视学习算法为每个关键词赋予一个数字值，然后系统的其他模型可以表明和处理。深度学习系统的结果包罗：
（a）将文章链接到适当的股票和公司；
（b）为每篇文章辨别情绪得分，范围从积极到中性到悲观；和：
（c）访问新闻对市场影响的大概性。该系统还意识到‘假新闻’，由于有信誉的来源被赋予更高的权重以提高结果的可靠性（NVIDIA 深度学习博客 n.d.）。
3.3.3 投资流程变化：‘自主生意业务’案例

AI 处理的引入影响了投资团队的组织布局，随后影响了投资流程。以股票投资组合司理为例（基础股票选择者），负责投资组合中的股票的终极决定权。他过去依赖于研究团队、执行生意业务员以及他自己对他所生意业务市场的理解的输入。分析师每每在利基行业拥有多年的履历，在行业联系人中拥有广泛的网络，并多次与关键的 C 级高管交谈过。分析师的使命已渐渐转向创建和维护复杂模型、与高管交谈、记载、设置关键日期和关照警报等。根本上，已经创建了一个迭代的决策过程，例如：

第 1 步：分析师研究，然后
第 2 步：向投资组合司理提供输入，然后
第 3 步：投资组合司理构建投资组合，例如股票包含的权重/排除，然后
第 4 步：投资组合司理执行投资组合，重点是生意业务规模和生意业务布局，然后
第 5 步：返回第 1 步。

如今想象一下，我们可以将股票选择和投资组合构建过程交给一台呆板，并要求呆板就研究和投资组合构建做出团结决策。团结决策为我们提供了更多的数据，并进入了大数据/AI 问题范畴。如果呆板还开始生意业务证券来实施投资组合，我们就会按照图 3.1 移动到“自主生意业务”。这个问题设计结果就是一个深度学习框架的例子，如图 3.2 所示。
3.3.4 人工智能和策略开发

拥有大量模型库和生意业务汗青记载的资产管理者处于利用自动化资源设置策略的有利位置。在投资者谈话中经常发生这种情况，当分配者与系统公司讨论多策略提供时，他们听到的贩卖宣传是，风格或模型簇之间的分配是 1/3、1/3、1/3，大概在投资组合配景下相干的任何 N。通常，对于天真的风格或模型簇分配策略，表明了分散化效益和进行模型定时的能力有限。公司正在日益在模型库上测试神经网络的摆设，看看是否实际上大概有一些机遇。因此，拥有更强大的基础办法和模型注册表的资产管理公司大概会提出自动化的资源设置策略。

更快的信息网络将进一步支持投资管理行业在人工智能-大数据轨道上的发展。观察一些闻名的领先指标，投资司理在汗青上已经考虑了采购司理指数（PMIs）、就业、干散货指数等因素进行决策。所谓的如今预测技能的到来有望使人们能够在（发布之前）更早地相识国内生产总值（GDP）和其他基准（Björnfot 2017）。如今预测背后的根本原则是，关于 GDP 变化方向的信号可以从大量和异构的信息来源（例如，工业订单和能源消耗）中提取出来，而 GDP 自己尚未发布。不仅 GDP，而且制造活动也可以以差异的方式进行衡量。
因此，美国公司 SpaceKnow 推出了一个专门的中国卫星制造指数，该指数利用了中国境内超过 500 000 平方公里的 2.2 十亿卫星观测数据和 6000 多个工业办法（Kensho Indices n.d.）。
3.4 行业的相互联系和人工智能的推动者

3.4.1 人工智能开发的投资

金融市场中人工智能的使用的进步是由人工智能在服务行业更广泛的渗透以及行业发展的相互联系所推动的。
人工智能的概念，尤其是神经网络，并不新鲜；然而，巨大的盘算能力终极使得对巨大数据库（图像、视频、音频和文本文件）进行复杂处理成为大概，这些数据库产生了足够的数据供人工智能操纵（Parloff 2016）。对人工智能初创企业的风险投资也有所增加。据 CB Insights（CB Insights n.d.）称，2017 年，排名前 100 的人工智能初创企业筹集了 117 亿美元，共进行了 367 笔生意业务。相比之下，五年前，以人工智能作为其产品核心部分的初创企业的总融资额为 50 亿美元。自 2012 年以来，该行业的生意业务和资金投入一直在上升。
上述数字不包罗科技巨头在其自身 AI 能力上的内部投资。在公司级别上，Google 在 2012 年进行了两个深度学习项目（Parloff 2016），而如今该公司正在全部主要产品范畴开展 1000 多个项目，包罗搜索、Android、Gmail、翻译、地图、YouTube 和自动驾驶汽车。对于一位自由主题投资者来说，寻找对外国市场的本地洞察力的显着途径是阅读外语的在线新闻或论坛（在当地分析师的帮助下），大概听取 C 级高管对投资的差异看法，正如我们之前讨论的那样。天真地说，一个人可以使用谷歌翻译进行翻译服务，再加上 1-2 位关键分析师，而不是当地的分析师。如今，谷歌翻译（Parloff 2016）能够将一种语言的口语句子转换为另一种语言的口语句子，同时为 103 种语言提供文本翻译。如今，这种语言转换的质量大概会受到质疑，但方向已经确定。
3.4.2 硬件和软件开发

NVIDIA 在 2000 年代推出了 GPU，并进行了硬件革命，这些芯片最初是为了给玩家提供丰富的视觉 3D 体验而设计的，这些芯片足够灵活，可以用于其他工作负载。对于它们实用的使命，GPU 比以前使用的传统中央处理单元（CPU）效率高出许多倍。
竞争对手也在追赶。例如，英特尔在 2016 年 8 月收购了一家深度学习初创公司 Nervana Systems，以及 2017 年 3 月收购了芯片制造商 Movidius 和视觉专家 Mobileye。这些收购使该公司能够创建一系列专门用于人工智能的芯片。这一发展肯定会支持大数据提供者行业。此外，2016 年，谷歌宣布在其数据中心内使用张量处理单元（TPU）（Google Cloud 2017）（该单元设计用于大量低精度盘算，而且特殊与谷歌的开源库 TensorFlow 一起使用）。根本上，这意味着谷歌服务，如 Google 搜索、街景、Google 照片、谷歌翻译都在幕后使用 TPU 加速其神经网络盘算。谷歌如今正在推出第二代这些芯片，以提供更广泛的能力。
除了硬件开发外，软件开发，尤其是开源框架，已经帮助了大数据提供商（Financial Stability Board 2017）。在软件行业，开源的概念已经存在多年。根本上，这意味着特定技能或办理方案的源代码是开放的，任何人都可以添加和改进（Shujath 2017）。已经证实，这种方法通过一个开发者社区共同办理 bug，加速了产品创新并提高了产品质量。它使原始产品能够开发新功能。包罗微软、谷歌和亚马逊在内的厂商已经将他们的人工智能办理方案开源（Shujath 2017）。
3.4.3 规章制度

只管不常被夸大，但美国和其他一些国家的市场监管机构允许公开生意业务的公司使用社交媒体发布公告，这促成了变乱数据集的创建（Financial Stability Board 2017）。到如今为止，地理空间数据聚合商已经能够聚合并转售他们聚合的分析数据。随着盘算能力和本钱的降低，精度和实时性也随之而来——直到最近，卫星图像的挑战在于数据根本不够频仍，无法实时应对作物压力。逐日图像正在成为一个改变者（Anon n.d.-a）。在过去几年中，大数据提供商已经蓬勃发展；但是，人们必须注意这些公司的年轻本质——它们只存在了几年。这方面的例子是 Terra Bella（以前是 Skybox），它提供了对零售商停车场内汽车数量或港口自然资源储量的分析，以及另一个卫星图像提供商 Orbital Insights（Anon n.d.-b）。
3.4.4 物联网

当涉及到特定行业，例如农业或能源时，大数据网络是通过无线传感器和其他监测装备的摆设实现的（Financial Stability Board 2017; Anon n.d.-b）。作为物联网（IoT）的常见技能，被深入应用于许多行业，由于这些技能使我们能够（i）准确实时地相识现场出现的问题，（ii）快速有效地干预，从而实时办理问题。
物联网办理方案再次由微软和亚马逊等技能公司以及价格更便宜的芯片所推动。物联网在农业中的兴趣和实用性的增加可以通过在该范畴运营的初创公司数量来证实（例如 Farmobile Device、OnFarm、CropX、FarmX、Farmlogs；呆板人/物料处理 - Harvest AI），DroneSeed；乳制品 - Farmeron，Anemon，eCow；制图 - HoneyComb，AgDrone；端到端 - The Yield）。随着数字化的推进，以及更多的商品市场靠近超级活动性，例如，相识作物状态的竞争优势来源正在发生变化。信息的规模和范围越来越广泛，而且同时更加广泛。如果人们看一下某些农业市场的汗青图表，可以看到在过去的几年里，价格范围特殊告急。只管有许多因素在起作用，但顺畅的数据网络使大公司能够更好地规划，从而平滑了曲线，终极表明未来，Alpha 投资大概总体上更多地受到短限期制。
3.4.5 无人机

谈到商品市场，人们不能忽视无人机行业的影响，由于它有助于在大距离上进行移动，比如观测和量化的范畴（Goldman Sachs Equity Research 2016）。正如高盛在其《无人机行业报告》中所示，该行业近年来已经从军事用途跃升至消费者用途，而且预计无人车辆将从商业用途跃升至民用和政府应用的下一个增长阶段。在政府方面，NASA 宣布了未来五年内创建无人空域管理系统的计划（UAS），试飞已经开始。这构成了无人机更广泛的商业和消费用途的告急要求。 NASA 估计，美国的商用无人机机队将在 2016 年至 2021 年之间从 42,000 架增加到 420,000 架（实用于美国）。在公司方面，诸如诺斯罗普格鲁曼之类的公司正在开发一系列价格实惠的无人车辆；然而，功耗/高度/飞行本钱存在约束。在这一范畴，独立研究正在积极进行，科学家们正试图办理自主飞行器的本钱和寿命问题。最近，麻省理工学院（MIT）的研究职员提出了一种本钱大大降低的 UAS 设计，可以悬停更长时间 - 研究职员设计、制造和测试了一种类似于 24 英尺翼展的薄型滑翔机的 UAS。据报道，该车辆可携带 10-20 磅的通信装备，在 15,000 英尺的高度飞行，重量不到 150 磅，在这种情况下，车辆由一台 5 马力汽油发动机提供动力，而且可以自持飞行超过五天。这种车辆不仅可以用于劫难救济，还可以用于其他用途，例如情况监测（例如监测野火、河道流出等）。
无人机的告急性在于效率、本钱降低和安全性。例如，在干净能源行业，无人机可以淘汰风力涡轮机检查所需的时间、风险和劳动力，如今这需要工人被吊升到高空然后绕着风力涡轮机滑降并检查其叶片（高盛证券股票研究，2016 年）。
此外，最初作为消费者无人机（在某些情况下，以致是玩具）正在变得越来越强大 - 参考像大疆（DJI）如许的制造商。
3.4.6 分步数字化转型 - 案例研究

为了展示商品数字化过程以及已创建公司和初创公司之间的迭代以及它们对市场布局的影响，我们可以从市场的“宏观”视角转向“微观”视角。让我们以玉米市场作为这个说明性研究的例子 - 这是一个有个别农夫、已创建的本地公司和国际到场者的市场。大公司很大概已经安装了分析能力。因此，问题就酿成了，全球小农夫获取实时数据管理权限对其集体影响大概会是什么？对于代价链过程，我们还应考虑储存地点和电梯提供商以及与物流合作的加速器。
在播种/收获周期中，季候开始时，全部到场者都会查察泥土、气候条件以及前一年的库存（盈余或赤字）并开始预测播种和收获目的。在季候期间，全部到场者再次检查气候、疾病、干旱/降水和其他指标，并调解预测。收获开始每每是最繁忙的时期，由于这时全部市场到场者都在关注希望情况、收获周围的条件、气候、作物质量和产量。收获数据终极在一个月后出现，即收获竣事后。之后，核心转向消费方面 - 微观和宏观因素、消费者变化和模式。重新评估库存开始以及下个季候的规划。
政府机构和商业协会网络商品市场信息并与农夫分享。由于地皮在全球范围内受到监管，以及食品安全问题，政府报告仍旧是告急的一部分。汗青上，小农夫手工网络有关其业务的信息，并将这些信息传递给政府机构。卫星和无人机改进了企业监控和信息传输的过程（因此，使流程更快，大概导致更快的价格发现）。气象学的改进（参考 IBM Watson）为改进农场管理创造了条件。如今，进入田野的拖拉机是由人驾驶的。将来，随着拖拉机变得更加自动化，智能署理（无需人类引导），呆板将自行监控地皮。与拖拉机连接的无人机可以设置参数，并在田地不平整或作物受损时发出警报——就像谷歌汽车在商品上的运作方式。迄今为止，这类综合技能的价格一直是个障碍；然而，随着价格的降落，采用率大概会上升。在季候期间，农学家研究田地，取代表性样本，并决定地皮需要哪些额外措施。如果代表性取样变得更便宜，那大概会导致更丰收，由于农夫可以根据田地情况做出反应。对于远在东欧和中国等地的农业仍旧相沿老方法的地区，人们对新技能的效果和给小农场企业带来的规模效应以及对市场的影响每每低估。我们可以进一步推测，随着数据网络实时化和商品价格更透明，颠簸性以致会进一步降低，但短期颠簸性也大概增加。对投资组合管理的影响很多——从需要在分析中捕获非常短期的时间框架到进行更短期生意业务。
3.5 行业发展的场景

3.5.1 自动驾驶技能的启示

在概述了人工智能在金融市场中的应用大概情况后，让我们来看看一些投资行业发展的场景以及人工智能应用希望较为先辈的行业案例。起首，自动驾驶技能提供了一个很好的比较基础，由于其研发已经连续了几十年——卡内基梅隆大学最近庆贺了其与自动驾驶技能教职员工合作的 30 周年龄念（卡内基梅隆大学 n.d.）。
将自动驾驶汽车技能过程应用于金融市场，可以看到严格的范畴规则怎样限制机会而不是扩大机会。 Artemis Capital Management 的专家引入了呆板学习中的“影子风险”概念（Cole 2017）。他们形貌了程序员使用人工智能开发自动驾驶汽车的过程。可以通过在戈壁中驾驶汽车数千英里来“训练”AI 算法。AI 快速学习路线，并能以高达每小时 120 英里的速率准确、安全地行驶。如今想象一下，你带着汽车在美国进行一次高出全国的观光，颠末高速公路、森林曲线、山路、山丘、拥挤的小镇。结果显示，当汽车行驶到多山而弯曲的门路时，汽车无法再安全地处理路线——它会冲下悬崖或进行意想不到的机动。这个思想实验背后的关键假设是，驾驶算法从未见过多山的门路或山路。在这种情况下，基于 AI 的学习的范围性变得显而易见。固然，进一步的一步，算法将在其他情况中担当训练，终极将学会山路、山路或严重交通堵塞是什么样子（Soper 2017; Isidore 2015）。自动驾驶汽车技能的爱好者大概会指出，最近在美国完成了许多高出全国的测试驾驶，但他们每每忽视了骑行 99%是自动驾驶的事实，这留下了 1%的自由裁量权。对于 2000-4000 英里的观光来说，1%的自由裁量权是一个很大的数字，用于决策：对于你的 20-40 英里路程的自由裁量权，大概是关键的决定。
让我们来看一下 Google 自动驾驶汽车的经历。确切地说，早在 2009 年，Google 汽车无法通过四路停车，由于其传感器一直在期待其他（人类）驾驶员完全停下来，让它通过（Richtell 和 Dougherty 2015）。人类驾驶员一直在英寸英寸地向前移动，寻找优势，使得 Google 的算法陷入瘫痪。自动驾驶汽车范畴的研究职员表现，自动驾驶汽车面对的最大挑战之一是将它们融入到人类不按照规则行事的天下中。为自动驾驶汽车制定规则手册也表明，通常情况下这会导致汽车行为更加审慎（至少根据 Google 的例子来看）。研究职员指出，在自动驾驶汽车与前方车辆保持安全距离时，驾驶过程中的一个关键部分。
在相邻车道中通常有足够的空间供汽车挤进去。在谷歌的另一个测试中（Richtell and Dougherty 2015），无人驾驶汽车进行了一些回避动作，同时显示了汽车保持审慎的一面。在一次动作中，汽车在住宅区急转弯以避开停放不当的汽车。在另一次动作中，谷歌汽车靠近交通繁忙的红灯。安装在无人驾驶汽车顶部的激光系统感知到另一辆车正在以高于安全速率靠近红灯。在这种情况下，谷歌汽车向右侧移动，以防必须避免碰撞。然而，有车辆以这种方式靠近红灯并不罕见 - 其他车辆的驾驶员没有足够审慎地靠近红灯，但驾驶员实时停车了。
将金融市场与戈壁情况进行对比，显然市场要复杂得多，而且规则也在变化。到如今为止，自由裁量生意业务者与量化投资方法并存。然而，让我们假设越来越多的呆板将会与呆板进行生意业务，而不是与人类生意业务者进行生意业务。然后，正如阿尔忒弥斯专家所发起的，自我反思风险将会加剧（Cole 2017）。在经济学中，反思性指的是市场情绪的自我强化效应。例如，价格上涨吸引了买家，他们的行动推动价格上涨，直到这一过程变得不可连续而且泡沫破裂。这是正反馈循环的情况。然而，也存在负反馈循环的情景，当过程大概导致价格的劫难性下跌时。
有一句常说的话是，全球 90%的数据是在过去两年内产生的，这引发了关于生成数据的问题以及它可以被采取的行动的疑问。
如果一个 AI 生意业务系统的训练数据集仅追溯到 10 年，以致更少，会怎么样呢？
在 2008 年金融危急后，作为投资专业人士知道的，从恒久来看投资股票市场一直是最好的生意业务之一。很大概 AI 系统生意业务美国股票一直保持多头，而且在颠簸率制度转变方面没有太多履历。在这种情况下，这个隐含着做空颠簸率而且在股票上有明显多头暴露的 AI 生意业务系统终极会遇到开始卖出的信号，从而对价格施加下行压力。如果一些 AI 生意业务系统有类似的短期训练设置会怎样？一些猜疑论者会指出“闪崩”的先例，它们对市场的埋伏链式效应以及系统性投资者加剧动态的大概性（BIS Markets Committee Working Group 2017；Condliffe 2016；Bullock 2017）。以一个更近期的例子为例，这个例子在新闻中被广泛报道，在 2016 年 10 月 7 日，英镑下跌了 6%。
在几分钟内，触及$1.18 的水平，这是 31 年来的最低点，然后恢复到 $1.24. 一些专家将如许忽然的抛售归因于算法捕获到弗朗索瓦·奥朗德对特蕾莎·梅的评论：‘如果特蕾莎·梅想要硬脱欧，他们将得到硬脱欧。’ 随着越来越多的算法根据新闻来源进行生意业务，以致根据社交媒体的热点进行生意业务，一则负面的脱欧头条大概会导致算法的明显卖出信号（Bullock 2017）。然而，国际清算银行的官方报告（Condliffe 2016）得出的结论是，这次抛售不能单纯归因于算法生意业务，而是由一系列因素共同作用而导致的，包罗一天中的时间以及像期权如许的机械放大器，作为促成因素之一的对冲活动性相干的时间。
3.5.2 新技能 - 新威胁

许多自动驾驶车辆技能的测试仍在办理假设风险，比如黑客/网络安全犯罪和现实天下的挑战（例如自动驾驶汽车在高速公路上发生故障时会发生什么）。这些操纵性问题对于金融市场到场者来说非常告急。事实上，在与 ICE、Eurex NYSE 负责人进行的大量采访中，网络安全被提及为金融稳固的关键风险之一（Accenture on Cybersecurity 2017）。网络安全专家证实，他们已经看到了一些旨在获取对自动生意业务模型的访问权限的案例。
从小数据到大数据的转变也带来了各种关于隐私、数据全部权和使用的担心（Sykuta 2016），不仅从金融到场者和生意业务角度来看购买数据，还从基础市场组织的角度来看。如果基础市场组织有利于一些提供者拥有极为优越的信息，这将对价格动态产生影响。再次以农业为例，精准农业实践已经存在一段时间，并利用了诸如 GPS 导航装备、可变速种植和喷洒装备、车载园地监视器和网格油样收罗等技能。只管多年来数据的数量、速率和种类都是可用的，但是聚合、分析和辨别告急信息工具的能力仍处于早期发展阶段。随着孟山都和农业技能提供商等现有公司进入市场，更多关注点放在了聚合个体农夫数据上，而且对数据全部权的担心变得更加显着。谁拥有数据？谁有权利得到数据的代价？数据将怎样共享？我以为在某个时候，我们将会看到政府机构更加深入地审阅这些实践。在商品市场的情况下，我们可以更加密切地关注杜邦和孟山都等公司，它们有兴趣贩卖自己的农艺产品，还提供数据服务。基于对当地农场操纵知识的产品保举会怎样演变？由大数据分析驱动的自动农业装备的连续发展是否会从根本上改变生产农业的组织和管理？这是否意味着更加量身定制的生产？这是否意味着商品颠簸性将进一步淘汰？这些都是具有巨大影响的开放性问题，对金融市场和整个社会都有庞大影响。
3.5.3 自主管理的位置

纵然有越来越多的自动化流程，越来越多的呆板将更多地与呆板生意业务，也有一种倾向于保持公道的自主高信心投资的情况（Lazard Asset Management 2015）。按设计，会合策略有助于投资于最有信心的想法，因此限制了与指数的重叠 - 导致高主动份额，从而与埋伏的超额表现联系在一起。理论和履历证据都支持如许一个观点，即会合投资组合有望产生α收益。在其论文中，Lazard Asset Management 总结了分散的股票投资组合（共同基金）与会合投资组合的履历结果。作者进行了这项研究，他们通过检查在 e-vestment 中的分离账户数据来确认了更会合的机构投资组合的超额表现。他们将在美国大型股票宇宙中进行的积极管理策略分为会合策略（他们界说为持有 30 个或更少持有的策略）和分散策略（他们界说为持有超过 30 个持有的策略）。

然后，他们测量了过去 15 年会合和分散管理者群体以及标准普尔 500 指数的平均三年和五年滚动回报率。他们发现，颠末本钱考虑后，会合管理者的表现优于分散管理者和相应的指数。末了，将专有数据源与人类直觉团结起来表明具有实质性的竞争优势（图 3.3）。
3.6 未来展望

3.6.1 经济关系的变化

在大学里学习金融课程每每意味着学习闻名的一套公式和论文（布莱克-舒尔斯期权定价，法马-法国因子，公司金融信号理论等）。虽然一些概念在构建金融产品方面仍旧具有相干性，例如风险溢价，但一些其他概念已经发生了庞大变化。因此，通货膨胀与赋闲之间的关系似乎部分因技能而部分因非正统经济政策而发生了变化。多年来，金融危急后的中央银行和经济学家们专注于增长及其与通货膨胀的联系，然而，在大规模量化宽松之后，美国、欧洲和日本的核心通货膨胀率都低于 2%。这一履历观察表明，中央银行不能再依赖传统模型来管理通货膨胀率，比如菲利普斯曲线（1958 年开发的一种衡量赋闲和通货膨胀之间反向关系的方法）。
金融公司的技能基础办法实现了更快的处理速率，使得旧的投资模型更快地衰败，并转变为不再实用的生意业务关系（即通货膨胀/赋闲）。在赞赏金融汗青的同时，有须要对新的范式保持鉴戒。大多数平凡大学课程大概仍旧落伍于金融行业的发展；然而，该行业需要具有对业务问题有新鲜眼光的人才。诸如谷歌、英伟达、微软和亚马逊等技能巨头的人工智能库为理解关键概念提供了良好的教诲基础。
3.6.2 未来的教诲重点

很显着，如图 3.1 所述，大数据和人工智能的使用将极大地增强自主投资组合管理。量化投资将经历类似的转变（图 3.4）。观察量化投资的演变，在 20 世纪 80 年代末期 CTA 开始受到重视，背后的模型生成了买入和卖出信号，这些信号通常不会比价格穿越移动平均线或退出通道复杂。然而，这些模型偶然涵盖了 100 多个差异时间框架的市场，这表明白执行实践和合同分配策略的巨大差异。
早期的 CTA 倾向于只考虑价格数据。经典的中期 CTA 持有期为 80–120 天，因此可以归类为恒久投资者。随着盘算机速率的进步，出现了短期 CTA。随着统计套利策略的出现，该行业看到了统计套利策略的出现，该策略使用复杂的数学模型来辨认存在的价格效率不敷大概产生的埋伏利润机会。

在两种或更多证券之间交织。技能的进一步发展导致了高频生意业务的出现——一种以高速率和高周转率为特征的算法生意业务类型。高频生意业务商以高速率和高生意业务量进出短期头寸，旨在每笔生意业务中获利一分钱的零头。范式相互影响，并随着技能的进一步发展，一种新的范式变得实用——人工智能。
当一个人看汗青趋势跟踪程序的表现时，生意业务的早期阶段的特点是基础工具的显着颠簸。随着越来越多的行业专业人士继续生意业务，这些市场的颠簸性淘汰。此外，金融危急后中央银行的量化宽松实际上“杀死了”关键的外汇远期和利率期货市场以及股票指数期货市场的颠簸性，导致趋势跟踪程序的表现不佳。它是其他市场，如场外衍生品市场，继续在量化宽松时代提供回报。整体颠簸性水平的降低还淘汰了统计套利和高频生意业务公司的机会合。生意业务总量降落，促使一些到场者选择合并（高频生意业务商 Virtu Financial–KCG Holdings），完全关闭（Teza Technologies）大概团结资源池（例如 Go West 项目，其中包罗 DRW、IMC、Jump Trading 和 XR Trading 等顶级生意业务者选择合作，共同创建芝加哥和东京金融中心之间的超快无线和电缆路由，而不是各自付出网络费用）。
3.7 结论

每一种新的范式都有一个 alpha 期，首创者优势占据主导地位。随着时间的推移，这种 alpha 可预见地会减弱。导致到场者增多并导致全部到场者的饼图淘汰不仅是到场者数量增加的问题，另有更广泛的货币和财务发展对金融市场的影响。上述观点和数据创建加速的加速显示了金融中人工智能的潜力，而且有须要深入研究个别算法。随着金融范畴采用更多的人工智能，特征工程和提取将成为中心舞台，由于流程设计的差异将导致性能结果的差异。
参考文献

www.cmegroup.com/education/files/big-data-investment-management-the-potential-toquantify-traditionally-qualitative-factors.pdf Björnfot, F. (2017). GDP 增长率的如今预测和预测。https://www.diva-portal.org/
smash/get/diva2:1084527/FULLTEXT01.pdf Bullock, N. (2017). 高频生意业务者适应过度供应和困难时期。https://www
.ft.com/content/ca98bd2c-80c6-11e7-94e2-c5b903247afd.
卡内基梅隆大学。 (2014). 从 0 到 70 在 30。https://www.cmu.edu/homepage/
情况/2014/秋季/从 0 到 70 在 30.shtml CB Insights. AI 100：重新界说行业的人工智能初创企业。https://www
.cbinsights.com/research/artificial-intelligence-top-startups CIFAR（无日期）。10 图像库。https://www.kaggle.com/c/cifar-10 Cole, C. (2017). Artemis Capital Management，颠簸性和风险炼金术，第 7 页。http://
www.artemiscm.com/welcome Condliffe, J. (2016). 算法大概导致英镑闪崩。https://www
.technologyreview.com/s/602586/algorithms-probably-caused-a-flash-crash-of-the-britishpound/
金融稳固委员会。 (2017). 金融服务中的人工智能和呆板学习。http://www.fsb.org/2017/11/artificial-intelligence-and-machine-learning-in-financialservice/
高盛股权研究。 (2016). 无人机：飞入主流。高盛内部出版物。
Google Cloud (2017). 对 Google 的第一个 Tensor 处理单元 (TPU) 的深入相识。
https://cloud.google.com/blog/big-data/2017/05/an-in-depth-look-at-googles-first-tensorprocessing-unit-tpu 伊西多尔, C. (2015). 无人驾驶汽车完成 3400 英里的横穿全国之旅。http://money.cnn.com/
2015/04/03/autos/delphi-driverless-car-cross-country-trip/index.html 基恩斯, M. 和涅夫米瓦卡 Y. (2013). 市场微观布局和高频生意业务的呆板学习。https://www.cis.upenn.edu/∼mkearns/papers/KearnsNevmyvakaHFTRisk Books.pdf Kensho Indices. https://indices.kensho.com 拉扎德资产管理。 (2015). 少即是多 - 会合投资组合的案例。https://www
.startupvalley.news/uk/jonathan-masci-quantenstein NVIDIA 深度学习博客。https://blogs.nvidia.com/blog/2017/08/30/qualitative-financialanalysis Parloff, R. (2016). 为什么深度学习忽然改变你的生活。http://fortune.com/aiartificial-intelligence-deep-machine-learning Richtell, M. and Dougherty, C. (2015). 谷歌的无人驾驶汽车遇到问题：有驾驶员的汽车。https://www.nytimes.com/2015/09/02/technology/personaltech/google-says-itsnot-the-driverless-cars-fault-its-other-drivers.html Shujath, J. (2017). 为什么开源应该推动生命科学中的人工智能开发。https://blogs
.opentext.com/why-open-source-should-drive-ai-development-in-life-sciences 西罗秋克, 艾琳和班尼特, 瑞恩. (2017). 呆板的崛起，技能启发的投资，IS&

交替活动性。瑞士信贷，内部出版物。
Soper, T. (2017). 自动驾驶汽车在颠末 2500 英里的自主横穿全国之后抵达西雅图。https://www.geekwire.com/2017/self-driving-car-arrives-washington-2500-mile-autono mous-cross-country-trip Sykuta, M.E. (2016). 农业大数据：农业数据服务中的产权、隐私和竞争。国际食品和农业经营管理评论 A (特刊)。
TechEmergence. (2018). 实用于目的的过拟合 - 为什么众包人工智能大概不实用于对冲基金。 www.techemergence.com/overfit-purpose-crowdsourced-ai-may-not-work-hedgefunds/
第四章：实施替换数据在投资过程中

文雍贾
4.1 弁言

2007 年 8 月，系统性投资中发生了一次警钟，许多街头的量化生意业务员在一个被称为“量化震荡”的三天时间内遭受了他们有史以来最严重的损失。这个变乱在量化天下之外并没有广泛报道，但对那些度过了这一周的投资组合司理来说，这是一个改变天下观的周。从某种意义上说，对替换数据来源的搜索始于那几天。
在本章中，我们将探究这个基础性变乱是怎样引发对替换数据集的搜索的，替换数据实际上被采用的水平以及采用的缓慢水平的表明，以及一些基金司理更广泛采用替换数据的发起。然后，我们将审阅替换数据的一些告急问题，包罗数据质量和数量；我们将审阅替换数据怎样实际上帮助传统的定量或根本过程；以及我们将研究在替换数据中寻找阿尔法的技能。末了，我们提供了四个替换数据示例以及回测结果。
4.2 震荡：引发替换数据搜索

在 2007 年 7 月表现不佳但并不是非常不平常后，许多量化策略在 8 月 7、8 和 9 日连续三天经历了戏剧性的损失——根据一些说法，这是 12 个标准差变乱或更多。在通常高度控制风险的市场中性量化投资天下中，如许一串回报是闻所未闻的。通常机密的量化生意业务员以致向他们的竞争对手寻求帮助，以便相识发生了什么，只管当时没有立即得到明白的答案。
许多量化生意业务员以为，这些错位必须是暂时的，由于它们是模型以为公平代价的偏差。然而，在杂乱期间，每个司理都必须决定是减少资源以止血——从而锁定损失——还是坚持下去，如果预期的反弹没有按时到来，就冒着关闭店肆的风险。而且决定偶然不在他们手中，在他们没有稳固资源来源的情况下。每月活动性的对冲基金不会被投资者迫使清算，但是分开管理的账户的司理们和专有生意业务台不肯定有这种奢侈。
分开管理的账户和专有生意业务台并不肯定有这种奢侈。
8 月 10 日，这些策略强劲反弹，正如变乱发生后不久发表的一篇事后分析报告所示 (Khandani and Lo 2008)。到周末竣事时，那些坚持持有头寸的量化生意业务员几乎回到了他们开始的地方；他们的月度回报流几乎没有注册任何非常情况。不幸的是，许多人没有坚持，大概不能坚持；他们减少了资源或淘汰了杠杆——在某些情况下，直到今天。一些大型基金随后很快关闭了。
4.2.1 发生了什么？

渐渐地，人们形成了关于发生了什么事情的共识。最有大概的是，一个生意业务经典量化信号和一些活动性较低策略的多策略基金在那些活动性较低的账户中遭受了一些巨大的损失，他们敏捷清算了他们的量化股票账户以满意保证金要求。他们清算的头寸恰恰与天下各地许多其他量化驱动的投资组合所持有的头寸非常相似，而这种清算对这些特定股票施加了下行压力，从而对其他管理者产生了负面影响，其中一些管理者反过来又进行了清算，造成了连锁反应。与此同时，更广泛的投资界并未注意到——这些策略大多是市场中性的，当时市场上并没有大的方向性颠簸。
事后看来，我们可以回顾一些我们知道已颠末度拥挤的因素和一些其他因素，看到在地震期间表现出的显着差异。在表 4.1 中，我们看到了三个简单的拥挤因素：盈利收益率、12 个月价格动量和 5 天价格反转。我们如今用来降低投资组合拥挤度的大部分数据集都是在 2007 年以后才出现的，但是对于其中的一些不那么拥挤的 alpha，我们可以回溯到谁人时期进行回测。在这里，我们使用了一些 ExtractAlpha 模型的组件，即战术模型（TM1）的季候性组件，它衡量了股票在谁人时间表现良好的汗青倾向（Heston 和 Sadka 2008 年）；Cross-Asset 模型（CAM1）的成交量组件，它比较了看跌期权和看涨期权的成交量以及期权和股票的成交量（Fodor 等人 2011 年；Pan 和 Poteshman（2006 年））；以及 CAM1 的 Skew 组件，用于衡量虚值看跌期权的隐含颠簸率（Xing 等人 2010 年）。记载这些非常征象的学术研究大多发表于 2008 年至 2012 年之间，当时这些观点并不是很广为人知；可以说，与其“智能贝塔”对应的这些非常征象相比，这些非常征象在当时仍旧相对较少被关注。
表 4.1 显示了这些单一因素构建的美国活动性股票的美元中性、等权组合的平均年均化收益率，而且逐日重新均衡。在截至量化地震的七年期间，相对不拥挤的因素表现平平，而拥挤的因素表现相称不错——在费用之前，该期间的平均年均化收益率约为 10%，约为拥挤因素的一半。但在地震期间，它们的回撤与拥挤因素相比较小。因此，我们可以将其中一些因素视为多样化或对冲拥挤的工具。而且在某种水平上，如果确实想要清理头寸，那么在相对不拥挤的投资组合中应该更加活动。
TABLE 4.1 美国活动性资产的美元中性、等权组合的年均化收益率
股票更拥挤的因子更不拥挤的因子盈利收益率动量(%)(%)简单反转平均(%)(%)TM1季候性 (%)CAM1 成交量 (%)CAM1 偏度平均(%)(%)2001–2007 年平均年11.0014.7635.0920.288.643.6017.109.78收益率2007 年 8 月逐日因子收益 7 日-1.06-0.11-0.34-0.50-0.060.33-0.85-0.1920078 月 8 日-2.76-4.190.23-2.24-0.21-0.040.21-0.0120078 月 9 日-1.66-3.36-3.41-2.81-0.29-1.27-0.23-0.6020078 月 10 日3.914.0912.456.820.71-0.011.700.802007 我们如今知道的这些因素表现较差的缘故因由是对一些司理人来说是一个震惊的发现，由于他们以为他们的方法是独特的，大概至少是不常见的。结果证实，他们都在进行非常相似的生意业务策略。大多数股票市场中性量化生意业务者在一个类似的宇宙内生意业务，控制着相似的风险模型，而且在很大水平上是根据相同的数据源构建相同的 Alpha。
4.2.2 下一园地震？

随后几年量化回报一般都很不错，但许多团队花了数年时间恢复他们的声誉和资产管理规模（AUM）。到 2016 年初，量化震荡似乎已经足够遥远，而且回报已经足够长时间良好，以至于大概已经产生了得意情绪。量化回报一直相对强劲，直到 2017 年中旬之前的 18 个月中最近的量化回撤，此时至少有一个规模可观的量化基金已经关闭，几家知名的多管理公司已经关闭了他们的量化账本。与此同时，许多替换 Alpha 都很好地预测了回报。最近的表现不佳大概是由于最近在常见量化因子中的拥挤情况，部分是由于量化基金的增加，他们在过去十年相对于自由裁量型司理的表现良好，以及智能贝塔产品的兴起。一个显着的处方似乎是让司理们多样化他们的 Alpha 来源。
今天有云云多的数据可用 - 其中大部分在 2007 年还不可用 - 顶级投资司理人显着倾向于采用替换数据，但许多司理人的投资组合仍旧主要由经典的、大概是拥挤的因素主导。
最有前瞻性的量化基金司理人通过与系统性投资组合司理的广泛对话，积极地寻求替换数据。
然而，大多数量化管理者仍旧依赖于他们一直以来使用的相同因素，只管他们大概更加关注风险、拥挤和活动性来进行生意业务。关于我们如今处于采用曲线的哪个点的大概表明有几种。其中最主要的是，弄清晰哪些数据集是有效的是困难的，将它们转化为 Alpha 也是困难的。
换句话说，截至撰写本文时，替换数据还没有“跨过鸿沟”。 Moore（1991）从创新技能供应商的角度详细形貌了产品的生命周期 - 指出采用周期最困难的部分是从有远见的“早期采用者”转向更加务实的“早期主流”采用者，后者在采用新技能时更为风险规避（图 4.1）。
这个概念在科技初创公司中广为人知，但在机构投资范畴并未广泛思考 - 但它同样实用。对于替换数据到场者来说，我们如今正处于采用的早期阶段，但大概已靠近早期阶段的尾声 - 就在深渊的边沿。格林威治团结公司（McPartland 2017）的一项调查指出，80%的买方受访者盼望将替换数据作为其流程的一部分。根据我们的履历，相对较少的公司取得了庞大希望，只管人数仍在增长。早期采用者每每是那些已经特殊精通数据且拥有实验新数据集资源的量化基金管理公司。
关于替换数据的新闻报道大概会误导且充满炒作。仅有少少数资产管理规模达数万亿美元的基金所获收益大概受到先辈的呆板学习技能驱动（Willmer 2017）。真正基于人工智能的基金非常少，不敷以判定这些技能是否导致超额表现（Eurekahedge 2017）。如今还不清晰，例如利用卫星图像统计沃尔玛停车场汽车数量等方法中是否存在可扩展的 alpha（Hope 2016）。
因此，只管数据和量化技能如今比量化风暴时期更广泛，但采用情况仍旧落伍于炒作。一些基金司理对替换数据集的拥挤感表达了担心，但至少根据截至如今的采用公道估计，这些担心如今尚未成立。

也许另有些人对未采用替换数据的公司持观望态度，他们盼望代价、动量和均值回归并没有受到很多关注，大概他们对这些因素的理解有足够的差异化 - 在没有关于竞争对手更好信息的情况下，这将是一种大胆的赌注。同样，2017 年市场上量化生意业务员和量化基金的数量比 2007 年多得多，超过了更多地理位置和风格，因此某些机构影象已经褪色。
大概存在一种行为表明：群体行为。与主要投资于最大基金的设置者一样，只管相对于新兴基金，大基金的表现不佳，大概与群体一起调解预测以避免大胆但大概错误的判定的卖方研究分析师一样，也许基金司理更喜好在同一时间证实他们的赌注与竞争对手的赌注一样错误。在全部上述情况中，长处相干者不能由于许多同行已经做出的决定而求全非难群体行为者。对一些司理来说，这大概比采用一种创新但具有短期记载而且大概更难向设置者或内部官僚机构表明的替换数据策略更好。
无论出于何种理由，似乎很显着，2017 年比 2007 年更有大概发生另一次量化震荡。具体机制大概差异，但在这些竞争激烈的市场中，由拥挤性驱动的清算变乱似乎非常大概发生。
4.3 利用替换数据爆炸

通过与基金司理的许多对话，我们观察到他们通常在与数据提供商联系和通过供应商管理评估过程方面变得更加擅长。越来越多的大型基金拥有数据收罗团队。许多这些团队在评估数据集方面还不够高效，即在其中找到 alpha。
一些提高效率的大概处方包罗：

将研究资源专门分配给新数据集，为评估每个数据集设定明白的时间范围（比如 4-6 周），然后就数据集的附加代价有无做出明白决定。这需要保持新数据集的流水线，并坚持一个时间表和一个流程。
创建一个即插即用的回测情况，可以高效评估新的 alpha 并确定它们对现有流程的埋伏附加代价。在测试数据集时总会涉及创造力，但更乏味的数据处理、评估和报告方面可以自动化以加快（1）中的流程。
指定一位履历丰富的量化分析师负责评估新数据集 - 一个曾经看过许多 alpha 因子的人，可以思考当前的因子大概与之前的因子有何相似或差异。替换数据评估应被视为任何系统基金的核心能力。
增加对创新数据供应商的接触，而不是从大数据提供商那里得到的产品，后者更难被以为是真正的替换品。
优先考虑相对轻易测试的数据集，以加快对替换 Alpha 的接触。更复杂、原始或非布局化的数据集确实可以带来更多的分散化和更独特的实现，但这大概会延长已有因素的持偶然间，因此如果对替换数据还不认识，最好从一些低 hanging fruit 开始。
更加认识我们经常在替换数据会合看到的有限汗青长度。对于许多新的数据集，人们是在短期汗青的基础上进行决策的。我们不能像对传统因子进行 20 年回测那样来评判这些数据集，既由于早期数据根本不存在，又由于 20 年前的天下与今天拥挤的量化空间几乎没有关系。但是，不评估这些数据集大概被以为是更加冒险的。

下面，我们将讨论一些用于考虑有限汗青的技能。将替换数据转化为生意业务策略的过程并不简单。此外，它与投资组合司理的核心活动竞争，包罗一样平常投资组合管理、资源筹集和不断增加的合规负担。但是通过仔细的规划，可以在用于评估传统数据集（如定价或根本面）的现有框架之上构建替换数据策略。这对量化基金司理尤为真实。
4.4 选择用于评估的数据源

在此，我们将在量化股票流程的配景下检查选择评估数据的一些问题。
起首，必须网络数据，或从数据提供者那里获取数据。除非拥有大量资源，否则大多数基金不会在直接数据网络上耗费大量资源。纵然与数据供应商合作也需要专门的资源，考虑到当今提供者数量的激增。
对于大多数司理来说，一开始不清晰哪些提供商的数据集具有投资代价。大多数数据提供商没有能力以与顶级从业者方法一致的方式严格回测自己的数据或信号。许多供应商回测忽略生意业务本钱；在一个不切实际的宇宙中进行回测，其中非活动性资产推动收益；将等权重投资组合与资源化加权基准进行比较；仅使用当前指数成分股或当前上市的股票；不是时间点；或不考虑持仓的风险敞口。固然，供应商的回测很少显示出糟糕的表现，因此它们经常受到猜疑。因此，供应商评估通常是内部流程。
最少应该具有足够的汗青和广度的数据集；应该可以将数据转换为类似时点的东西；而且应该标记或可标记到证券。传统的量化回测技能每每对资产覆盖范围窄于几百个资产，汗青长度短于三年的数据集效果较差，特殊是如果数据集用于预测季度根本面数据。
一旦选择了供应商进行评估，就需要仔细检查他们的数据集。由于其中许多数据是由在资源市场履历有限的供应商网络的，它们大概不是为了易于消费或回测而设计的。
例如，记载大概没有标记到安全标识符，大概它们大概仅标记到一个非唯一的标识符，比如一个股票代码。汗青大概相对较短，特殊是如果数据集基于移动或社交媒体活动，而且较旧的年份大概不代表当前技能使用的状态。它们大概表现出幸存者偏差，尤其是如果数据是回填的，供应商数据集很少真正是时点的。提供的时间戳大概不准确，大概需要进行验证。
这些数据集没有像彭博、FactSet 和汤姆逊路透等大型数据供应商提供的那样被彻底检查过。因此，数据错误和间隙更有大概发生。
典范情况下，对这类数据集的学术研究不多，因此必须自己提出假设，说明这些数据集大概具有预测性或有效性，而不是利用已发表的或工作论文。在某些情况下，卖方研究团队大概会研究更知名的数据提供者的数据集。
数据集可以处于“信号”形式，换句话说，处理到可以轻松纳入多因子量化过程的水平。信号通常更轻易测试和表明，但它们的使用实际上涉及投资组合司理向供应商外包研究。因此，评估供应商的资历以及模型构建的严谨性至关告急。更多时候，数据以相对原始的形式提供，如许可以提供更大的灵活性，但明显增加了评估数据有效性所需的时间。许多较大的量化基金会更喜好原始数据，而资源较少的量化职员或非量化管理者大概会满意信号产品，只管这两个说法都有例外。
大多数另类数据集根本没有投资代价，大概它们的代价自然受到限制。这些数据集通常听起来直观吸引人，但大概缺乏广度；例如，最近出现了许多供应商，他们使用卫星图像来统计美国大型零售商停车场中的汽车数量，大概评估油箱的内容。然而，这些信息大概相干的资产总数自然有限。
作为另一个例子，捕获在线活动情绪的数据集，也许是我们如今以为的另类数据的最早形式，已经爆炸式增长，有许多供应商，其中大多数从 Twitter 挖掘情绪。除了 Twitter 包含大量噪音的显着观察外，一些关于微博情绪的实证研究表明，这些信号的预测能力不会连续超过几天，因此很难纳入可扩展的投资策略中（Granholm 和 Gustafsson 2017）。
末了，应该至少制定一个关于为什么大概在数据会合找到代价的一般假设，无论这个代价来自于预测股价、颠簸性、根本面还是其他内容。
4.5 评估技能

对于量化司理，另类数据集的评估过程大概与评估根本面等非另类数据时使用的过程非常相似。
人们可以为数据中的某些内容预测回报 - 大概收益，大概投资者关心的其他内容 - 制定假设，并制定一组公式，以便对这些假设进行样本内测试。如果数据布局化并具有久长汗青，这一点尤为告急。然后可以在回测或变乱研究中测试这些公式的预测能力，考虑到风险敞口和生意业务本钱；在样本底细况中进行优化，大概简单选择，以生成尽大概强大的单变量预测；根据现有情况检查（通常非另类）预测因子的独特性和对更广泛策略的贡献；然后，假设结果直观、稳健且独特，进行样本外验证。
前面段落中的内容与大多数量化股票组合司理在评估传统数据集时所做的事情并无差异。只管呆板学习和人工智能经常与另类数据一起提及，但在数据有肯定布局的情况下每每不必使用这些技能，如许做大概会导致结果不如预期那样直观 - 尤其是在不太认识这些技能的研究职员手中。
但在某些情况下，替换数据集具有使该过程某些部分更加困难的特征。例如，非布局化数据或具有更有限汗青的数据大概需要新的处理数据和创建公式的方法。最常见的例子是情感分析，其细节超出了本章的范围，但它涉及使用自然语言处理或其他呆板学习技能将人类生成的文本或语音信息压缩为乐观或悲观的度量，然后相对轻易将其汇总到资产级别。
一些替换数据集大概未颠末良好的标记，如 CUSIP、SEDOL 和 ISIN 等强大的安全标识。许多数据供应商从股票代码开始标记，但股票代码大概会更改而且可以被重复使用。而一些更原始的数据集仅通过公司或实体名称进行标记。对于这些数据，需要构建一种坚固的公司名称匹配技能，以适当考虑缩写、拼写错误等因素。一旦构建完成，这些工具可以应用于多个数据集。
许多替换数据集没有清晰的时间戳，指示数据在汗青上何时可用，因此使得回测困难。
常常唯一的办理方案是观察供应商网络数据的时间，并评估提供的日期。
如前所述，任何使用替换数据集的人终极都会遇到一个否则具有吸引力的数据集，其汗青数据可用性不及人们所盼望的多。短期汗青具有几个寄义：

汗青大概不涵盖多种差异的宏观经济情况，例如高颠簸性和低颠簸性时期。
数据较少时，回测结果自然会更嘈杂，而且无法像使用更长的汗青数据那样以相同的坚固性进行细分（比如按部门）。
传统的样本内和样本外技能，例如使用前 10 年进行样本内和剩余的 5 年进行样本外，大概不实用。对于第一个问题并没有太多的办理方案，但可以在肯定水平上办理第二和第三个问题。

短期回测具有噪声，由于股票价格是嘈杂的。对于一天或更长时间的预测，这一点尤为真实，而这些时间长度是大型机构投资者最感兴趣的。办理这个问题的一个非常直观的方法 - 以及与特定行业数据集的交织覆盖范围过窄的相干问题 - 是创建对股票价格或回报而非更根本的东西的预测，例如收入或收入，或这些值的简单衍生物，例如盈利惊喜或收入增长。由于资产颠簸性 - 大概受情绪和外生打击驱动 - 在恒久内超过收益颠簸性，根本预测每每比资产价格预测更稳固。
因此，一个埋伏的大概性是，可以利用相对较短的汗青创建对根本代价的稳健预测。
根本预测在学术文献中并不新鲜。例如，一篇着名的论文（Sloan 1996）表明，由应计驱动的收益比由现金流驱动的收益不那么恒久，而且差异的恒久性随后反映在股价中。 20 世纪 90 年代末和 21 世纪初的研究还表明，个别分析师有差异的能力进行盈利预测，这些差异可以转化为生意业务策略（Mozes and Jha 2001）。对盈利预测的这项工作最近已扩展到 Estimize 网络的众包盈利估计的替换数据集（Drogen and Jha 2013）。
固然，使根本预测在投资组合管理情况中有效的条件是，准确预测根本面会导致逾越的投资组合，换句话说，市场关心根本面。只管证据表明恒久来看这是正确的，但并不时有市场条件，其中资产价格主要受其他效应驱动。在过去几年中我们已经多次看到这种情况，包罗全球金融危急后的“风险偏好”行情以及 2016 年期间，股票价格受到关于宏观变乱的预期变化的影响，如英国退欧和美国总统推举。辨认这些情况正在发生时可以帮助使根本预测更加稳健。
资产颠簸自己倾向于相称稳固，因此，使用有限汗青的替换数据集的一个相对不引人注目的应用是改善颠簸率预测。本章稍后将探究一个如许的例子。
样本内和样本外的方法大概必须更改以考虑较短的汗青和不断发展的量化景观。例如，可以在样本内和样本外月份之间交替，从而允许回测包含更近期的样本内日期，衡量因子在当前市场条件下的表现怎样，并确保任何汗青数据长度的样本内和样本外周期之间的类似分布。必须非常审慎地处理这种方法，以避免从样本内泄漏到样本外，并避免季候性偏差。
另一个考虑因素是，许多源自替换数据的 alpha，特殊是那些基于情绪的 alpha，与其拥挤的同行相比，其时间跨度相对较短；alpha 的时间跨度通常在一天到两个月的范围内。对于管理大量资产的，不能太灵活地移动资源的资产管理职员，可以以非传统的方式使用这些更快速的新 alpha，例如确定更好的恒久生意业务进出点（Jha 2016） - 大概将它们分开在更快的生意业务账簿中进行生意业务 - 可以让他们利用这些数据集改变策略。我们观察到，随着运行较低夏普比书籍的量化职员试图提高回报，对中期视野的收敛正在发生。
同时更高频率的量化职员寻找额外的容量，使得区分中期 alpha 的需求更加迫切。
在评估基于变乱的替换数据时 - 例如，来自网络的众包预测集合，大概与通常的收益意外、合并等差异的公司变乱数据集 - 变乱研究可以是一种极其有效的技能。典范的变乱研究涉及跟踪变乱前后资产回报的情况。这些研究可以展示一个变乱是否在大幅回报之前或之后发生，固然，但它们也可以告诉你这些回报实现的时间跨度，这将让研究职员相识变乱是否可以在短期或恒久 alpha 生成的配景下使用，以及在对新变乱做出反应时需要多快行动。还可以沿着许多维度将变乱分区：
对大盘和小盘股票的变乱，大概在收益周期的差异时期，大概由差异类型的预测者产生的变乱，例如，大概会产生差异的结果。末了，可以对资产回报进行残差化处理，即控制对共同风险因素的暴露，从而使研究职员能够确定其在变乱发生后看到的任何超额表现是否是变乱数据集内在投注的结果，例如小盘股或动量偏差。
上述大概的调解可以表明部分替换数据的特殊性，但根本的定量研究原则仍旧相干：应该创建直观因素的时间点数据库，并在精心设计的样本内期间内进行严格测试，同时考虑风险和生意业务本钱。
4.6 基金司理的替换数据

只管量化基金，尤其是系统性对冲基金，一直是替换数据的早期采用者，但自由裁量和根本管理者也开始担当替换数据。这种转向“量化根本”投资反映了市场上其他一些趋势，包罗资金流向量化策略，远离股票多空策略，以及机械“智能β”或风险溢价投资风格的更大担当度。
量化根本法采用多种形式，包罗传统量化技能的使用增长，如回测、风险管理和基于根本分析的投资组合中的投资组合归因。在这里，我们将主要关注自由裁量分析师和投资组合司理对替换数据的采用。
量化基础的增加意味着以前在数据科学方面履历有限的基金将需要相识一些定量研究的根本原理。挑战在于将这些广泛的数据驱动方法与一直夸大深度而不是广度的投资哲学相协调。格林奥尔德（1989 年）在《主动管理的根本法则》中捕获了这一区别：
I R = I C ∗ N IR=IC*{\sqrt{N}} IR=IC∗N
在这里，司理的信息比率（IR），即其风险调解后的主动回报的衡量标准，被显示为两个因素的函数：

信息系数（IC），即司理预测与随后实现回报之间的相干性；一种技能的度量。
独立下注的数量（N）；一种广度的度量。

简单地说，自由裁量管理者关注信息系数，而量化管理者关注广度；量化策略可以在许多资产上复制，但很少对任何特定生意业务提供高度信心，而根本分析师理论上可以通过深入研究提供高但不可扩展的信息系数。
因此，根本司理们使用替换数据的一种方式是，纵然不增加总下注数量，也能更深入地相识一家公司。通常由个别分析师决定新数据是否有助于提供如许的看法。由于数据不需要在许多股票或自动摄入中广泛或非常高效地产生，所以通常以报告的形式提供，这些报告大概包含特定于行业的信息。
这大概是根本分析师使用替换数据的最简单方法，只能被宽松地视为量化基础。
数据采用曲线上进一步的一点，一些根本团队正在通过设计用于提供可视化、筛选和有关替换数据集的警报的用户界面（UI）摄取数据。例如，根本投资组合司理可以将其监视列表输入到如许的工具中，并寻找最近的消费者或社交媒体行为趋势表明即将出现的问题的股票，这将关照位置巨细，大概分析师大概盼望筛选由这些数据集驱动的生意业务想法。这些 UI 工具可以很好地融入根本投资组合司理或分析师的工作流程中，历来以彭博终端和 Excel 模型为主。
末了，一些基金团队最近引入了团队来管理供应商关系，并在内部提供数据科学工具。这些工具可以包罗与上述类似的可视化，但它们也可以包罗利用新数据集创建股票排名和评分的量化模型的开发。一些资产管理者多年来一直有量化团队担任这一脚色，使用传统数据，但在股票多空对冲基金范畴相对较新。
在这两种情况下的一个挑战是让投资组合司理和分析师关注数据科学团队生成的内部产品。根本用户大概不完全同意量化方法，也大概不盼望量化流程在很大水平上决定他们的决策。因此，司理大概更乐意与根本团队合作设计量化方法，考虑到他们的愿望、反馈和工作流程，保持数据科学团队与根本团队之间的连续协调。
另一个问题是，根本团队通常对样本巨细、回测、鲁棒性等玄妙问题不太认识。由于他们依赖 IC 而不是 N，根本投资组合司理和分析师寻求高信心的信息，但资源市场中的履历证据很少能提供这种水平的信心。量化赌注大概大部分时间都是错误的，但平均上仍旧能赢利，但一次错误的赌注大概会让根本分析师对量化技能产生厌恶。
在这里，没有什么比继续学习量化技能来增加认识度更好的替换品。
从实际角度来看，新的定量根本团队实际上也将不得不修改他们使用的工具。汗青上，自主管理者的工作流程依赖于一些书面报告、Excel 模型和彭博终端的混合。传统的量化过程不使用这些工具之一；而是依赖数据源。新的定量和替换数据源将必须通过可视化、筛选和电子邮件警报等前述的工作流程工具交付给根本团队，这将促进更广泛的采用，而定量根本团队将需要将注意力从典范的工具转移到最佳利用新数据集的工具上。
4.7 一些例子

在这里，我们通过四个例子来使用替换数据生成信号，该信号可以用于投资组合管理过程。虽然在某些情况下，信号生成的细节大概有些专有，但我们盼望提供足够的信息来引发对其他数据集的研究。
4.7.1 示例 1：博主情绪

我们从分析由 TipRanks 提供的金融博客数据集开始。TipRanks 网络来自各种来源的在线发起，包罗新闻文章和几个金融博客网站。它的专有自然语言处理算法是通过对一组文章进行手动分类进行训练的，并用于为每篇文章生成情绪。特殊是，该算法将文章分类为看涨 vs 看跌（或买入 vs 卖出）。无法以高度自信分类的文章将被发送回给人类读者进行分类，并在未来更好地训练算法。
新闻文章包罗卖方分析师的看涨或看跌评论，这些评论通常与分析师的买入和卖出发起重复，而这些发起已经包含在数据供应商（如汤姆森路透和 FactSet）提供的广泛使用的布局化数据会合。因此，在这里，我们关注金融博客这一较不为人知的数据源。金融博客的内容（例如 Seeking Alpha 和 Motley Fool）与微博（例如 Twitter）差异，它们通常包含长篇文章，并对公司的业务和远景进行告急分析；因此，它们更像卖方研究报告，而不像微博帖子或新闻文章。
我们开始我们的研究，通过变乱研究来相识在被分类为买入或卖出的博客文章发布之前和之后的股价行为。我们可以以多种方式分别我们的数据，但样本内最告急的发现似乎是某些博客网站包含具有预测代价的文章，而其他网站则没有。这大概是由于各个网站的编辑标准差异所致。在具有预测代价的网站中，我们看到类似于图 4.2 中的变乱研究围绕发布日期。
请注意，在这里我们绘制的是平均累积残差收益，即控制行业和风险因素的收益，作为文章发布日期前后生意业务日的函数。从图表中可以看出，发布当天存在很大的影响，这大概是文章对市场和文章发布大概与庞大公司变乱同时发生的事实。我们还看到了一个很大的上涨效应，即买入文章通常在价格上涨之前出现，而卖出文章通常在价格下跌之前出现。

我们还看到文章发布后几周预期方向的连续漂移，与文章作者继续推动市场和/或他们预测未来价格走势的能力一致。
我们可以将这些买入和卖出信号包装成一个简单的股票评分算法，自 2010 年末以来每天评分超过 2000 只美国股票。由 TipRanks 和 ExtractAlpha 合作构建的 TRESS 算法采取的方法是直接的，涉及对给定股票的最近文章级买入或卖出（+1 或−1）信号的总和进行加权，加权系数为自文章发布以来的天数。如许，得分最高的股票是最近有买入保举的股票，得分最低的股票是最近有卖出保举的股票。为了使具有许多保举的股票（通常是较大或更受欢迎的股票）与保举较少的股票具有可比性，我们按该股票的博客文章频率进行缩放。
金融博客通常针对个人投资者和生意业务者的观众，他们持有会合的恒久投资组合，通常寻找买入发起而不是卖出发起。因此，约 85%的博客保举终极被归类为买入。这意味着一旦我们按股票级别汇总，我们终极得到的净卖出情绪占多数博客的股票相对较少。
话虽云云，我们发现当大多数博客看跌时，股票每每表现不佳，如图 4.3 所示。该图绘制了得分较低（TRESS 值为 1–10）的股票与得分较高（TRESS 值为 91–100）的股票的平均年化收益率，因此，卖出或做空信号很少，但具有很强的影响力。
低 TRESS 分数和高 TRESS 分数之间的表现差异在时间上保持一致，包罗样本内期间（至 2013 年中期竣事），go-live 日期（2014 年末）及随后三年的实时数据（图 4.4）。这表明，金融博客情绪是回报的一致预测因子。有许多方法来切分这种绩效以证实其鲁棒性，但是一个简单的长/空头投资组合，每天重新均衡一次，由得分为 91-100 的股票的多头部分和得分为 1-10 的股票的空头部分组成，是一个方便的视觉工具。

在这种情况下，我们绘制了考虑生意业务本钱之前的回报，但受到市值最低要求（1 亿美元）、平均逐日美元生意业务量（100 万美元）和名义价格（4 美元）的限制。每个投资组合的日换手率约为各自的 6%，因此这些结果应该能够继续住公道的生意业务本钱假设。
4.7.2 示例 2：在线消费者需求

上述示例探究了中介情绪的另一种来源的预测能力：

在这种情况下是博客作者。
他们大概对公司的根本面有所相识。一些替换数据集更直接地关注公司根本面的替换品，例如面板生意业务数据。
我们在下面的第 3 项中展示了一个例子。在这两个极端之间，我们可以研究能够为我们提供消费者偏好洞察的数据。基于网络的需求数据可以帮助提供这些洞察。

随着越来越多的时间花在线上，消费者不仅仅在网上购买产品，他们还在做购买决策之前对这些产品进行研究。这对零售消费者和企业对企业（B2B）买家都是真实的。因此，公司产品的需求可以通过公司的网络存在所受到的关注度来近似。只管关注度大概是一个负面的标记（如丑闻案例），但文献表明，总体上更多的关注对公司的远景是有好处的。
这种类型的关注数据在数字营销范畴已经被使用了一段时间，但是对于股票选择模型来说还比较新奇。在这里，我们研究了 alpha-DNA 网络的一个数据集，他们是数字需求数据的专家。alpha-DNA 数据集包罗三个种别的关注度测量：

网络搜索：消费者是否通过搜索引擎在线搜索公司的品牌和产品？
网站：消费者是否访问公司的各个网站？
社交媒体：消费者是否通过赞、关注等方式表达他们对公司的各种社交媒体页面的关注？

为了将相干术语和属性映射到公司级别，alpha-DNA 维护一个数字局，这是一个每个公司的品牌和产品名称、网站和社交媒体句柄的不断发展的数据库。(图 4.5)。这项分析所需的大部分前期工作都在生成这个数字局。
alpha-DNA 已开发出一套专有的评分系统，用于排名大约 2000 家公司在数字平台（网站、搜索、社交）和消费者效益（渗透率、到场度、受欢迎水平）上的整体表现强度。排名每天进行一次，汗青数据始于 2012 年。使用“民意调查”的方法，将来自多个数据集的许多差异数字维度组合起来，以创建加权绩效评分。
使用这种民意调查的民意调查，针对每家公司创建相对于其同行的数字实力指标。alpha-DNA 的数字收入信号（DRS），与 ExtractAlpha 合作创建，衡量这种数字实力，将其作为预测收入意外的函数；当消费者需求增加时，公司更有大概超过其贩卖方一致的收入目的，当消费者需求淘汰时，公司更有大概未能达到目的。因此，得分较高的 DRS 股票每每表现出正面的收入意外以及正面的收入增长。在图 4.6 中，我们绘制了按 DRS 十分位分别的股票击败其收入目的的百分比，根据上述用于 TRESS 的相同宇宙约束（而且在撰写时，alpha-DNA 没有网络金融股票的数据）显示了 2012 年至 2015 年的组合表里样本期间，并显示自 DRS 推出以来的每个后续季度。

显然，人们可以定期使用嵌入在 DRS 中的数字需求数据来预测收入意外。正如人们所预期的那样，该预测也导致使用 DRS 构建的盈利组合。在图 4.7 中，我们绘制了基于 DRS 的投资组合的累积回报，使用了上面用于 TRESS 的相同技能。
收益率年化为 11.4%，夏普比率为 1.64。进一步观察发现，结果在宇宙的资源范围和大多数其他公道的横截面切片中保持一致。

，轻松应对生意业务本钱和各种再均衡规则，鉴于逐日成交量与 TRESS 相似，每天每边 6%。因此，似乎准确的收入意外预测，本例中基于在线另类数据集的组合，产生了一种埋伏的盈利投资策略。
4.7.3 示例 3：生意业务数据

美国早期使用的另类数据的早期示例之一是光荣卡生意业务数据。这些数据集用于提前相识行业的收入情况，而不是企业发布收入公告。随着中国消费者活动的增加，人们意识到，在天下人口最多的经济体中，无论这些公司的总部和上市地点在哪里，生意业务数据都大概对拥有大量中国客户群的公司的收入具有信息代价。
檀香顾问是第一个专注于中国消费者市场的替换数据平台。该公司已经网络了几个捕获中国本地零售生意业务的独特高代价数据集。在这项研究中，我们关注其中一个数据集，来自中国最大的企业对消费者（B2C）电子商务网站天猫网，截至 2016 年占据了 57%的市场份额。中国和国际消费品生产商利用天猫来进入中国消费者市场。在天猫上有各种各样的产品可供贩卖，包罗服装、鞋类、家电和电子产品。外国公司必须符合严格的要求——特殊是年度收入的最低金额——才能够在天猫上列出其产品。
在这项研究中，我们对天猫数据中的公司级指标进行了检验，该数据每月网络一次，滞后五个工作日。基础数据包罗每月人民币总贩卖额和贩卖的单位数量。我们能够将天猫数据映射到五个市场中生意业务的 250 只活动性证券上：中国、香港、日本、韩国和美国。天猫汗青数据的长度有些有限，超过了 2016 年 3 月至 2017 年 6 月。
我们检验了一个非常简单的α值，即逐月贩卖额的变化。这个指标允许我们对天猫数据会合的任何股票进行评分，但由于公司在平台上增加或淘汰贩卖积极、促销活动导致的跳跃、汇率颠簸对大概具有差异国际风险的股票的影响以及大概会影响每只股票贩卖的季候性效应，因此存在一些噪音。
另一种表述方式是查察市场份额的月度变化。
对于每个种别，我们可以盘算特定品牌与其他全部公司的市场份额的比例，无论我们是否能够将这些公司映射到活动的公共股权（例如，私人公司）。然后，我们可以按照该种别对公司整体来自天猫的收入的贡献加权聚合市场份额。这大概是一个比月度贩卖变化更清晰的指标，但也有一些缺点。公司的收入分配大概不反映其在天猫上的收入分配，而且，也许最告急的是，我们尚未为全部公司映射到种别级别的数据，因此我们的样本量对于这一指标来说太低了，因此我们将市场份额分析留给未来的研究。
在我们早些时候关于查察短期汗青数据以预测根本面的评论之后，我们起首观察到，月度天猫营收增长低于−10%的股票的实际报告季度增长率（1.8%）低于月度天猫营收增长率高于 10%的股票（6.1%）。这一分析表明，天猫数据集代表了公司的收入。
然后，我们按照之前的方法，从月贩卖增长构建做多-做空组合，这根本上导致了一种月度换手率策略（只管我们是逐日重新均衡的）。我们独立地看待每个地区：美国、中国和发达亚洲 - 在这种情况下，发达亚洲指的是香港、日本和韩国。我们使用每个市场的本地货币回报。由于与早期模型示例相比，每个地区内的数据相对稀疏，我们将数据分成了三等份（而不是十等份），简单地做多了地区内排名前三分之一的股票并做空了排名末了三分之一的股票。结果是每个地区的投资组合仍旧相称会合。
在图 4.8 中，我们展示了每个地区内的累积回报，然后展示了一个简单的全球投资组合，该组合在三个地区匀称分配资金，并显示了如许做时风险调解后回报的分散效益。
这些结果的低本钱性值得注意，由于生意业务本钱 - 在美国和日本较低，而且中国 A 股的生意业务本钱已经大幅降落 - 在香港和韩国仍旧相对较高，缘故因由是有印花税和证券生意业务税。此外，我们在这里假设了一个做多-做空的投资组合，尤其是在中国股市中，股票借贷大概受到限制或昂贵。但我们确实看到排名靠前的股票在整个股票市场中表现优异，这表明仅在做多方面有效。
只管我们构建的度量标准的简单性质，但这些结果仍旧非常令人鼓舞。虽然这些数据集的汗青长度和横截面覆盖范围都有些有限，但它们背后的明白直觉以及中国的在线购物对全球零售业务日益告急，却很少受到投资者的关注，这意味着它们值得深图远虑。

4.7.4 示例 4：ESG

只管情况、社会和管理（ESG）投资正在增长，但大多数捕获 ESG 的技能使用简单的指标，如剥离能源公司或关注董事会多样性。ESG 投资者通常不是数据驱动或系统化的，只管有大量关于公司可连续性和负责任行为的数据。
一些最近的研究已经开始揭示一些 ESG 数据集和回报之间的关系仍旧相称杂乱。一个大概引人注目的替换方向是使用 ESG 因素进行风险管理。在这里，我们鉴戒了 Dunn 等人（2017 年）的做法，并使用一种针对金融服务部门的新型数据集来衡量风险。
美国消费者金融掩护局（CFPB）是在全球金融危急之后成立的，旨在加强对光荣卡和抵押贷款发行商等金融服务提供商的监视。 CFPB 维护着一个每天更新的消费者投诉数据库，其中记载了与零售金融服务相干的消费者投诉，并为金融服务提供商提供了回应投诉的平台。投诉数据可以从 CFPB 免费获取，但需要一些工作来使其在量化配景下可用。与许多政府数据来源一样，数据格式随时间改变，数据没有标记为安全标识符。因此，我们使用专有的含糊名称匹配算法，考虑拼写错误、缩写（如“Inc.”和“Corp.”）、公司名称随时间变化以及公司名称中单词的相对唯一性，将 CFPB 提供的公司名称映射到主公司名称数据集，然后再映射到常见的安全标识符，如 CUSIP。
然后，我们有一个数据库，其中包含约 100 家上市金融服务公司，每年有 48000 个投诉，数据始于 2011 年。
数据集非常丰富，包罗收到投诉的日期、它所涉及的特定产品（例如借记卡、学生贷款）、公司是否实时回应投诉以及该回应是否被争议。投诉的文本也包罗在内。
我们的假设是，相对投诉较多的公司面对更大的业务风险，要么是由于他们疏远了客户，要么是由于他们更有大概受随处罚性的监管行动。在这些关乎生存的风险终极被投资者知晓时，它们应该也会影响股票的颠簸性。
为了简单起见，在这里我们仅盘算了在给定时间段内与每个证券相干的投诉数量。固然，金融产品的大型发行者通常会收到更多的投诉，因此我们仅仅取得前一年内的投诉数量 - 保持一个季度的滞后以确保汗青数据的可用性 - 并按市值比例进行缩放。然后我们取反，以便得分较高的股票是相对投诉较少的股票。
我们起首进行了一个快速测试，以查察我们的投诉计数是否预测了回报，使用与之前相同的方法论（表 4.2）。这里我们使用五分位组合而不是十分位组合，由于 CFPB 的横截面覆盖范围较少。
与先前数据集相干的数据。 2014 年之前的数据太稀疏，无法使我们在我们的活动宇宙内创建坚固的五分位组合，因此我们在 2014 年初至 2017 年中创建了组合。
我们可以看到一些证据表明，投诉较少的公司确实表现优异，基于这些数据的策略在生意业务本钱上不会受到庞大影响，考虑到我们制定的慢速性质，但结果在时间上并不一致，而且在很大水平上受到 2016 年的日历影响。当评估既有有限横截面覆盖又有限汗青的数据集时，此类非稳健结果很常见，由于评估参数（例如分位数数量、宇宙选择和生意业务参数）的稍微变化大概会导致由于样本量较小而导致结果发生较大变化。只管回报效果值得进一步研究，但我们如今转而衡量投诉数据是否能告诉我们有关风险的信息，我们大概期望得到更稳健的结果。
我们通过查察五分位数的共同风险因素的平均暴露来检查我们的度量的一般风险特征（这些因素被缩放为均值 0 和标准差 1）（表 4.3）。
我们可以看到，投诉最多的公司每每更具颠簸性和更高的杠杆，而且它们的股息收益率较低。因此，我们需要确定投诉是否表明了超出我们通过查察这些标准风险因素所知道的风险。
数量分组公司天数/变乱数年度收益率 (%)年度夏普比率总体719036.200.5201460248−3.30−0.292015722522.000.1520167625228.102.31201779151−7.60−0.53收益率颠簸性动量规模代价抱怨较少(0.09)(0.55)-0.532(0.05)(0.40)0.020.6730.04(0.33)(0.13)0.754(0.10)(0.27)(0.03)1.77抱怨较多(0.27)(0.15)0.030.64 我们起首通过投诉量五分位数来检查股价颠簸性，该投诉量是在我们盘算投诉后的一个月内衡量的。我们用两种方式衡量颠簸性：

逐日股票收益的标准偏差。
残差化逐日股票收益的标准偏差，其中每天的收益在横截面上回归到行业和共同风险因素，仅留下特有的回报。

残余收益颠簸性应该告诉我们，投诉数据告诉我们关于未来风险的水平，这些风险不能通过常见风险因素表明，包罗股票自身的汗青颠簸性。对于这两个指标，我们每个月将它们百分位化，以考虑市场整体颠簸性随时间的变化。
我们可以在图 4.9 中看到，相对于其市值而言，投诉较少的股票未来的颠簸性较低，纵然在控制已知风险因素的情况下也是云云。这种效应比我们之前用基于回报的指标看到的更加一致。
末了，我们还可以使用回归方法来表明回报颠簸性的横截面，使用我们的根本风险因素，然后再添加我们的投诉因素。在这里，更高的值意味着更多的投诉，所以如果经历更多投诉的公司更加风险，我们期望在投诉变量上看到正的系数(表 4.4)。

基线有投诉参数参数估计t 值Pr >t估计t 值截距0.020101.81<0.00010.01992.24<0.0001颠簸性0.00834.38<0.00010.00728.91<0.0001规模(0.000)(5.23)<0.0001(0.000)(5.15)<0.0001值0.0014.00<0.00010.0015.40<0.0001增长(0.000)(0.03)0.980.0000.100.92杠杆(0.000)(0.33)0.74(0.000)(1.70)0.09动量(0.000)(2.70)0.01(0.000)(0.75)0.45收益率(0.000)(1.69)0.09(0.000)(1.90)0.06投诉0.0038.86<0.0001调解 R 平方0.3500.363 只管在第二次回归中，汗青颠簸率（未来颠簸率的最佳预测因子）与投诉之间的上述相干性表现为汗青颠簸率的系数较低，但在第二次回归中，投诉因子非常明显，T 值为 8.86，而且回归显现出比基准回归更高的调解 R 平方。换句话说，投诉为未来风险提供了独特的、增量的表明力量，逾越了传统根本风险模型。
我们可以按年份重复这个练习，我们看到每年投诉因子在 3%或更好水平上都是明显的，全部年份中的调解后的 R 平方有所增加（表 4.5）。
ESG 增强型风险模型可以用多种方式。新因子可以作为优化过程中的约束条件，以在组合水平上减轻 ESG 风险；可以监测组合和股票水平的 ESG 风险；可以测量相对于 ESG 因子的残差回报，用于例如，均值回归股票选择模型。这些探索性结果表明，非传统 ESG 数据集可以帮助管理者构建更智能的模型，以衡量和减轻风险。
基准模型参加投诉年份调解 R 平方调解 R 平方t 值Pr>20140.2940.3175.00<0.000120150.3970.4002.220.0320160.3860.4096.06<0.000120170.3490.3643.470.00 4.8 结论

在量化风波之后的几年里，数据驱动的投资敏捷增长。
在量化和自主分析范畴，具有前瞻性的投资者已经开始在其决策过程中使用替换数据集，只管主流市场另有很大的采用空间。资产管理者正在积极寻找最佳的替换数据采用方法，并找到符合的数据集来帮助他们的 alpha、根本面和颠簸率预测。我们发现履历数据表明，如果这些数据颠末仔细检察和严格测试，替换数据可以帮助全部这些事情。随着越来越多有关物理天下和在线天下的数据被网络，研究职员将会发如今处理这些新兴数据集时会找到更多的代价。
参考文献

德罗根，L.A.和贾，V.（2013）。利用集体智慧的盈利估计生成非常回报。Estimize 白皮书。
邓恩，J.，菲茨吉本斯，S.和波莫尔斯基，L.（2017）。通过情况、社会和管理暴露评估风险。AQR 资源管理。
Eurekahedge。 (2017). 人工智能：对冲基金的新前沿。 eurekahedge.com Fodor, A., Krieger, K., 和 Doran, J. (2011). 期权未平仓量变化是否预示未来股票回报？《金融市场和投资组合管理》, 25 (3): 265。
Granholm, J. 和 Gustafsson, P. (2017). 寻找非常收益的探索：基于 Twitter 情绪的生意业务策略研究。 Umea 商学院。
Grinold, R.C. (1989). 主动管理的根本定律。《投资组合管理杂志》15 (3): 30–37。
Heston, S.L. 和 Sadka, R. (2008). 股票收益截面的季候性。《金融经济学》, 87 (2): 418–445。
Hope, B. (2016). 微型卫星：对冲基金正在利用的最新创新。《华尔街》杂志。
Jha, V. (2016). 利用短期阿尔法定时权益量化头寸。《生意业务杂志》11
(3): 53–59。
Khandani, A.E. 和 Lo, A.W. (2008). 2007 年 8 月量化生意业务员们发生了什么？：基于因子和生意业务数据的证据。 NBER 工作论文 No. 14465。
McPartland, K. (2017). 用于 alpha 的替换数据。 Greenwich 团结报告，Q1。
Moore, G.A. (1991). 越过鸿沟：向主流客户推广和贩卖高科技产品。哈珀商业基础。
Mozes, H. 和 Jha, V. (2001). 通过 StarMine 专业版创建并从更准确的盈利预估中获利。 StarMine 白皮书。
Pan, J. 和 Poteshman, A. (2006). 期权生意业务量中的信息对未来股票价格的影响。
《金融研究评论》, 19 (3): 871–908。
Sloan, R. (1996). 股价是否充分反映了关于未来盈利的应计和现金流信息？《会计评论》71 (3): 289–315。
Willmer, S. (2017). BlackRock 的呆板人选股师创下汗青记载的亏损。彭博社。
Xing, Y., Zhang, X., 和 Zhao, R. (2010). 单个期权颠簸率微笑对未来股票回报的启示？《金融与量化分析杂志》, 45 (3): 641–662。
第五章：使用替换和大数据生意业务宏观资产

Saeed Amen 和 Iain Clark
5.1 弁言

近年来，从个人和公司等各种来源产生的数据量敏捷增加。传统上，对于生意业务员来说，最告急的数据集是形貌价格变动的数据。对于宏观生意业务员来说，经济数据也是生意业务过程的关键部分。然而，通过将现有流程与这些新的替换数据集相团结，生意业务员可以更深入地相识市场。在本章中，我们深入探究了替换数据和大数据的主题。我们将讨论分成三部分。在第一部分中，我们试图界说围绕大数据和替换数据的一般概念。我们表明为什么数据以敏捷增加的速率生成以及“排气数据”的概念。我们讨论了形貌市场的模型的各种方法，比较了传统方法和呆板学习。我们详细介绍了各种形式的呆板学习以及它们怎样在金融情况中应用。
在下一节中，我们将更多地关注替换数据在宏观生意业务中的一般应用。我们指出它怎样可以用于改进经济预测，例如，大概用于如今预测的构建。还枚举了来自新闻和社交媒体等来源的大数据和替换数据的现实例子。
在末了一部分中，我们将更详细地介绍，提供几个使用替换数据集或不平常技能来理解宏观市场的案例研究。我们展示了美联储沟通所产生的情绪与美国国债收益率的变动之间存在着密切关系。我们讨论了使用可呆板读取的新闻来影响外汇市场价格行动以及新闻量与隐含颠簸率的关系。我们还研究了一个基于对金融网站 Investopedia 的网络流量表现的投资者焦虑指数。我们展示了怎样使用它来在标准普尔 500 指数上创建主动生意业务规则，以优于仅多头和基于 VIX 的过滤器。
末了，在一个案例研究中，我们使用了一个更传统的数据集（外汇颠簸数据），但以一种新奇的方式进行分析，试图理解关于计划变乱周围价格行动的风险，以 GBP/USD 在英国脱欧周围的例子为例。
5.2 理解大数据和替换数据中的一般概念

5.2.1 什么是大数据？

最近几年，"大数据"这个术语大概被过度使用了。有一些构成大数据的特征，这些特征被称为四大 V：volume（容量）、variety（多样性）、velocity（速率）和 veracity（真实性）。
5.2.1.1 容量

构成大数据的最闻名特征之一是其庞大的容量。大数据的范围可以从几十 GB 到几 PB 以致 EB。使用大数据的一个挑战就是实验存储它。
5.2.1.2 多样性

大数据可以有许多种类。虽然传统上由生意业务员使用的数据通常是以时间序列格式包含数值的布局化数据，但大数据并不总是云云。例如，网络内容。网络的大量内容都是文本和其他媒体，而不仅仅是数字数据。
5.2.1.3 速率

大数据的另一个界说特征是其生成频率。与更典范的数据集差异，它可以以高频率和不规则的时间隔断生成。金融范畴高速数据的一个例子是生意业务资产的 tick 数据。
5.2.1.4 真实性

大数据的真实性通常更加不确定。大数据每每大概来自未履历证的个人或组织。最显着的一个例子是 Twitter，账号大概会试图积极传播虚假信息。然而，纵然是金融大数据，其来源大概是受监管的生意业务所，数据通常仍旧需要清理以去除无效的观察结果。
5.2.2 布局化和非布局化数据

布局化数据，顾名思义，是相对有组织的数据集。通常，它大概有足够的布局以被存储为数据库表。数据集通常相对干净。如果一个布局化数据集主要是文本数据，它也会有元数据来形貌它。例如，它大概会伴随情感分数以及通常形貌文本的一般主题的标签和表现网络时间的时间戳。
相比之下，非布局化数据则组织性要低得多。通常，它大概包罗从网页或其他来源抓取的文本。网络抓取的数据通常以原始形式存在，包罗全部的 HTML 标签或格式，需要在后期进行删除。它将具有最少的元数据来形貌它。将非布局化数据转换为更可用的布局化数据每每是一个耗时的步骤。实际上，大多数大数据都以非布局化形式开始，并需要进行工作将其转换为布局化数据。
5.2.3 应该使用非布局化还是布局化数据集？

使用布局化数据集更轻易且更快速。与耗费大量时间清理非布局化数据和创建元数据相比，供应商已经为您完成了这项工作。然而，在某些情况下，您大概仍旧更喜好使用非布局化数据集，而不仅仅是由于本钱的缘故因由，特殊是如果没有与数据供应商提供的布局化数据集相干联的数据。此外，大概存在如许的情况，即非布局化数据集是专有的，而现成的布局化数据集不可用。您大概也盼望以差异的方式构建数据。一旦将数据集布局化为特定格式，它就可以淘汰您可以对其执行的分析类型，例如。为了做到这一点，您需要访问实际的原始数据。虽然大型量化基金通常热衷于访问原始数据并具有数字分析能力，但许多其他投资者大概更喜好使用较小的布局化数据集。
在图 5.1 中，我们给出了一个示例，即由佛蒙特大学创建的布局化数据集——幸福指数，该指数旨在反映用户在 Twitter 上的幸福感。它占大约 10%的推文，并根据幸福水平对每个推文进行分类，使用一种词袋式技能。一个词典包含大量单词，这些单词根据人们使用亚马逊机械土耳其服务的相对幸福水平进行评分。诸如’joy’之类的词得分很高，而诸如’destruction’之类的词在词典中得分很低（见图 5.2）。

在图 5.3 中，我们对每周的每一天都进行了平均分数。也许并不令人惊讶的是，我们发现人们在星期一最不开心，而他们的幸福感在整个星期内上升。我们展示了这个例子，以说明只管非布局化大数据（在本例中从 Twitter 提取）大概由非常大的数据集组成，但一旦布局化，就更轻易对数据进行推断。
5.2.4 大数据也是替换数据吗？

让我们起首考虑金融市场配景下的替换数据是什么。最简单的是考虑那些在金融中不常用的数据集。诚然，在未来几年，我们如今以为是“替换”的数据集大概会变得更加主流，而且大概会出现替换数据范畴的新数据集。
告急的是，替换数据不肯定总是由大数据组成。与千兆字节相比，替换数据集实际上大概相对较小，以兆字节为单位。
与我们通常将与大数据相干联的千兆字节或拍字节差异，实际上以致可以将整个原始替换数据集存储在 Excel 电子表格中，这在大数据的情况下显然不成立。
5.2.4.1 全部这些数据都来自哪里？根据 IDC（2017 年）的数据，2016 年全球产生了大约 16.3 ZB 的数据，相称于每人每天产生约 1.5 GB 的数据。IDC 预测到 2025 年这将上升至 163 ZB。这些数据是从哪里产生的？在其报告中，它将数据的来源分为三类：核心、边沿和终端。
核心涉及数据中心，包罗云端和企业网络中的数据中心。边沿由位于其数据中心之外的服务器组成。终端包罗网络边沿的全部内容，其中包罗个人盘算机以及其他装备，如手机、连接车辆、传感器等。边沿中的许多数据源固然是新装备。终端的许多装备是物联网装备。
（物联网）报告估计，实际上大多数数据是在终端生成的，其余部分分布在核心和边沿区域之间。其中大部分数据是非布局化的。
存储技能的发展速率跟不上我们生成数据的速率。因此，大量数据没有被存储。在许多情况下，我们可以避免将数据存储在多个地方。例如，考虑音乐或视频内容的流媒体 - 通常用户会直接消费它而不在本地存储，由于它可以随时从云端的副本中再次流媒体。也许另有其他情况，数据根本不存储在任何地方，一旦被消费就会丢失。
5.2.4.2 数据集的货币化和废气我们已经广泛讨论了数据产生的范畴。在本节中，我们举例说明白怎样通过向生意业务员出售数据集来将数据集货币化。我们还讨论了“废气数据”的概念，这可以是生意业务员使用的替换数据集的来源。
数据通常具有主要用途。考虑一个金融生意业务所。作为其一样平常业务的一部分，它生成大量的市场数据，这些数据由使用生意业务所的市场到场者生成。这既可以来自发布的报价，也可以来自市场到场者之间的实际执行。显然，这些市场数据对于生意业务所的正常运行非常告急。
只管生意业务费用大概占生意业务所收入的很大一部分，但它们可以通过出售数据源来产生额外的收入。如果市场到场者想要一个非常细粒度的数据源，其中包罗市场深度数据，他们将付出比那些仅想要收到逐日收盘报价的人更多的费用。生意业务所还可以存储生成的全部数据，并出售汗青数据供量化分析师在其模型的回测中使用。
关于金融之外的示例呢？让我们回到我们的媒体内容示例。如果我们考虑视频数据，比如电影或电视，它主要是为了消费者观看而生成的娱乐内容。音乐内容也是云云。这些大概看起来是显而易见的报告。然而，我们大概能够将这些数据集用于其他用途。例如，他们大概能够对电影进行语音辨认以生成字幕，然后也允许以进行自然语言处理来辨认电影的情感，以帮助对其进行分类。
媒体流媒体公司也很大概网络到二次数据，这是用户收听音乐或观看电视的副产品。他们正在播放什么歌曲和视频，什么时间以及从哪个位置播放？我们可以网络无数的数据点。一旦全部数据集都被正确对齐，这自己大概是一个耗时的过程，媒体流媒体公司就可以答复很多问题，帮助个性化用户的体验。关于观看什么的保举显然会因用户而异。然而，这种所谓的“废气数据”另有其他用途，这些数据是公司在一样平常业务中生成的。在实践中，数据在其完整效用被理解之前去往被网络起来。这在多个范畴大概是这种情况，而不仅仅是在金融范畴。
在我们早期的金融示例中，我们注意到生意业务所通过将其数据集出售给金融市场到场者来实现数据的商业化，这似乎是一个非常直接的用例。企业也可以通过将数据集出售给生意业务者来实现数据的商业化，以帮助他们做出更好的生意业务决策。然而，在如许做之前，他们需要意识到与此相干的法律问题。
5.2.5 分发替换数据涉及的法律问题

5.2.5.1 个人数据

在我们关于媒体流媒体公司的示例中，我们注意到“废气数据”的一个用途是帮助个别用户个性化体验。然而，如果公司盼望将这些数据分发给生意业务者，它需要考虑几个法律问题，特殊是其是否服从各种数据掩护条款。它与用户的协议中的法律条款允许如许做吗，以及数据可以以什么格式分发？例如，公司每每需要对数据集进行匿名化处理。偶然仅仅遮挡个人细节大概不敷以。考虑一个社交网络。纵然用户的真实姓名不可用，也可以通过他们连接的人推断出关于个人的许多细节。还可以团结语言分析来辨认个人。
在实践中，生意业务者不需要或不需要从数据中使用个人身份来使用其生意业务策略。公司也可以将原始数据聚合成更布局化的形式，然后再进行分发。
5.2.5.2 替换数据集与非公开信息

替换数据集之所以被称为“替换”，是由于它们在金融范畴不像传统数据集那样被广泛使用，例如价格数据。我们可以推测，如果某些替换数据集具有特定的可生意业务代价，如果使用它们的市场到场者较少，那么大概会更具优势。特殊是在策略的容量大概有限的情况下。从宏观角度来看，一个例子大概是一个数据集，它可以帮助我们更好地预测经济数据发布，并使我们能够围绕这些实际数据发布进行生意业务。出于活动性缘故因由，这类生意业务策略的容量相对较小。
如果一家公司将关于自身的数据专门分发给单一客户，其他人无法购买，那么是否存在向外界提供“庞大的非公开信息”的风险？这显然取决于数据集的性质。缓解这种情况的一种方式是，如果数据以某种形式聚合，而且以使任何敏感信息都无法从中进行逆向工程设计的方式进行。Fortado 等人（2017 年）指出，由于这个缘故因由，某些基金更喜好不处理独家数据集。
我们可以主张，如果第三方正在网络关于特定公司的信息，其他人也有大概复制的过程，那么这种风险就要小得多，特殊是如果来源是公共信息，可在网上获取。宏观资产生意业务者通常对基于更广泛的宏观建模感兴趣，而不是特定公司的数据。固然，在宏观市场中仍旧存在埋伏的“庞大的非公开信息”，例如经济数据发布的泄密或央行的决策。
5.2.6 替换数据集代价多少？

数据市场并不新鲜。关于金融市场的数据已经以多种形式出售和分发了几个世纪，纵然它的分发方式从纸质媒介（如报纸）到电子方式发生了变化，覆盖了各种公共和私人网络。在许多情况下，大概有多个供应商分发类似的价格数据集，这有助于价格发现。
然而，正如我们之条件到的，替换数据集的商品化水平远远低于大多数价格数据集。以致最“常见”的替换数据集，例如呆板可读新闻，纵然由多个供应商分发，也远不及价格数据集那样广泛。此外，纵然在这里，呆板可读新闻数据集的布局以及使用的原始数据来源也存在差异。
对于一些替换数据集，大概只有一个供应商出售该特定命据。正如前面讨论的，基金也有大概是特定替换数据集的独家用户，这大概会提高数据集的价格。
任何生意业务者，无论是宏观还是其他类型的生意业务者，都需要考虑另类数据集的代价。同样，对于这些数据集的贩卖者来说，他们应该定价多少？对于两边来说都很困难。出于显着的缘故因由，生意业务者没有使命向供应商明白说明他们怎样使用数据集。然而，没有如许的信息，供应商很难知道数据集对生意业务者有多有代价（因此应该收取多少费用）。
显然，生意业务者需要考虑数据集对理解他们乐意为此付出多少钱有多大用处。仅仅由于一个数据集被以为是“另类”的，并不肯定意味着它代价数百万美元。数据会合的汗青数量有助于确定其价格。如果没有任何汗青记载，就很难对替换数据集进行汗青回溯测试，以相识它的有效性。不幸的是，考虑到替换数据集通常较新(在某些情况下是使用全新技能网络的)，它们的汗青大概比更传统的数据集小得多。更一般地说，与任何数据集一样，数据的质量非常告急。如果数据集是紊乱的，而且有许多丢失的值，它大概会降低它的效用。
当考虑替换数据集的代价时，我们还需要能够量化它大概会在多大水平上改善我们的策略。如果备选数据集对后验测试的影响很小，那么它大概不值得购买，特殊是如果我们无法抵消购买它的初始本钱。
使用数据时也存在规模经济的问题。一个更大的基金大概会更轻易承担数据本钱。虽然数据集本钱通常与用户数量有关，但额外本钱大概比较小，相对于一个更大公司可以依赖该数据集运行相干策略的资金量而言。
我们需要问一下，数据集是否仅用于非常具体且容量很低的策略，还是它可以用于多种生意业务策略。与小规模生意业务操纵相比，一个更大的基金大概对仅对低容量策略有效的数据不太感兴趣。实际上，在这里成为一个较小的生意业务者是有利的。更广泛地说，数据的代价不太大概对差异的生意业务者相同。根据我的履历，我发现来自多个基金对完全相同的另类数据集的使用反馈非常差异。这大概有很多缘故因由，涉及生意业务的资产种别以及实际上用于对比生意业务策略的差异方法。
替换数据集的本钱不应仅以购买允许证的金融术语来衡量，还包罗评估数据集和围绕其开发策略的本钱。一个数据集没有资源来使用就是毫无代价的。因此，我们需要考虑这个替换数据集是否值得调查，而不是其他优先事项。非常多的量化对冲基金经常受到数据供应商提供新数据集的联系。纵然对于非常大的基金，也很难充分评估每个提供的数据集。
5.3 传统模型构建方法与呆板学习的区别

传统上，在开发生意业务策略大概任何预测时，我们起首实验找到一个假设。然后我们可以使用统计分析来验证（大概无效化）我们的假设。其根本原理是这个练习有助于淘汰数据挖掘的大概性。我们本质上是在修剪我们的搜索空间，（盼望）只留下我们以为相干的范畴。
5.3.1 什么是呆板学习？

呆板学习技能的思想是我们不需要事先知道变量之间的关系形式。这与线性回归形成对比，例如，我们已经假设变量（或特征，使用呆板学习术语）之间存在肯定类型的关系。相反，我们的呆板学习算法可以帮助我们建模函数，纵然它是高度非线性的。这将使我们能够找到我们之前没有想到的变量之间的关系，特殊是如果我们使用呆板学习的技能。
5.3.2 传统呆板学习与深度学习的区别

使用传统的呆板学习方法，我们起首界说一组特征，然后让算法找到符合的函数。然而，在某些情况下，手工制作大概相干的特征非常困难。以试图辨认图像中的对象为例。易于界说的特征，如取图像中全部像素的平均亮度或颜色，不太大概为我们提供关于图像中的对象的有效信息。深度学习技能实验在不必界说特征的情况下提取特征。对于某些范畴，如图像分类，深度学习技能已经取得了非常乐成的成绩。为了使深度学习有效，需要大量的训练数据可用。
5.3.2.1 监视学习、无监视学习和强化学习

呆板学习依赖于训练来辨认模式。这通常需要一个训练集。在监视学习中，我们提供了一个成对标记的训练集。手动标记数据大概很耗时，这大概会限制我们使用的训练集的巨细。在无监视学习中，我们有未标记的训练数据，算法被设计为从训练数据中推断出模式而不带有“提示”。因此，使用非常大的数据集大概会更轻易，由于我们没有标记数据所带来的限制。深度学习通常使用无监视学习。强化学习是一种差异的方法。在这里，我们创建一组简单的规则，我们的算法可以遵循，这些规则旨在最大化奖励函数。这在游戏范畴已经取得了乐成。在这种情况下，奖励函数可以被界说为在对手手上赢得一局比赛。强化学习让盘算机自己教会自己办理问题的最佳方法。在游戏的例子中，它大概终极会以一种与人类玩家非常差异的方式进行游戏。DeepMind 在游戏范畴广泛使用了强化学习。DeepMind 的 AlphaZero 通过强化学习学会了下棋，并想法击败了天下上最好的下棋电脑 Stockfish 8（Gibbs 2017）。
5.3.2.2 我们应该使用呆板学习来制定生意业务策略吗？

可以如许以为，面对非常庞大的数据集时，我们大概会实验使用呆板学习技能让数据自己“语言”。然而，困难在于我们大概终极会在本质上是噪声的数据中找到模式。此外，金融问题的性质并不稳固。金融时间序列是非平稳的。市场经历着不断变化的制度。例如，2008 年的市场与 2016 年的市场截然差异。这与呆板学习取得乐成的其他范畴的情况形成对比，那些范畴的问题随时间不变，比如图像分类或玩游戏。
实际上，辨认和构建告急因素（或特征，使用呆板学习术语）仍旧是制定生意业务策略的关键部分。然而，我们以为呆板学习技能在生意业务中仍旧有效，只是在使用呆板学习技能制定生意业务策略时必须采取审慎的方法。
另有一种情况是，如果我们运行的是黑盒生意业务模型，当模型开始亏钱时，我们大概只能关闭模型，如果我们无法理解模型的运作方式。我们可以实验缓解模型可表明性的问题。一种方法是创建一个更简单的线性模型来署理呆板学习生意业务规则，这大概会更轻易理解怎样改变输入会影响我们的生意业务。
为了避免围绕非平稳金融时间序列的问题，我们可以将呆板学习应用于我们的生意业务问题，而不仅仅是专注于预测资产自己的时间序列。究竟，制定生意业务策略不仅仅是关于界说信号；我们还需要在构建任何实际生意业务规则之前对数据集进行预处理和清理。在我们讨论呆板学习在生意业务中的有效性时，我们将区分差异的范畴。诸如高频生意业务之类的范畴具有非常庞大的数据集，因此更轻易担当呆板学习技能（Dixon 等人，2017 年）。呆板学习，特殊是深度学习，也被用来改善恒久股票因子模型的表现（Alberg 和 Lipton，2017 年）。
预处理还可以涉及对数据集的部分分类，应用诸如情感分析或文本主题辨认之类的技能。在这些情况下，我们发起呆板学习大概是一种有效的技能。
5.4 大数据和替换数据：在基于宏观的生意业务中广泛使用、

5.4.1 我们怎样在宏观配景下使用大数据和替换数据？

我们怎样更广泛地为宏观生意业务员理解大数据和替换数据的一般方法？在这里，我们给出了一些开始的想法。
5.4.1.1 改善如今的预测/经济预测

有许多差异的非典范数据集，我们大概盼望使用这些数据集来改善我们对非农就业人数月度变化的预测。如果我们有一个足够好的这个数字的预测，我们可以在一天之内围绕这个数字进行生意业务。我们还大概寻求得到一个可以在整个月内生成的实时估计，以帮助我们的生意业务策略。显然，这种方法也可以用于其他经济发布，除了非农就业人数之外。我们还大概寻求使用替换数据集来改善较恒久的经济预测，大概可以直接为我们提供预测的替换数据集，这大概对更广泛的投资有效。如果我们能够生成公道的预测，我们也可以围绕经济数据发布进行短期生意业务。
5.4.1.2 市场定位和资产情绪对生意业务的关键部分是理解

市场其余部分的想法，特殊是他们的定位。如果市场非常看涨，偶然大概会增加空头挤压的机会，例如。利用替换数据集来帮助建模这些因素是有潜力的。
我们可以使用我们稍后讨论的 alpha 捕获数据来衡量市场定位，并团结来自市场制造商的专有流量指标。
5.4.1.3 改善颠簸率估计

可以证实市场颠簸率与新闻的数量存在公道的关系，无论是来自传统新闻源（如新闻线）还是新的新闻源（如社交媒体）。因此，我们可以通过与新闻和社交媒体相干的数量数据增强颠簸率预测。
5.4.2 大数据和替换数据的现实案例

在本节中，我们创建在前面形貌的泛化案例之上。我们枚举了一些大数据和替换数据的示例，这些数据对生意业务员大概很告急。随后，我们形貌了实用于金融应用的布局化数据集，这些数据集可以被视为替换数据。这些数据集通常对人类生意业务员和呆板可读形式都可用。通常，这种呆板可读数据可以通过 API 实时分发给盘算机进行摄取，大概以较低频率（例如日末）以扁平文件的形式分发，这更适合恒久投资者。
5.4.2.1 大数据

5.4.2.1.1 高频市场数据

市场数据来自生意业务所、生意业务平台和市场制造商。除了顶部数据，该数据还提供了较小生意业务规模的报价以及执行生意业务数据，还可以提供更细粒度的数据，例如市场深度。生意业务员可以使用市场深度数据盘算指标，如市场失衡及其偏斜，这可以用来洞察高频价格行为。
5.4.2.1.2 网络内容

从宏观上看，网络内容是非布局化的。如果我们从网络中爬取数据，通常会以非布局化形式出现。然后需要清理数据集，并对其进行分类，创建额外的元数据来形貌它。
网络内容可以由许多差异形式组成，包罗文本、视频和音频。
我们还可以从网络内容中衍生出排放数据，例如页面欣赏量。
5.4.2.1.3 社交媒体

许多形式的社交媒体可供呆板读取剖析，例如 Twitter，可通过 Twitter 的 Gnip 订阅得到。然而，该文本的格式对盘算机来说大概特殊难以理解。这种文本不仅通常比新闻文章要短得多，而且很难理解文本的真实性。表明此类文本的情感大概会有些棘手，由于其中使用了缩写词和讽刺。还存在理解推文上下文的问题。帮助理解上下文的一种方法是与其他类似来源团结，例如可呆板读取的新闻。
偶然，突发新闻在传统新闻通讯社报导之前，以致在市场上产生影响之前，就会出如今 Twitter 上。因此，它已经成为一种告急的新闻来源。一个特殊的例子是在特朗普总统任职的早期，他经常会在 Twitter 上发推文评论公司。事实上，还专门创建了应用程序，用于标记他发送的这类推文（Turner 2017）。由于 Twitter 在突发新闻中的告急性，一些新闻通讯社，如彭博新闻（BN），也直接在其信息流中报导告急的推文。
5.4.2.1.4 移动电话数据

追踪与移动电话相干的数据可从各种供应商处得到。在聚合级别上，这些数据可以用于绘制职员活动。例如，我们可以使用这些数据来模拟人们在商店中的脚步活动，以帮助估计零售贩卖数据。我们还可以利用如许的数据来相识就业水平，如果考虑到高峰小时内铁路站收支口的整体人流量，大概在这些时段门路上汽车的数量。
5.4.2.2 更具体的数据集

5.4.2.2.1 新闻线

新闻线产生的新闻文章主要是为人类读者编写的。BN 的文章通常设计为供彭博终端用户使用。但是，彭博也以呆板可读的形式提供这些新闻，其中包罗大量的附加元数据，包罗主题分类。其他新闻通讯社，如汤姆逊路透和道琼斯（通过 RavenPack），提供呆板可读的新闻。新闻数据集可以用于评估市场情绪，包罗更广泛的经济情绪以及特定资产周围的情绪。
5.4.2.2.2 ALpha 捕获

最闻名的 alpha 捕获数据集之一是由独立的生意业务想法网络 TIM Group 汇总的。根本上，这涉及以系统化的方式网络经纪人的生意业务发起。许多对冲基金还在其投资组合中使用基于 alpha 捕获的策略，特殊是对于单只股票。它们在宏观资产种别中的使用水平也较少。投资者可以系统地跟踪 Alpha 捕获数据集。它们还可用于提供市场定位的指示。例如，如果许多经纪人保举购买特定债券，则表明该资产的定位相称告急。
5.4.2.2.3 预测和即时预测

预测和即时预测恒久以来一直可供市场到场者使用。在汗青上，这些预测的来源通常是卖方经纪公司的研究团队，然后由彭博等数据供应商进行汇总。

然而，如今许多可用的预测是由卖方和个人投资者共同提供的。
彭博社根据 Twitter 上个人提供的估计发布了一个预测（见图 5.4），用于美国非农就业人数的月度变化，这是一个月中最告急的经济数据发布之一。随后，在一个案例研究中，我们基于包罗从推文中派生的一个变量在内的几个变量为工资提供了一个预测。
Estimize 众包预测股票收益数字和经济发布数据。Alpha 捕获数据集涉及将贩卖方经纪人的生意业务发起汇总到一个易于导航的数据会合。
提供卫星摄影服务的供应商很多，比如 Orbital Insights。
这可以被商品生意业务者用来估计当前储存在筒仓中的石油水平或作物产量，例如。
5.4.2.2.4 网页内容

虽然直接从网络上抓取内容是大概的，但有几个特定网页内容的数据集可以以更易于使用的格式下载。其中最闻名的之一是维基百科语料库。
整个数据集可供下载和分析。此外，读者统计数据也可供使用，可以揭示热门话题。查察话题受欢迎水平的另一种方式是通过 Google Trends。它提供了特定搜索词随时间变化的相对搜索量统计数据。
5.4.2.2.5 社交媒体

我们注意到，广泛而言，社交媒体大概会面对挑战，特殊是由于消息的长度。有许多金融数据供应商提供自己的来自 Twitter 的布局化数据集，为其主题标记消息，偶然还附带情感。这些供应商包罗 Dataminr、Knowsis、彭博社和汤森路透等。
也有专门用于金融应用的社交媒体网络，如 StockTwits，拥有约 150 万活跃用户（Roof 2016），而且以呆板可读形式提供。
5.5 案例研究：通过大数据和替换数据深入挖掘宏观生意业务

我们已经给出了许多关于各种数据集的广泛例子以及怎样被宏观生意业务者使用的快速总结。在本节中，我们将更深入地探究这个主题，对其中每一个进行简要的案例研究。
5.5.1 联邦储备：Cuemacro 联邦储备外汇和债券情绪指数

从直观的角度来看，预计联邦储备的通信会影响宏观经济。特殊是，我们注意到在联邦公开市场委员会（FOMC）会议周围存在明显的颠簸。然而，量化对市场的影响则更为困难。Cuemacro 的联邦储备情绪指数试图以系统化的方式量化这些通信。
原始输入数据包罗从联邦储备通信中提取的文本，规模相对较小。然后将其布局化为表格数据格式。这包罗联邦储备发布的演讲、声明和会议记载。
元数据是从这段笔墨中提取的，比如情感分数，这些分数是使用自然语言处理生成的。
这些情感分数被聚合成一个时间序列，代表了随时间推移联邦储备局的整体情绪指数。这个想法并不是创建一个高频生意业务的指数 - 例如，仅在 FOMC 周围的公告 - 相反，它旨在提供近几周联邦的代表性观点。
然后，这个时间序列就可以更轻易地被生意业务员使用，特殊是用于理解外汇或债券市场的变动。在图 5.5 中，我们绘制了美国国债 1M 变化。

10Y 收益率对情绪指数。我们注意到，在这两个时间序列之间存在着很强的关系。此外，如果我们对它们进行回归，T 统计量约为 2，这表明这种关系是明显的。我们注意到，固然存在指数的一些分歧，这是直观的，鉴于联邦并不总是美国国债曲线的主要驱动因素。一个例子可以在 2017 年 11 月看到，当时收益率上升是由唐纳德·特朗普的当选而不是联邦政策的任何具体变化引起的。
5.5.2 呆板可读新闻：彭博新闻相识外汇价格行动

各种新闻线每天都会产生大量新闻。新闻是推动市场变动的告急因素这一概念并不新鲜。究竟，人类生意业务员在决策过程中会关注新闻，试图从新闻中提取信号。然而，每天阅读全部这些新闻对于一个人来说是非常困难的；实际上，一个人只能阅读到一个小快照。因此，公道地问一下，是否可以以某种方式自动化这个新闻阅读过程，以帮助洞察市场。
在我们的案例研究中，我们基于 Amen (2018)的结果，研究了 2009 年至 2017 年间 BN 新闻线的文章。只管 BN 通常是 Bloomberg 终端用户使用的，但它也以可呆板读取的形式提供，使其实用于作为系统生意业务策略的输入。
我们案例研究的重点是理解这个新闻数据集是否可以用于生意业务发达市场的外汇交织盘。特殊是，想法是制定一个一样平常生意业务规则，而不是一个高频生意业务规则，在一篇新闻文章之后做出生意业务决策。
数据集已经被布局化，这有助于使分析工作变得更轻易一些。
然而，我们仍旧需要对每篇新闻文章的正文进行少量清理，删除每篇文章的开头和结尾，其中包含撰写文章的记者的姓名和联系方式。此外，我们通过删除后续不会使用的字段来减小数据集的巨细。
为了使数据集更易于使用，我们需要剪切要检查的新闻文章，并专注于我们以为对我们的资产种别最有影响力的那些文章。
（在我们的案例中，外汇）。因此，下一步是过滤引用特定货币的文章的数据集。如许做的附加好处是再次淘汰数据集的巨细。
虽然筛选我们正在生意业务的资产是最显着的方法，但同样有效的筛选新闻文章的方法也有很多。另一种方法大概是筛选我们以为对货币告急的新闻主题，比如每个国家的经济新闻。在这些情况下，这些文章中大概完全没有提到货币。然而，经济新闻对货币政策预期有影响，这是货币行为的关键部分。我们也大概选择阅读与影响货币的其他因素相干的新闻，比如地缘政治新闻。
然后，自然语言处理被应用于这些颠末筛选的文章，为每篇筛选的新闻文章创建情绪分数。正如之前所指出的，我们分析的目的是评估大量新闻文章的情绪，而不是在每篇文章之后立即实验进行高频生意业务。因此，这些情绪分数随后被聚合成每种货币的逐日标准化分数。使用个别货币分数后，我们可以为货币对生成逐日分数。例如，USD/JPY 的分数简单地是 USD 分数-JPY 分数（见图 5.6）。

我们的生意业务规则基于短期动量。它基于如许的条件：在短期内，关于某项资产的“好”新闻很大概会以积极的方式影响该资产。因此，如果货币对的新闻分数为正，则我们买入该货币对。相反，如果它具有负分数，则我们卖出该货币对。从新闻中获取信号另有其他大概的方法。特殊地，我们可以实验应用更恒久的窗口来评估新闻，然后使用基于均值回归的生意业务规则。其理论是，在很长的时间段内，如果新闻连续“好”，市场将会调解对其的预期。我们大概会期待类似的效果，即连续的负面新闻。
在图 5.7 中，我们展示了一篮子发达市场货币相对于美元的汗青回报。包罗生意业务本钱和持有本钱。我们将回报与外汇中的通用趋势跟随模型相对比。我们选择了趋势，由于它通常是生意业务员用来生意业务外汇的策略之一。阿门（2013）讨论了怎样利用趋势和持有为基础的策略来表明大量的外汇基金回报。因此，通用的趋势和持有策略可以被视为外汇中的贝塔的署理。

图 5.7 新闻篮子生意业务回报。

我们发现，基于新闻的策略在这段时期内在风险调解的基础上优于趋势。此外，这两种策略之间几乎没有相干性。这表明新闻基础策略可以用来使典范的外汇基金司理的回报多样化。
只管可以从对可机读新闻的情感进行判定来提取方向信号，但新闻的数量自己也大概出于其他缘故因由而有效。在图 5.8 中，我们绘制了各种货币的隐含颠簸率与与这些货币相干的新闻量之间的线性回归的 T 统计图。我们发现，隐含颠簸率和新闻量之间每每存在明显正相干。这表明我们可以将新闻量用作隐含颠簸率模型的输入。
Amen（2018）中另有许多其他结果。该论文还讨论了怎样利用欧洲央行（ECB）和 FOMC 会议之前的新闻来估计围绕这些数据点的外汇颠簸性的行为。与 FOMC 和 ECB 声明相干的新闻量对短期外汇具有强烈影响
颠簸性。
5.5.3 网站流量数据：利用 Investopedia 的焦虑指数相识市场情绪

Investopedia 是一个金融教诲网站。我们能从 Investopedia 用户搜索的主题中得到什么信息吗？其焦虑指数背后的原理是跟踪用户进行的搜索，从而产生 Investopedia 的页面欣赏量。它专注于与投资者焦虑有关的搜索词，例如“空头卖出”。总共有 12 个差异的 URL 在终极指数中被引用，这些 URL 通常具有较高的页面欣赏量。
（Kenton 2017）。在图 5.9 中，我们将 Investopedia 焦虑指数（IAI）与 VIX 进行了绘制比较，
通常被称为“华尔街恐慌指数”。我们注意到，当 VIX 上升时，表现期权变得更加昂贵时，我们看到投资者焦虑上升，如 IAI 所示。相反，VIX 降落通常也伴随着投资者焦虑的降落。这些观察似乎很直观，即期权价格与投资者焦虑相干。

Amen（2016）讨论了怎样利用 IAI 在标普 500 上创建主动生意业务规则。在图 5.10 中，我们出现了该论文的这一主动生意业务规则的回报，并将其与使用 VIX 的回报以及仅做多标普 500 的回报进行比较。根本上，当 IAI 高时，我们持平标普 500，否则做多。我们对 VIX 应用类似的规则。我们发现，在我们的样本中，颠末风险调解的回报对于 IAI 过滤策略来说是最高的，超过了来自 VIX 的回报。
过滤策略。最低风险调解回报来自于仅做多策略。
5.5.4 颠簸性数据：围绕英国脱欧计划安排变乱的 Fx 现货行为预测

作为数据集，颠簸率数据并不特殊不平常；究竟，外汇期权已经生意业务了几十年。然而，也许较少见的是利用颠簸率数据来引导围绕计划数据变乱的现货行为。特殊是，我们可以从变乱前的颠簸率面推断出现货的隐含分布。Clark 和 Amen（2017）讨论了英镑/美元颠簸率面怎样用于推断 2016 年 6 月 23 日英国脱欧公投后的现货分布。
他们最初根据他们在 2016 年 6 月 13 日之前可用的隐含概率密度的视觉观察，从 GBP/USD 隐含颠簸率中提取表面，市场预期投票脱离大概导致 GBP/USD 汇率从 1.4390（2016 年 6 月 10 日现货参考）降落到 1.10-1.30 范围，即 10-25％的降落 - 很大概伴随着高度颠簸的价格行动。在图 5.11 中，我们展示了英镑/美元在脱欧公投前几个日期的隐含概率分布。

他们还构建了与 GBP/USD 相干的两种情景的混合模型
公投后的汇率，一个是“留下”的情景，一个是“脱离”的情景。根据 2016 年 2 月 24 日至 6 月 22 日的四个月市场数据对此模型进行校准，我们发现，“脱离”票与预期的英镑贬值大约到每 GBP 1.37 美元，贬值 4.5％，与观察到的公投后汇率下跌从 1.4877 到 1.3622 非常一致。
5.6 结论

我们已经讨论了大数据的一般特征，即 4V。此外，我们还谈到了布局化数据和非布局化数据之间的区别，以及大多数生成的数据是以非布局化形式存在的。
我们注意到正在生成的数据正在敏捷增长，并预计进一步增加。公司作为一样平常业务的一部分网络大量数据，所谓的“废气数据”。这些数据集可以通过出售给生意业务员来实现货币化。
呆板学习可以用于发现大型数据会合的模式。我们写了关于各种形式的呆板学习以及它们在生意业务过程中的应用的文章。然后，我们花时间讨论了各种类型的大数据和替换数据，这对于金融市场到场者大概相干。
末了，我们更深入地挖掘了一些细节，提出了几个基于宏观的生意业务员使用替换数据集的案例研究，包罗利用呆板可读新闻和网络流量数据以及一种新奇的技能，用于推断现货价格行动的随后分布在外汇期权数据中。
参考资料

Alberg，J.和 Lipton，Z.C.（2017）。通过预测公司根本面改进基于因子的量化投资。摘自 arxiv.org：https://arxiv.org/abs/1711.04837 Amen，S.（2013）。*Beta’em Up：外汇市场中的市场β是什么？*摘自 SSRN：https://papers
.ssrn.com/sol3/papers.cfm?abstract_id=2439854 Amen, S. (2016). 生意业务焦虑 - 使用 Investopedia 的专有数据集进行风险生意业务。
伦敦：Cuemacro。
Amen, S. (2018). Robo-News Reader. 伦敦：Cuemacro。
Clark, I. and Amen, S. (2017). 从 GBPUSD 风险逆转中推断分布及对英国脱欧情景的影响。Retrieved from MDPI: http://www.mdpi.com/2227-9091/5/3/35/
pdf Dixon, M.F., Polson, N.G. and Sokolov, V.O. (2017). 用于时空建模的深度学习：动态交通流量和高频生意业务。Retrieved from arxiv.org: https://
arxiv.org/abs/1705.09851 Fortado, L., Wigglesworth, R. and Scannell, K. (2017). 对数据挖掘的对冲基金的黄金时代。Retrieved from FT: https://www.ft.com/content/d86ad460-8802-11e7-bf50-e1c239b45787 Gibbs, S. (2017). AlphaZero AI beats champion chess program after teaching itself in four hours.
Retrieved from Guardian: https://www.theguardian.com/technology/2017/dec/07/alphazerogoogle-deepmind-ai-beats-champion-program-teaching-itself-to-play-four-hours IDC. (2017). 数据时代 2025。Retrieved from Seagate: https://www.seagate.com/files/wwwcontent/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf Kenton, W. (2017). Investopedia 焦虑指数。 Retrieved from Investopedia: https://www
.investopedia.com/anxiety-index-explained Roof, K. (2016). StockTwits raises funding, gets new CEO. Retrieved from Techcrunch: https://
techcrunch.com/2016/07/06/stocktwits-raises-funding-gets-new-ceo Turner, K. (2017). 这款应用会关照你特朗普是否在推特上提及你投资的公司。
Retrieved from Washington Post: https://www.washingtonpost.com/news/the-switch/wp/
2017/01/07/this-app-will-notify-you-if-trump-tweets-about-a-company-youre-investedin/?utm_term=.2c6d2a89d135
第六章：大即优美：电子收据数据怎样帮助预测公司贩卖额

Giuliano De Rossi，Jakub Kolodziej 和 Gurvinder Brar
6.1 介绍

本章形貌了我们在一个大数据项目上的履历。在本章中，我们的目的是双重的：1. 评估电子收据数据作为信息来源的潜力，特殊是实时预测公司贩卖额。2. 记载处理云云大型数据集所面对的挑战以及我们采取的办理方案。
我们在分析中使用的数据集包罗一张庞大的表格，详细列出了美国大样本消费者在一些公司的在线平台上的购买情况，包罗亚马逊、Expedia 和 Domino’s Pizza 等。
在经济学和金融范畴，大规模组织的消费者数据并不是新征象。例如，密歇根大学的收入动态面板研究
（PSID）自 1968 年以来一直追踪着 18000 名个体（及厥后裔），定期网络问卷调查的答复。然而，Quandl 数据库与’纵向面板’在两个方面有很大差异。
起首，数据网络并非旨在构建代表性样本。
与 Quandl 签署数据共享协议的个人通常在注册使用他们从 Quandl 合作同伴那里得到的电子邮件生产工具时如许做。因此，我们对样本的人口统计学、收入和其他特征知之甚少。如果使用样本来推断总体人口，这大概会引入偏差。
其次，我们样本的规模和捕获的细节水平完全差异。
而最大的纵向面板可以依赖约 25,000 个个体和两年更新，我们的大数据样本如今有超过 3 百万活跃用户，以每周频率进行抽样。纵向面板通常询问每个家庭在食品、休闲和其他支出种别上的支出金额。通过大数据，可以得到每个用户购买的产品和服务的产品细节。由于数据基于实际生意业务，因此不受通常在自我报告数据中观察到的埋伏不准确性和扭曲的影响。

生意业务，它不受通常观察到的自我报告数据的埋伏不准确性和扭曲的影响。然而，值得指出的是，汗青非常有限，即与横向维度差异，时间序列的长度如今很有限。
我们统计分析的主要目的之一将是在利用样本的规模优势的同时，减轻埋伏的偏见。
从 Quandl 数据库中生成的分析类型的示例在图 6.1 至 6.5 中给出。图 6.1 显示了我们样本中 Domino’s Pizza 订单按星期几的分布。周末显然是比萨爱好者最热门的时间。图 6.2 关注下订单的时间，显示了在午餐时间（中午 12 点至下战书 2 点之间）有显着的高峰，晚上预订活动显着淘汰。图片还显示，我们能够按比萨巨细细分贩卖，表明中等巨细始终占主导地位。
图 6.3 绘制了我们从样本订单中辨认的前 30 种食材的频率。令人惊讶的是，我们发现迄今为止最受欢迎的食材（除了奶酪和番茄）是意大利辣香肠。在数据中，培根也被发现是意外受欢迎的。
与亚马逊等电子商务公司的时间模式完全差异。
图 6.4 显示，在我们样本中，用户在周一至周六的亚马逊订单数量呈稳固降落趋势。如果我们为每个工作日绘制一天中的时间模式（图 6.5），我们可以看到周日一直是亚马逊电子商务中一周中最安静的一天，直到上午 10 点左右。在一天的后期，周日的订单增长速率比工作日的订单快，以致在其他工作日降落时仍旧增长。

下战书，其他日子显示降落。到周日晚上 10 点，周日排名为一周中第三繁忙的一天。
这些例子说明白 Quandl 数据库的一些告急特征。
信息的粒度，以致到个别产品的水平，是非常明显的。此外，订单被网络并附偶然间戳，确保数据趋势可以以比以前更高的频率和实时捕获。值得一提的是，只管我们在这里不寻求这个想法，但是

可以使用数据推断出差异公司之间的数据模式。一个例子是检查顾客是否倾向于用竞争对手的产品替换 Domino 的产品，大概是否倾向于将他们的消费在餐厅上以大抵相同的比例分配给其他提供者。也可以基于他们的购买（例如大笔支出者与小笔支出者）对样本到场者进行聚类，并分析在集群之间数据模式的任何差异，这大概会辨认出早期采用者。
6.2 Quandl 的电子邮件收据数据库

6.2.1 处理电子收据

我们起首形貌将在报告中分析的 Quandl 数据集的布局。该数据集依赖于一大批同意与 Quandl 的合作同伴分享他们的在线购买信息的美国消费者样本。通常，当安装电子邮件生产力增强应用程序时，他们选择到场此数据共享协议。
我们的数据提供商因此能够每周扫描全部活跃示例到场者的收件箱，以确定他们大概已从许多到场的在线商户（例如亚马逊、沃尔玛、H&M）收到的任何电子收据。
图 6.6 说明白这个过程：电子收据（显示在左侧）被扫描并转换成一系列记载，每个记载代表购买的每个单独产品。在我们的示例中，购买了三种差异的产品，但总物品数量等于四，由于订单包罗两个单位的线路跟踪传感器。在数据库中，这由图 6.6 右侧显示的三行表现。数据在周二交付，耽误八天。
（即覆盖到上一个星期一为止）。
不用说，每个用户都是匿名的，由于我们只观察到一个永世 id，全部关于姓名、电子邮件地点和付出方式的信息都被丢弃了。用户 id 可以用来查询一个单独的表，其中包含额外的信息，比如邮政编码、用户进入和退出样本的日期，以及他或她末了一次购买的日期等等。值得夸大的是，用户 id 是唯一的和永世的，因此可以在差异平台（例如在亚马逊、蒂芙尼和沃尔玛订购的商品）和时间上重建每个个体用户的购买汗青。

图 6.6 中的表显示了 Quandl 实际提供的一小部分字段。这些字段包罗每个记载所指的订单、产品和用户的永世标识符。我们还得到了每个产品的形貌、数量、价格以及许多大概有效的其他字段，如税费、送货本钱、折扣等等。一些字段是指特定产品（例如价格、形貌），而另一些字段如运费和时间戳则是指整个订单。
我们用于分析的电子商务收据数据库是 Quandl 提供的替换数据产品之一（图 6.7）。产品范围涵盖了消费者数据之外，另有来自物联网装备、农田传感器中的农业数据、物流和修建活动数据。
每次新用户参加样本时，Quandl 的合作同伴都会扫描他们的收件箱，寻找仍旧在保存的电子邮件中可用的收据。例如，如果一个用户在 2017 年 9 月参加，但她的电子邮件帐户仍旧保存着自 2007 年 9 月以来的 Expedia 收据，那么这 10 年的 Expedia 预订将立即添加到数据库中。因此，数据库确实包含一小部分在数据网络开始之前发生的生意业务。虽然没有显着的理由以为这种回填方法会引入偏见，但事实上，如果我们实时使用数据，回填的观察结果将不可用。正如我们下面详细说明的那样，出于这个缘故因由，我们决定会合在用户实际上是样本的一部分时记载的生意业务。
6.2.2 样本

图 6.8 显示了随时间活跃在样本中的用户总数，即那些可以通过 Quandl 合作同伴摆设的工具访问其收件箱的用户。

如上所述，新用户参加样本时是在个人选择数据共享协议时选择的，而一些现有效户则在其收件箱不再可访问时退出。数据显示，当 Quandl 的一个合作同伴撤回时，样本巨细在 2015 年底急剧降落。在样本期间的其余时间里，巨细一直稳步增长，特殊是在 2016 年中期有显着加速。构成数据库的独特用户总数靠近 470 万。
对于我们的分析，我们可以访问三家公司发布的收据数据：
亚马逊、Domino’s Pizza 和 Expedia。此外，我们可得到的数据集截止到 2017 年 4 月。
我们提到我们样本中的全部效户都位于美国。图 6.9 是他们在 2017 年 4 月时在美国国土上的分布的图形示例（使用送货邮政编码，如果可用，否则使用账单邮政编码）。深色表现用户较多的邮政编码区域。该地图显示了围绕洛杉矶、旧金山、休斯顿和纽约等都会的大型都会地区的强烈会合。
为了将这些数字置于上下文中，我们在图 6.10 中显示了每个美国州人口的用户数量占总人口的百分比（不包罗阿拉斯加和夏威夷），截至 2017 年 4 月。总的来说，数据库跟踪了大约 250 万用户，而美国
人口约为 3.25 亿（比例为 0.77％）。大多数州的覆盖率约为该值，这表明我们的覆盖范围不会合在几个地理区域。极端值是特拉华州（覆盖率最高）和新墨西哥州（覆盖率最低）。
通过检查一些亚马逊生意业务，我们得出结论，大多数用户似乎是个人或家庭。然而，在一些情况下，一个用户似乎代表一个更大的群体下订单。在一个案例中，我们同时处理了 500 个微控制器（带有同样数量的箱子和电适配器）的购买，这表明该订单是代表学校下的。

单个用户多频仍地进入和退出样本？图 6.11 是 4.7 百万独特用户中每个用户在样本中耗费的时间的直方图。我们包罗了当前活跃的用户（例如，参加日期为 2017 年 1 月 1 日的用户在 4 月 1 日之前显示为具有三个月的连续时间，无论他在 4 月 1 日之后是否脱离了样本）。图表显示，大多数用户在样本中的停顿时间不到 12 个月。这并不奇怪，考虑到过去 18 个月到场者人数激增。在正好 12 个月处似乎有一个峰值，这大概与试用期的长度或 Quandl 合作同伴提供的应用程序的初始订阅有关。参加样本三年前或更早的用户中有相称大比例仍旧活跃，而已经超过五年的用户很少。
为了评估数据质量，我们查询了数据库，以确定在样本期间发生的亚马逊电商平台上的最大生意业务（图 6.12）。大多数物品是由第三方贩卖而不是直接由亚马逊贩卖。在表中的六个项目中，有三个似乎是真实的数据点：一张从未发布过的电影的有数海报，一块豪华手表和一枚有数硬币。剩下的产品似乎有些可疑。只管云云，总体上声称价格超过 10 万美元的物品很少，这表明由于对电子邮件收据的剖析不佳而导致的数据错误不太大概成为问题。
另一个简单的检查方法是对数据进行汇总，并检查 Quandl 样本到场者所作的总购买与我们在零售电子商务中所期望看到的模式是否一致。众所周知，亚马逊贩卖显示出强烈的季候性模式。通过使用会计数据，我们可以检测到 Q4 的高峰，随后是 Q2 的低谷（图 6.13）。利用我们的大数据样本，我们可以以更高的频率聚合在亚马逊上的购买行为。在图 6.14 中，我们盘算了每年 52 周的平均每周贩卖额，并对其进行了重新调解，使得贩卖指数的平均值等于一。数据清晰地显示了与亚马逊的Prime Days和玄色星期五相对应的明显高峰，传统上被以为是圣诞购物季的开始。表明白 Q4 贩卖增长的高峰（图 6.13）会合在玄色星期五到 12 月尾的几周之间。
形貌种别价格，美元1907 年圣高登斯二十美元 PR69 PCGS有数硬币4,194,800.00圣灵办公室：由乌尔里希·里舍·比松撰写的全部教堂必备的研究书4,000,003.99怪物 1932 年 TOD BROWNING 27 x 41 ONE SHEET 经典恐怖极其罕见！电影海报850,000.00一块非常昂贵的石头?500,004.99三星 SmartCam HD Pro 1080p 全高清 Wi-Fi 摄像头Wi-Fi 摄像头360,006.24沛纳海 Jules Grande Complication手表275,504.49FIGURE 6.12亚马逊上六笔最昂贵的购买。 FIGURE 6.12 亚马逊上六笔最昂贵的购买。
来源：Macquarie Research，Quandl，2017 年 9 月。

FIGURE 6.13 根本数据的季候性模式：亚马逊的季度贩卖。
来源：Macquarie Research，Factset，2017 年 9 月。图表以对数刻度绘制。

我们在介绍中提到，从大数据中推导出财务预测并不总是直接的。Expedia 是 Quandl 电子收据数据库涵盖的公司之一的一个很好的例子。正如 Expedia 收入表附注中所表明的那样，该公司不会将用户在其平台上预订的服务的总代价视为收入。相反，收入来源于 Expedia 收取的预订费，这不能直接从发送给其客户的收据中推断出。
纵然费用是通过对预订本钱应用固定百分比盘算的，我们也无法从我们的数据中推导出总贩卖额的估算。每个业务线大概会收取差异的费用，贩卖按业务部门分解的情况随时间明显变化，正如 Expedia 的收据数据清晰显示的那样。
（图 6.15）。例如，与住宿相比，航班每每具有较低的利润率。
因此，在分析中融入深刻的根本看法对于充分利用大数据的潜力至关告急。在这种情况下，我们将不得不从公司为每个业务线（航班、住宿、汽车租赁）收取的典范费用的估算开始。然后，我们将能够使用我们的大数据样本进行预测

按段落累积总贩卖额的总数，并合计以得到头条贩卖额的估算。
6.3 处理大数据的挑战

我们在分析中使用的数据，在存储为平面文件时占用了超过 80 GB。它包罗 4.7 百万个独特用户的 144.1 百万次购买（行）。因此，我们数据集的庞大规模（纵然我们只能访问 Quandl 数据库涵盖的三个名称之一）使得使用标准数据库工具运行以致最简单的查询变得困难。面对这一技能挑战，我们实验了其他办理方案来在公道的时间范围内处理数据。
Amazon Redshift 被证实是我们首选的办理方案，由于它颠末优化，可以使用简单的语法进行分析处理（只需要对我们的标准 SQL 查询进行少量修改），而且在我们的设置中，与 MySQL 相比速率明显提拔（约为 10 倍）。Redshift 通过列而不是行的方式以压缩形式存储数据库表信息，从而淘汰了磁盘输入/输出请求的数量和从磁盘加载的数据量，特殊是在处理像我们如许大量列的情况下。
将更少的数据加载到内存中，使得 Redshift 在执行查询时可以执行更多内存处理。此外，Redshift 查询引擎颠末优化，可以在多个盘算节点上并行运行查询，而且为了进一步提高速率，完全优化的代码以编译格式发送到盘算节点。
6.4 预测公司贩卖额

股票投资者和分析师关注的最告急的指标之一是公司营收的增长。因此，贩卖额的意外变化已知会引发股价颠簸，而且分析师动量信号（即贩卖预测的修订）已被发现可以预测股票回报。
6.4.1 我们方法的总结

本节的目的是传达我们预测方法的根本原理。设置如图 6.16 所示：我们的使命是根据管理层发布的引导方针和我们电子邮件收据数据会合的信息来预测第 t 季度的贩卖额。
如图 6.16 所示，财务第 t 季度的实际收入数据在该季度竣事后才可用，通常是在 t+1 季度的中期。使用收据数据集的一个优点是，我们可以在季度竣事后立即生成预测，由于全部样本信息都每周更新。换句话说，我们样本中的用户在第 t 季度购买的全部信息在季度竣事几天后就可用。
另外，我们可以利用频仍的更新，在第 t 季度的数据可用后进行实时预测，由于随着每周购买数据的更新，新的数据变得可用。我们将在本节末尾更详细地表明我们的方法论。

我们利用了两个信息来源：管理引导和电子邮件收据。
前者由一系列值（预测收入）组成，可以转换为最新报告的季度的增长率范围。我们可以从测量一组用户在两个季度内增长的购买额开始。然后，可以将这一增长率与引导范围进行比较，以预测贩卖是否会在管理层指示的范围的下限或上限。如果样本内的增长率超出了引导范围，那么我们可以简单地假设贩卖额将位于范围的下限或上限。
例如，在 2016 年第三季度，亚马逊对贩卖的引导范围在 310 亿美元至 335 亿美元之间。这对应于第二季度的增长率在 2% 到 10.2% 之间，当时收入总额为 304 亿美元。如果 Quandl 监测的用户样本在 Q3 比 Q2 耗费增加了 3.6%，那么我们将以 3.6% 作为我们的估计值，靠近范围的下限。然而，如果我们样本的增长率为 12.5%（超出引导范围），那么我们将以为这一结果表明贩卖大概位于管理层指示的范围的顶端。因此我们将使用 10.2% 作为我们的估计值。
本节的其余部分表明，这种简单方法可以在正式的统计框架中得到证实。特殊地，我们以为将两种信息源团结的一种自然方式是采用贝叶斯方法，并将引导视为先验信息。然后，我们处理数据以形貌贩卖增长的后验分布（图 6.17），即在给定命据的情况下增长率的分布。
如图 6.17 所示，先验分布仅仅利用了引导中隐含的范围，例如增长率在 2%至 10.2%之间。后验的众数是先验分布中的假设样本增长率 3.6%。
6.4.2 贝叶斯方法

目的是根据两个样本估计在期间 1 和期间 2 之间的贩卖变化。形式上，我们假设有两组观察值可用：{y[11], ..., y[1n]}和{y[21], ..., y[2n]}。让我们暂时忽略本节稍后将处理的两个复杂因素：

我们的样本大概引入了一些选择偏差，由于’Quandl 总体’与整体总体差异。
总体随时间增长。

我们假设每个样本是从两个时间点的大总体中抽取的。总体中的个体保持不变：一些个体耗费为零，但没有新用户参加，也没有效户退出。我们还假设，在每个时间点给定分布的参数后，两个期间的支出是独立的，即分布的形状总结了关于消费增长的全部相干信息。
每个样本被假定从具有参数 i 的负指数分布中抽取：
p ( y ∣ λ i ) = λ i e − λ i y p(y\mid\lambda_{i})=\lambda_{i}e^{-\lambda_{i}y} p(y∣λi)=λie−λiy
( 6.1 ) (6.1) (6.1)
p(y ∣ i) = ie−iy (6.1)
指数分布（图 6.18）是一个简单的装备，用于模拟具有严重偏斜分布的正随机变量。实际上，消费者购买的样本将被长尾右侧特征化，这反映了在期间内有少数用户支出非常大的金额。2 在给定参数 1 和 2 的情况下，假设这两个样本是独立抽取的。这相称于假设均值参数的变化总结了在期间 1 和期间 2 之间的总体变化的全部信息。
每个总体的均值是 1/i，这是指数分布的一个特性。

6.4.2.1 先验分布感兴趣的主要数量是均值的比率 1 2
，其中捕获了从期间 1 到期间 2 购买的平均金额的增长。我们界说 1 = 1/2，并设置如下的匀称先验：3
                                                ϕ                            1                                     ∼                         U                         (                                     μ                            ‾                                     ,                                     μ                            ‾                                     )                               \phi_{1}\sim U(\underline{{{\mu}}},\overline{{{\mu}}})                   ϕ1∼U(μ,μ)
                                       (                         6.2                         )                               (6.2)                   (6.2)
1 ∼ U(, ) (6.2)
其中和为存货引导范围的上下界，以季度基础的增长率（加一）表现。我们夸大，先验是不确定的，即我们不在管理范围内的任何其他值内强加任何其他布局。这在图 6.17 中有所说明。
该推导可向作者索取，起首选择了参数的先验分布，即 Gamma 分布。这是我们对 1 的假设： 1∼Gamma(, )。然后，我们对第 2 时期人口的平均值施加了先验，以考虑存货引导所隐含的增长率范围：
                                                λ                            2                                        −                               1                                              ∣                                     λ                            1                                     ∼                         U                                     (                                        μ                                              λ                                  1                                                    ,                                                       μ                                  ‾                                                          λ                                  1                                                    )                                           \lambda_{2}^{-1}\mid\lambda_{1}\sim U\left(\frac{\mu}{\lambda_{1}},\frac{\overline{{{\mu}}}}{\lambda_{1}}\right)                   λ2−1∣λ1∼U(λ1μ,λ1μ)
其中量 ∕1 可视为时期 1 的平均值乘以增长率，该增长率等于引导范围的下限。
作为替换，我们还考虑了高斯先验和 Datta 和 Ghosh（1996 年）对 1 的不恰当先验。详情可向作者索取。
6.4.2.2 后验分布本节形貌了我们的收据数据会合参数的分布特征，即平均支出增长率。在推导后验分布时，我们使用了对先验的假设。
（方程（6.2））（Gamma 和匀称）以及似然（方程（6.1））（指数）来推断出给定命据的参数 1 的分布。
可以证实
                                       p                         (                                     ϕ                            1                                     ∣                         d                         a                         t                         a                         )                         ∝                                     {                                                                                                                                     (                                                                                        ϕ                                                       1                                                                         s                                                                   )                                                                                  α                                                 +                                                 n                                                                                                                (                                                 1                                                 +                                                                                        ϕ                                                       1                                                                         s                                                                   )                                                                                  −                                                 (                                                 α                                                 +                                                 2                                                 n                                                 )                                                                                                                                                          if                                                             μ                                              ‾                                                             ≤                                                             ϕ                                              1                                                             ≤                                                             μ                                              ‾                                                                                                                                                 0                                                                                           otherwise                                                                                           p(\phi_{1}\mid d a t a)\propto\begin{cases}\left(\frac{\phi_{1}}{s}\right)^{\alpha+n}\left(1+\frac{\phi_{1}}{s}\right)^{-(\alpha+2n)}&\text{if}\underline{{{\mu}}}\leq\phi_{1}\leq\overline{{{\mu}}}\\ 0&\text{otherwise}\end{cases}                   p(ϕ1∣data)∝⎩             ⎨             ⎧(sϕ1)α+n(1+sϕ1)−(α+2n)0ifμ≤ϕ1≤μotherwise
其中 s = ∑iy2i/( + ∑iy1i)。后验分布在 ≤ 区间内具有
1 ≤ ，一个属于 Pearson 分布家族的众所周知的表达式，而且可以重写为 F 分布的转换。因此，其众数可以明白盘算，而其均值和中位数可以通过数值积分盘算。后验分布如图 6.17 右侧所示。
在实践中，我们可以使用后验分布的众数作为贩卖增长的估计值。我们起首创建每个时期平均支出的估计器：
                                                            λ                               ^                                        1                                     =                                                 α                               +                               n                                                    β                               +                                              ∑                                  i                                                          y                                                 1                                     i                                                                         ,                                                          λ                               ^                                        2                                     =                                     n                                                       ∑                                  i                                                          y                                                 2                                     i                                                                               {\widehat{\lambda}}_{1}={\frac{\alpha+n}{\beta+\sum_{i}y_{1i}}},\quad{\widehat{\lambda}}_{2}={\frac{n}{\sum_{i}y_{2i}}}                   λ             1=β+∑iy1iα+n,λ             2=∑iy2in
值得注意的是
̂1 只是 1 的后验分布的均值，而
̂2 是第 2 时期样本均值的倒数。然后，增长率的最大后验概率（MAP）估计值为
                                                                                                                  ϕ                                        ^                                                                   1                                                        M                                           A                                           P                                                                            =                                                 {                                                                                                                            μ                                                                                                                   λ                                                             ^                                                                               1                                                                            /                                                                                                    λ                                                             ^                                                                               2                                                                                                                                                                                           if                                                                                           λ                                                          ^                                                                            1                                                                         /                                                                                              λ                                                          ^                                                                            2                                                                         <                                                    μ                                                                                                                                                                                                                         λ                                                          ^                                                                            1                                                                         /                                                                                              λ                                                          ^                                                                            2                                                                                                                                                                         if                                                 μ                                                    ≤                                                                                              λ                                                          ^                                                                            1                                                                         /                                                                                              λ                                                          ^                                                                            2                                                                         ≤                                                                         μ                                                       ‾                                                                                                                                                                                                    μ                                                    ‾                                                                                                                                                    if                                                                                           λ                                                          ^                                                                            1                                                                         /                                                                                              λ                                                          ^                                                                            2                                                                         >                                                                         μ                                                       ‾                                                                                                                                                                                           (6.3)                                                    \widehat{\phi}_{1\,\mathrm{MAP}}=\begin{cases}\frac{\mu}{\widehat{\lambda}_{1}/\widehat{\lambda}_{2}}&\text{if}\,\widehat{\lambda}_{1}/\widehat{\lambda}_{2}<\mu\\ \widehat{\lambda}_{1}/\widehat{\lambda}_{2}&\text{if}\,\mu\leq\widehat{\lambda}_{1}/\widehat{\lambda}_{2}\leq\overline{\mu}\\ \overline{\mu}&\text{if}\,\widehat{\lambda}_{1}/\widehat{\lambda}_{2}>\overline{\mu}\end{cases}\tag{6.3}                   ϕ             1MAP=⎩             ⎨             ⎧λ                            1/λ                            2μλ                      1/λ                      2μifλ                      1/λ                      2<μifμ≤λ                      1/λ                      2≤μifλ                      1/λ                      2>μ(6.3)
因此，我们可以通过在两个时期的参数估计之比来估计增长率。如果估计值超出了引导中隐含的范围，则我们将取较低或较高边界作为我们的估计。值得注意的是，随着样本量的增加，先验分布对估计的影响每每会消散，即参数和变得无关。
6.4.2.3 我们的样本具有代表性吗？在本节中，我们介绍了一种简单的调解方法，处理由于抽样偏差大概产生的埋伏失真。Quandl 数据集相干的人口大概与全球客户和埋伏客户的更广泛人口性质差异。此外，正如下一节为亚马逊案例研究所详述的，企业的电子商务部分大概不允许我们就整个业务的贩卖增长得出结论。
季度季候性效应大概是一个问题，由于企业的差异部分大概有非常差异的模式。特殊是电子商务大概会在 12 月和季候性贩卖期间显示出更显着的高峰，这将导致我们高估这些效应的影响。此外，我们很大概捕获到的是倾向于年轻化而且更广泛使用电子商务平台的客户子集，而这些客户不代表整个人口。
一个简单而实用的方法是将从我们的样本中测得的增长率视为与实际感兴趣的变量相干的信号，即全体人口的增长率。形式上，我们可以将其写为
                                                g                            t                                     =                         f                         (                                     ϕ                            t                                     )                         +                                     ε                            t                                           g_{t}=f(\phi_{t})+\varepsilon_{t}                   gt=f(ϕt)+εt
其中，gt 是贩卖季度环比增长率。然后我们可以利用数据拟合一个适当的函数 f，例如通过使用诸如核回归之类的非参数方法。然而，在我们的案例中，由于我们汗青样本的长度极短，我们更倾向于专注于一个考虑到季候性因素的线性模型：
                                                g                            t                                     =                                     β                            ′                                              f                            t                                           ϕ                            t                                     +                                     ε                            t                                           g_{t}=\beta^{\prime}f_{t}\,\phi_{t}+\varepsilon_{t}                   gt=β′ftϕt+εt
其中是一个 4 × 1 的季度斜率向量，ft 是一个 4 × 1 的向量，根据时间索引 t 指示的季度选择正确的斜率，即 ft = (f1t, f2t, f3t, f4t)
′
和
                                                f                                        q                               t                                              =                                     {                                                                                  1                                                                                                                0                                                                                           f_{q t}=\left\{\begin{array}{l}{{1}}\\ {{0}}\end{array}\right.                   fqt={10
                                                                                       i                                     f                                     t                                     =                                     4                                     k                                     +                                     q                                  f                                     o                                     r                                  s                                     o                                     m                                     e                                  k                                     ∈                                     N                                                                                                                         o                                     t                                     h                                     e                                     r                                     w                                     i                                     s                                     e                                                                               \begin{array}{l}{{i f t=4k+q\,\,\,f o r\,s o m e\,k\in\mathbb{N}}}\\ {{o t h e r w i s e}}\end{array}                   ift=4k+qforsomek∈Notherwise
产品
′ft 是一个随着时间变化的缩放因子，由于受到季候效应的影响。可以通过回归从数据中估计系数向量。在履历分析中，我们还考虑了一个简单的变体，其中全部的分量相等。
一旦模型被估计，就可以生成一个颠末偏差校正的大数据预测版本
̂1MAP:
                                                            ϕ                               ~                                                    1                               t                               M                               A                               P                                              =                                                 β                               ′                                        ^                                              f                            t                                                       ϕ                               ^                                                    1                               t                               M                               A                               P                                                    \widetilde{\phi}_{1t M A P}=\widehat{\beta^{\prime}}f_{t}\,\widehat{\phi}_{1t M A P}                   ϕ             1tMAP=β′          ftϕ             1tMAP
                                       (                         6.4                         )                               (6.4)                   (6.4)
然而，似乎很告急允许季候性组分自己的时间变化。例如，如果公司差异业务的相对告急性发生变化，那么我们可以预期最佳缩放系数也会相应变化。处理这个埋伏问题的一种简单方法是将斜率向量视为（缓慢）变化的系数。在这种情况下可以使用的流行模型之一是状态空间模型，将系数向量视为随机游走：
                                                g                            t                                     =                                     β                            t                            ′                                              f                            t                                           ϕ                            t                                     +                                     ε                            t                                           g_{t}=\beta_{t}^{\prime}f_{t}\,\phi_{t}+\varepsilon_{t}                   gt=βt′ftϕt+εt
                                                β                            t                                     =                                     β                                        t                               −                               1                                              +                                     η                            t                                           \beta_{t}=\beta_{t-1}+\eta_{t}                   βt=βt−1+ηt
其中 t 和 t 是均值为零、方差为 2 , 方差为 2 的扰动项。该模型可以用先验 0∼N(1, I) 初始化，并通过卡尔曼滤波器平静滑器（KFS）进行估计。参数 2 , 2 和可以根据数据进行校准。由于我们样本的连续时间有限，我们不再深入探究这个想法。
另一个埋伏的偏倚来源是人口增长。我们的样本不包罗任何活跃用户（即已选择参加 Quandl 数据库并可联系到的用户），但选择不在电子商务平台上购买任何产品。这应该捕获到一般人口水平上用户增长的一个方面，即开始使用该平台的新客户。然而，由出生、死亡和移民引起的美国人口规模和人口构成的变化也大概影响电子商务贩卖的增长。例如，大量移民大概会增加贩卖额。同样，年轻的人口大概更倾向于在线购物。
在我们的分析中，当盘算增长率时故意保持人口恒定，如许我们的结果就不会误以为是应用程序用户的增长导致的。鉴于大部分收入来自人口增长较低的发达国家，这种影响似乎可以忽略不计，我们决定忽略它。另一种方法是明白建模用户增长，并将其添加到从样本中得到的贩卖增长的预测中。
6.5 实时预测 6.5.1 我们的布局时间序列模型

本节处理实时生成季度贩卖额预测的问题，即在季度期间有新的每周更新可用时更新当前预测。为了避免不须要地复杂化符号，我们将每个季度人为地分别为 13 个期间，将其称为“周”。在实践中，当季度的天数不完全是 91 天时，我们允许较长或较短的第 13 个“周”。在闰年中，我们总是假设第一季度的第 9 周有八天。我们的命名约定的完整形貌见图 6.19。
以亚马逊为例，图 6.20 显示了我们数据会合捕获到的购买在每个季度内显示出强烈的季候性模式。我们绘制了一个周贩卖的指数，该指数在每个季度内归一化为单位平均值（与图 6.14 差异，在图 6.14 中，我们强加了整个日历年的单位平均值）。因此，需要对季候性进行建模，以便基于每周数据生成有效的预测。例如，如果我们仅查察了 Q4 上半年的累计贩卖额，我们大概会低估增长，由于大多数购买通常在 12 月份进行。
为了简化符号，我们将区分季度贩卖额 Yt 和季度 t 期间观察到的周贩卖额 Yt, n，其中 n 标识特定的周，因此 1≤n≤13。按照∑13 n=1 Yt,n = Yt 构建。
我们的周时间序列模型可以写成
Yt,n = Yt(It,n + ΛnMt,n) + ut,n, n = 1*, …,* 13

10 月 01 日 10 月 08 日 10 月 15 日 10 月 22 日 10 月 29 日 11 月 05 日 11 月 12 日 11 月 19 日 11 月 26 日 12 月 03 日10 月 07 日 10 月 14 日 10 月 21 日 10 月 28 日 11 月 04 日 11 月 11 日 11 月 18 日 11 月 25 日 12 月 02 日 12 月 09 日

7 7 7 7 7 7 7 7 7 7 7 8

其中It,n是一个不规则成分，捕获例如亚马逊的prime日对贩卖的影响，Λn 是季候性成分，而Mt,n是捕获周具有不规则连续时间效应的乘数（例如，在 Q1 竣事时的六天星期）。期望偏差。系数随我们建模的季度而变化（即，Q1 的第一周与 Q4 的第一周差异），但我们只使用下标 t 来保持符号简单。
需要注意的是，假定季候性成分Λn 在差异年份间是恒定的，而prime day的日期和乘数 M
随时间变化（后者是由于闰年）。为了关闭模型，我们施加了限制。
t=1
( I t , n + Λ n M t , n ) = 1 (I_{t,n}+\Lambda_{n}M_{t,n})=1 (It,n+ΛnMt,n)=1
以便

E(Y)可以被视为季度贩卖额的预期总和。
6.5.2 估计与预测

由于模型的乘性特性，我们可以直接从图 6.20 中所示的规范化贩卖系列估计参数，即我们可以使用比率 Yt,n/Yt 进行盘算。 Prime Day 的效应 It 可以通过对平均值进行估算来估计

Prime Day 周的规范化贩卖与没有举行 Prime Day 的同一周的规范化贩卖之间的差异。
由于一年中的天数已知，因此乘数 Mt 是已知的。为了估计季候性组件 Λn，我们使用 KFS 对比率 Yt,n/Yt（在减去不规则组件之后）拟合了一个三次样条曲线。7 亚马逊的估计结果绘制在图 6.21–6.24 中。从图中可以清晰地看出，季候效应在末了一个季度中更加显着。

假设我们已经观察到新季度前 s < 13 周一组客户的每周购买情况，那么我们可以预测整个季度的总数为
Y ^ t ∣ s = ∑ n = 1 s Y t , n ( ∑ n = 1 s ( I t , n + Λ ^ n M t , n ) ) − 1 \hat{Y}_{t|s}=\sum_{n=1}^{s}Y_{t,n}\left(\sum_{n=1}^{s}(I_{t,n}+\hat{\Lambda}_{n}M_{t,n})\right)^{-1} Y^t∣s=n=1∑sYt,n(n=1∑s(It,n+Λ^nMt,n))−1
季度增长率随后可以使用前一节介绍的方法进行预测。
6.6 案例研究：Http://Amazon.Com 贩卖 6.6.1 配景

在本节中，我们将上面讨论的方法应用于预测亚马逊的季度收入问题。在 Quandl 数据库中，亚马逊是观察次数最多的公司。此外，它是一个需要团结定量和根本洞察的复杂布局的公司的很好的例子。
亚马逊报告业务部门的季度贩卖额分拆，这在一段时间内发生了变化。在图 6.25 中，我们绘制了两个广泛种别的相对告急性：电子商务和其他贩卖（其中包罗亚马逊网络服务，AWS）。由于我们数据集的特性，通过会合研究电子邮件收据，我们只能调查美国电子商务贩卖的趋势。图 6.25 表明，只管由于快速增长，来自电子商务的收入占总收入的比例很大，但占比正在降落。

AWS 的增长。8 同样，我们可以从图 6.26 看出，向北美客户（我们可以靠近美国贩卖的客户）的贩卖额占总贩卖额的一半以上。
然而，我们无法得出结论，专注于美国电子商务将产生无偏的预测。起首，正如我们在前一节中所论述的，我们的样本仍大概具有明显的选择偏差，由于我们无法确定 Quandl 样本是否代表美国人口。
其次，纵然非通过电子商务平台预订的贩卖比例和发生在美国以外的贩卖比例都很小，这些部分的增长率大概完全差异，终极导致我们的预测出现偏差。
为相识决这个埋伏的问题，我们将贩卖增长（按季度计）分解为各地区的贡献加上 AWS（图 6.27–6.30）。在每个图中，柱的总高度代表了亚马逊相应季度营收的增长率。通过将每个部分的相对权重与其季度增长率相乘来得到各个组成部分。
结果表明，AWS 对总体贩卖增长的贡献仍旧较小，特殊是在 Q1 和 Q4。然而，在 Q2 和 Q3 的预测中，它变得越来越告急。北美和天下其他地区对总体增长率都有明显贡献，但在大多数情况下，前者占据较大份额。
结论是，专注于美国不太大概导致明显偏差，但忽视 AWS 部门（最近增长速率远远快于电子商务）似乎越来越伤害。通过业务部门的分解（这里省略以节流空间）得出类似的结果。

6.6.2 结果

如今我们转向预测头条贩卖数字的问题。但在如许做之前，我们通过散点图（图 6.31）检查了总贩卖增长与电子商务收入增长之间的差异。玄色实线上方的点表现电子商务增长速率超过总体增长速率的季度。
如预期的那样，这每每发生在 Q4（当季度增长率超过 30％时）由于圣诞节贩卖高峰期。图 6.32 显示，专注于美国的贩卖自己不太大概导致明显的偏差。

我们实施了上一节中讨论的估计器，以预测亚马逊季度贩卖增长。图 6.33 出现了我们对预测的替换版本的结果，并将其与共识进行了比较，即从 I/B/E/S 在日历季度竣事后一周获取的平均分析师估计值。到当时，全部季度的客户生意业务都已经处理并由 Quandl 添加到数据库中，因此两个预测都是可用的。
表格的中间部分显示，与共识相比，大数据估算表现出了良好的比较：预测的两个版本都显示出了较低的平均绝对偏差（MAE）。
与平均分析师预测相比。由于样本期间早期出现了一些导致大偏差的离群值，根均方偏差（RMSE）将倾向于共识。在第三列中，我们显示命中率，即我们的预测改善共识的次数，作为总样本量的百分比。
预测器MAERMSE击中率共识（1）1.76%2.11%收据和引导（2）无偏差校正偏差校正1.64% 1.51%2.34% 2.40%66.7% 66.7%团结（1）-（2）无偏差校正偏差校正1.21% 1.32%1.47% 2.15%75.0% 75.0%

我们在三分之二的时间内取得了改善。只管时间序列中的观察次数确实有限，但我们的分析似乎表明，大数据估计至少与共识一样准确。
通过偏差校正进一步改善了估计（以 MAE 为指标），这再次表明 Quandl 样本不是不受选择偏差影响的。然而，我们的结果表明，通过使用上一节详细介绍的简单办理方案，即方程（6.4），可以准确建模偏差。随着更长的时间序列的可用性，如果表征我们样本偏差的季候模式随时间变化，则大概需要使用先前发起的自适应估计。
在图 6.33 底部，我们提供了分析师估计和大数据相团结的结果。在这里，两个预测值简单地通过取两个值的平均值来团结。这导致准确性的提高，无论是以 MAE 还是命中率来衡量，后者达到了 75%。只管就 RMSE 而言，证据不如预期（校正偏差版本与共识相比略高），但总体而言，结果突显了通过团结大数据和分析师的根本看法所能得到的预测能力的改善。
图 6.34 给出了大数据预测与实际值之间距离的图形印象（图表中未使用分析师输入）。预测似乎紧随贩卖实际增长，估计偏差似乎随着时间序列观测次数的增加而减小。再次，这一结果可以归因于，随着用于估计的扩展窗口增加，偏差校正机制变得越来越准确。
6.6.3 综合考虑

对比我们的大数据估计与时间的共识也很有效（图 6.35 和 6.36）。在图 6.35 中，我们绘制了两个估计器的预测偏差。
在样本期间早期（特殊是 2014 年第四季度）发生的相对较大的偏差导致我们的预测显示较高的 RMSE。风趣的是，共识显示了季候模式：分析师每每低估 Q1 贩卖额，并高估 Q4 贩卖额。在大数据预测中找不到如许的模式。

图 6.36 以稍微差异的方式出现相同的信息，通过绘制预测和实际贩卖意外。实际数字盘算为报告数字与共识之间的差异（在形成预测时不可访问的）。预测意外是我们的大数据估计和共识之间的差异，即如果我们的估计器被证实是 100% 准确的，会发生的意外。从图中显着可见第 4 季度的强烈负面意外的模式。除了两次例外（2014 年第 3 季度和 2015 年第 4 季度），我们将能够在每个季度中正确预测意外的符号。
图 6.33 中一个令人惊讶的结果是，使用偏差校正（表格的末了一行）的预测组合表现不佳，与不使用偏差校正的情况相反。这与使用大数据估计器时，当单独使用时受益于偏差校正的证据不符。为什么当我们的估计器与共识团结时，结论会发生变化呢？事实证实，如果我们依赖 Quandl 数据而不试图校正偏差，我们在第 4 季度每每比共识更不乐观，在第 1 季度至第 3 季度更乐观。正如图 6.37 明白显示的那样，我们样本中的增长率每每低于第 4 季度的报告数字，而在其余时间，特殊是第 1 季度，则高于年度报告数字。这正好与共识显示的错误模式相反（图 6.35）。因此，与“两个错误不构成一个正确”的古话相反，当我们团结两个估计时，错误会相互抵消，从而提高了 MAE 和特殊是 RMSE。然而，我们不表明我们的结果表明应该在将大数据与分析师预测团结使用时使用原始估计器 ̂1MAP。

模型输入MAERMSE命中率不当的先验收入数据指数收入，引导高斯收入，引导5.14% 1.64% 1.64%6.52% 2.34% 2.34%33.3% 66.7% 66.7%引导中值引导2.73%3.23%16.7%季度平均增长率汗青增长率7.86%12.94%25.0% 图 6.38 结果稳健。数据覆盖了 2014 年第 2 季度至 2017 年第 1 季度的时间段。
出处：Macquarie Research、Quandl、Fact Set、I/B/E/S，2017 年 9 月。
为了得出强有力的结论，需要更好地理解偏差的驱动因素。
图 6.38 的上半部分评估了我们的大数据估计器的表如今多大水平上受到两个输入的影响，即引导和收据数据。我们起首检查结果对我们选择的先验分布的敏感性。有两种方法：
通过仅依赖于 Quandl 数据得出一个预测的方法。这相称于对增长率的不当先验，就像 Datta 和 Ghosh（1996）所提倡的那样。

使用基于正态先验而不是我们的 Gamma-指数模型的模型。9

我们的基准模型在表中被称为指数。
忽略来自管理引导的信息会导致估计器质量明显恶化，例如，MAE 从 1.64%上升到 5.14%。命中率仅为 33.3%。然而，单独的引导并不敷以匹配我们的大数据估计器的预测准确性。在图 6.38 中，我们展示了引导中点（即引导范围中间的点）作为未来季度增长的估计的性能指标。得到的 MAE（2.73%）和 RMSE（3.23%）显着高于图 6.33 中的任何预测因子。命中率低于 20%。总之，我们方法中的两个要素（引导和大数据）在提供极其准确的贩卖估计方面发挥着告急作用。我们的结果表明，引导在淘汰大概结果范围方面很告急，而 Quandl 数据集则提供了关于范围内增长率大概性的名贵信息。
图 6.38 还包含了一个天真的预测结果，即汗青平均增长。
鉴于强烈的季候效应，我们盘算了每个季度（Q1-Q4）的汗青季候平均值，从扩展窗口中得到。其性能显着比迄今考虑的其他方法差得多。
6.6.4 实时预测

在本节中，我们实施前一节讨论的方法，以模拟随着 Quandl 数据库的每周更新而实时估计贩卖增长。
我们根据前 t<13 周的数据推断整个季度的增长率，然后应用上述改正埋伏偏差并整合来自管理引导的信息的估计程序。
可用数据库对系统分析来说太短了。因此，我们将重点放在样本期间的末了四个季度（2016 年第二季度至 2017 年第一季度），并展示了一个样本外分析的结果。唯一使用完整样本估计的参数是影响周贩卖的季候性组件（如图 6.21-6.24 所示），这些估计是使用 2014 年至 2016 年的数据进行估计的，并用于推断每周贩卖趋势。我们承认这大概会产生稍微的前瞻性偏差。但是，这种偏差不会影响 Q1 2017 的样本外分析。此外，任何前瞻性偏差仅在每个季度的前期才相干，由于随着更多周的数据变得可用，我们的推断过程对结果的影响变得不那么告急。一旦日历季度竣事，估计值就不再变化，我们对每周季候性影响的估计也不再需要。
图 6.39-6.42 显示了结果的时间序列图。灰线代表共识估计，而黑线显示了我们实时大数据预测的演变。此外，我们以灰色阴影区域的形式图形化地表现了管理引导所暗示的增长率范围，该区域始于发布引导的日期。末了，每张图片中的红点代表实际报告值。
在全部四种情况下，当亚马逊发布其结果时，大数据估计都比共识更准确。我们在这里评估了 Quandl 数据库中的信息需要多长时间才能产生足够准确的估计。
风趣的是，共识在发布引导后每每会有较大幅度的变动（图 6.39 是一个显着的例子），然后保持在范围内。

出处：Macquarie Research、Quandl、Factset、I/B/E/S，2017 年 9 月。
管理层指示的引导范围内。与引导范围相比，共识值在此后每每变动很小，而且通常保持在上半部分。
我们的大数据估计在日历季度竣事后保持不变（例如，在 6 月 30 日，在图 6.39 中有一周的滞后）由于在那之后没有新信息可用。在这个分析考虑的期间内，只有在一个案例中，Quandl 样本产生的增长率超过了引导范围（图 6.42）。图中的虚线代表原始估计值。在 2016 年 Q3（图 6.40）中，估计值开始高于上限（并向中间紧缩），但随着更多周的数据变得可用，它渐渐减小直到进入引导范围。

我们的大数据预测通常比共识更不稳固，特殊是在季度初期以致在发布引导之前更加显着。只管云云，值得注意的是，这两种预测——分析师预测和大数据预测——很少交织（图 6.42 中仅一次），这表明纵然在季度初期也能预测到贩卖意外的方向。
参考文献

Adrian, T. and Franzoni, F. (2009). 学习有关 Beta 的知识：时间变化的因子负载、预期收益和条件性 CAPM。J. Empir. Financ. 16：537–556。
Ben-Rephael, A., Da, Z., 和 Israelsen, R.D. (2017). 这取决于你在哪里搜索：机构投资者的关注度和对新闻的反应不敷。 Rev. Financ. Stud., 30: 3009–3047。
Brar, G., De Rossi, G., 和 Kalamkar, N. (2016). 使用文本挖掘工具预测股票回报。
在：金融情感分析手册（ed. G. Mitra and X. Yu）。伦敦：OptiRisk。
Das, S.R. 和 Chen, M.Y. (2007). 从网络上的闲聊中提取情感：Yahoo！实用于亚马逊。 Manag. Sci., 53: 1375–1388.
Datta, G.S. 和 Ghosh, M. (1996). 关于非信息先验的不变性。Ann. Stat., 24:
141–159。
Donaldson, D. 和 Storeygard, A. (2016). 俯瞰全局：在经济学中应用卫星数据。 J. Econ. Perspect., 30: 171–198.
Dragulescu, A. 和 Yakovenko, V.M. (2001). 指数和幂律概率分布。
财富和收入的分布。 Phys. A., 299:
213–221。
Gholampour, V. 和 van Wincoop, E. (2017). 我们可以从欧元美元推文中学到什么？
NBER 工作论文编号 23293。
Green, T.C., Huang, R., Wen, Q. 和 Zhou, D. (2017). 员工群体的智慧：
雇主评论和股票回报，工作论文。可在 SSRN 上获取：https://ssrn.com/
abstract=3002707.
Johnson, N.L., Kotz, S., 和 Balakrishnan, N. (1995). 连续单变量分布，
vol. 2. 纽约：Wiley。
Madi, M.T. 和 Raqab, M.Z. (2007). 使用广义指数分布的贝叶斯降雨记载预测。 Environmetrics, 18: 541–549。
Perlin, M.S., Caldeira, J.F., Santos, A.A.P., 和 Pontuschka, M. (2017). 我们可以根据 Google 的搜索查询预测金融市场吗？ J. Forecast., 36: 454–467。
Rajgopal, S., Venkatachalam, M., 和 Kotha, S. (2003). 网络优势的代价相干性：电子商务公司的案例。 J. Account. Res., 41: 135–162。
Trueman, B., Wong, M.H.F., 和 Zhang, X.J. (2001). 回归基础：预测互联网公司的收入。 Rev. Acc. Stud., 6: 305–329.
Wahba, G. (1978). 不恰当的先验、样条平滑和回归中防止模型错误的问题。 J. R. Stat. Soc. Ser. B 40: 364–372.
"本文最初由麦格理研究于 2017 年 9 月 11 日向其客户发布的报告中发表。本文中的观点反映了所列作者的观点。本文中的任何内容不应被视为投资发起或投资发起。
本文基于据信为可靠的信息得到，不作准确性、完整性或最新性的声明或保证。麦格理对因使用本文而导致的任何直接、间接、结果性或其他损失概不负责。版权全部。©麦格理集团 2017 年"
第七章：应用于量化股票：梯度提拔在多因子框架中的集成学习

Tony Guida 和 Guillaume Coqueret
7.1 弁言

一个既直观又有充分文献支持的事实是，公司在股票市场上的表现受到它们某些核心特征的驱动。在他们的开创性文章中，法玛和法伦奇（1992）表明，具有较高账面市值比的公司显着优于那些具有较低账面市值比的公司。他们还报告说，小公司的回报每每高于大公司的回报。后来，杰格迪什和提特曼
(1993, 2001) 构建了非常盈利的（动量）投资组合，通过购买表现优异的股票和做空表现不佳的股票。
此类发现导致了所谓的因子指数的构建，投资者购买表现高于平均水平的股票并卖出低于平均水平的股票。关于这些非常的文献非常庞大，而且有自己的元研究（例如见 Subrahmanyam 2010; Green et al. 2013; Harvey et al. 2016）。
2016）。2 这是否源于真正广泛（和定价）的影响股票回报横截面的因素（这是法玛和法伦奇 1993 年启动的文献流）大概直接来自公司特征，正如丹尼尔和提特曼（1997）提出的那样，这个问题是有争议的。
无论怎样，有很大的共识以为，投资者应该能够从引入公司特征到其资产设置过程中受益。
这些貌似显而易见的发起更为告急，由于智能贝塔指数正在重塑资产管理行业（Kahn and Lemmon 2016）。除了简单的投资组合构建过程外，3 出现了更复杂的方法，例如 Brandt et al. (2009) 和 Ammann et al. (2016) 中所述。
人工智能（AI）的崛起，特殊是呆板学习（ML）在无关范畴（盘算机视觉、翻译等）的应用，已经影响了量化管理者怎样处理手头全部数据的方式。最近的贡献包罗贝叶斯推理（Bodnar et al. 2017）、旗形图案辨认（Arévalo et al. 2017）、聚类（Nair et al. 2017）、随机森林、提拔树和神经网络（Ballings et al. 2015; Patel et al. 2015; Krauss et al. 2017）以致是循环神经网络（Fischer and Krauss 2018）等技能。
这些文章的限制在于预测变量通常仅限于价格数据或大概是技能数据。这是次优的，由于正如资产定价文献已经证实的那样，另有许多其他可作为表明变量的候选因素。
在本章中，我们发起充分利用 ML 总体和提拔树特殊是其优势，例如非线性，正则化和良好的泛化结果，以及随着大量数据的增加而良好的扩展性。本文的贡献与 Ballings 等人的工作（2015 年）精神上最靠近。两者之间的主要区别在于标签过程的复杂性：Ballings 等人（2015 年）只考虑价格方向，而我们采用更布局化的方法。
本章的组织如下。在第 7.2 节中，我们对提拔树进行了略微技能性的介绍。第 7.3 节专门介绍数据和协议，将介绍数据集的构建，包罗特征和标签工程，我们将在随后的章节中使用的协议以及通过盘算机科学界创建的严格协议进行 ML 的校准。
7.2 提拔树初探

本节专门介绍决策树和提拔树的自包含且公道技能性的介绍。有关更多详细信息，请参阅 Friedman 等人（2009 年）的第九章和第十章。
我们考虑一个被分成两部分的数据库：表明变量，聚集在矩阵 x 中，以及我们的目的变量，为简单起见，我们假设它是一个向量，y。设 T 为数据中的出现次数，K 为表明变量的数量：矩阵 x = xt,k 的维度为（T× K）。因此，我们将 xt 记为包含出现 t 的全部字段的 K 值向量。
树的目的是将数据（即（x，y）的集合）分割成尽大概相似的簇。如果 y 是一个数值变量，这意味着淘汰簇内的方差；如果是一个分类变量，则意味着淘汰簇的’不纯度’（我们寻求一个显着占优势的类）。
为了简化演示，我们起首处理回归树。在树的根部，变量 j 的最佳分割 s 是如许的，即根据该变量形成的两个簇的 y 的总方差最小：
V j s = ∑ t = 1 T 1 { x t , k > s } ( y t − μ j + ) 2 + ∑ t = 1 T 1 { x t , k ≤ s } ( y t − μ j − ) 2 , V_{j}^{s}=\sum_{t=1}^{T}{\bf1}_{\{x_{t,k}>s\}}(y_{t}-\mu_{j}^{+})^{2}+\sum_{t=1}^{T}{\bf1}_{\{x_{t,k}\leq s\}}(y_{t}-\mu_{j}^{-})^{2}, Vjs=t=1∑T1{xt,k>s}(yt−μj+)2+t=1∑T1{xt,k≤s}(yt−μj−)2,
其中 μ j + \mu_{j}^{+} μj+和 μ j − \mu_{j}^{-} μj−是
其中+j 和−j 是簇内平均值：

符号 1{.}表现指示运算符：如果 x 为真，则 1{x}等于 1，否则等于零。对于全部表明变量 j，该算法在全部大概的值 s 上最小化 Vsj，并保存使得总方差最小的谁人值。然后进行第一次分割，然后在生成的两个簇上重复该过程。
注意在 Vsj 的界说中
，术语(yt − ±j)
2 仅仅是缩放的方差，由于我们构建了一个回归树。与线性回归的类比很显着：经典的最小二乘估计器也试图最小化实际数据与预测值之间的方差。在分类树的情况下，方差的盘算被一个捕获群集不纯度的度量所替换。如许的度量的一个流行选择是交织熵。如果 s±k 是由排序 s 产生的两个聚类中 y 的 K± 种别的比例，交织熵是不纯度的常用度量：− ∑k±
k=1 s±k log(s±k ). 最小化交织熵通常会导致一个主导类的出现（至少，这是其目的）。
当节点分裂成两个时，树会逐步增长，而拟合度会随着叶子节点数量的增加而自然增加。显然，叶子节点数为数百个的树很大概会过拟合数据。确定节点数量的标准通常是一个线性组合：拟合度减去一个处罚项，该处罚项由叶子节点数量的倍数组成。
一旦创建了一棵树，增强的背后思想是将其与一棵或多棵其他树组合起来，以增加拟合度（这是集成学习的一个特例）。一种直观的办理方案是训练多个分类器，并将它们的预测组合成一个输出信号。在他的开创性贡献中，Schapire（1990）发起拟合三棵树，然后对二元分类进行多数投票。这一思想的改进导致了 AdaBoost 分类器族的发展（Freund 和 Schapire 1997）。有关此主题的综述，请参阅 Friedman 等人的文章（2000）。在后两篇文章中，作者们表明 AdaBoost 原理具有简单的加法表现。
为了图形化地说明这些观点，我们在图 7.1 中绘制了两棵简单的树。我们只对决定性特征感兴趣，即 y。后者的值通过颜色编码，而且树的目的是创建具有相似颜色的聚类。两棵树终极都形成了一个“热”聚类（左侧/叶子 1/第一棵树），但它们在确定第二个实例 y2 的位置上有所差异。如今，如果我们要预测具有类似于 y2 的特征的新变乱的颜色，我们的预测将混合两个相应聚类的结果。

如今我们更深入地指定加法方法。让我们从一个拟合的树开始，然后让我们在其上“叠加”另一棵树，以减小第一棵树的偏差（例如，通过将新树拟合到残差）。让我们称第一棵树为 T1。
第二棵树 T2 是按以下方式构建的：T2(xt) = T1(xt)+2f2(xt)，其中 2 和 f2 被选择为使 T2 最小化损失函数（例如总方差或加权交织熵的加权和）。该过程可以恣意次迭代，固然：
                                                T                            m                                     (                                     x                            t                                     )                         =                                     T                                        m                               −                               1                                              (                                     x                            t                                     )                         +                                     γ                            m                                              f                            m                                     (                                     x                            t                                     )                         .                               T_{m}(x_{t})=T_{m-1}(x_{t})+\gamma_{m}f_{m}(x_{t}).                   Tm(xt)=Tm−1(xt)+γmfm(xt).
真正的挑战显然是找到最优的 m 和 fm。最近的方法 4 使用基于梯度的技能办理了这个问题。下面，我们形貌了 XGBoost 背后的算法（Chen 和 Guestrin 2016）。对于每个发生的情况，该方法归结为盘算来自差异树的预测的加权和。
我们从一些符号开始。我们将 ̂ym 写成过程的第 m 次迭代的预测。 L 是损失函数，例如回归树的加权方差或多类分类的加权交织熵。我们盼望最小化的目的是以下内容：
                                                Λ                            m                                     =                                     ∑                                        t                               =                               1                                        T                                     L                         (                                     y                            t                                     ,                                                 y                               ^                                        t                            m                                     +                                     f                            m                                     (                                     x                            t                                     )                         )                         +                         Ω                         (                                     f                            m                                     )                         ,                               \Lambda^{m}=\sum_{t=1}^{T}L(y_{t},\hat{y}_{t}^{m}+f^{m}(x_{t}))+\Omega(f^{m}),                   Λm=t=1∑TL(yt,y^tm+fm(xt))+Ω(fm),
其中 f m 是我们正在寻找的函数（在这里，是树）。 (f m) 是一个正则化项，用于处罚树的复杂性。我们用 q 抽象地表现 f m 的布局
(节点/分裂)。另外，我们将叶子的数量设置为 J，没有损失一般性。
和它们的权重（在终极加权和中）为 wj。假设对于 (f m) 采用 L2 形式，并使用关于 ̂ymt 的 L 的二阶泰勒展开，目的简化为近似形式
                                                            Λ                               ~                                        m                                     =                                     ∑                                        t                               =                               1                                        T                                              [                                        g                               i                                                    f                               m                                        (                                        x                               t                                        )                            +                                        1                               2                                                    h                               i                                                    f                               m                                        (                                        x                               t                                                    )                               2                                        ]                                     +                                     λ                            2                                              ∑                                        j                               =                               1                                        J                                              w                            j                            2                                     ,                               \widetilde{\Lambda}^{m}=\sum_{t=1}^{T}\left[g_{i}f^{m}(x_{t})+\frac{1}{2}h_{i}f^{m}(x_{t})^{2}\right]+\frac{\lambda}{2}\sum_{j=1}^{J}w_{j}^{2},                   Λ             m=t=1∑T[gifm(xt)+21hifm(xt)2]+2λj=1∑Jwj2,
其中 gi 和 hi 对应于泰勒展开中的前两个导数。如果我们界说叶子号 j 的实例集：Ij = {i ∣ q(xt) = j}，那么
                                                            Λ                               ~                                        m                                     =                                     ∑                                        j                               =                               1                                        J                                              [                                        w                               j                                                    ∑                                              k                                  ∈                                                 I                                     j                                                                            g                               k                                        +                                                       w                                  j                                  2                                           2                                                    (                                              ∑                                                 k                                     ∈                                                    I                                        j                                                                                     b                                  k                                           +                               λ                               )                                        ]                                     ,                               \widetilde{\Lambda}^{m}=\sum_{j=1}^{J}\left[w_{j}\sum_{k\in I_{j}}g_{k}+\frac{w_{j}^{2}}{2}\left(\sum_{k\in I_{j}}b_{k}+\lambda\right)\right],                   Λ             m=j=1∑J             wjk∈Ij∑gk+2wj2             k∈Ij∑bk+λ                         ,
而且对于每个给定的叶子，最小化的权重是：
                                                w                            j                            ∗                                     =                         −                                                             ∑                                                 k                                     ∈                                                    I                                        j                                                                                     g                                  k                                                                            ∑                                                 k                                     ∈                                                    I                                        j                                                                                     b                                  k                                           +                               λ                                              .                               w_{j}^{*}=-\frac{\sum_{k\in I_{j}}g_{k}}{\sum_{k\in I_{j}}b_{k}+\lambda}.                   wj∗=−∑k∈Ijbk+λ∑k∈Ijgk.
然后的问题是找到一个符合的树布局，这通常通过一些贪心算法来执行。注意，在上述权重中，梯度位于分子上，这在给定负号时似乎很直观：按照惯例，算法朝相反的方向前进。末了，可以参加改进以进一步增强算法。其中一种大概性是紧缩。其背后的想法是全面学习大概会使优化朝着正确的方向，但是太远了。
因此，新增加的树可以稍微被因子稀释，这为未来的树留下了更多的空间：
                                                Φ                            m                                     (                                     x                            t                                     )                         =                                     T                                        m                               −                               1                                                    \mathbf{\Phi}_{m}(\mathbf{x}_{t})=T_{m-1}                   Φm(xt)=Tm−1
Tm(xt) = Tm−1(xt) + mfm(xt).
另一种大概性是子采样，我们参考原始贡献以相识有关此主题的更多详细信息。
7.3 数据和协议

本节形貌了我们的 ML 模型使用的数据和实证协议。我们专注于美国股票，以避免处理欧洲或全球股票中大概出现的差异货币和国家。我们还选择了美国股票的宇宙，由于其财务指标的覆盖范围更广，相对效率更高。
因此，我们将术语“特征”或因变量互换使用，以表达股票特征。在本节中，我们将表明已执行的特征转换，以使每个特征线性化，并以相同的单位表达它们（纵然 XGBoost 和树回归设计用于处理非归一化变量）。
数据

我们按市值调解的自由流畅股本网络了前 3000 只美国股票的月回报率和月股票特征。完整数据集从 1999 年 12 月至 2017 年 12 月。股票的股票宇宙包罗使用 Quandl 高级股票套餐的全部平凡股权。数据集是时点数据，因此不会受到幸存偏差的影响。价格是每月离散总回报，考虑了股票拆分和股利调解。价格以美元表现，与其他金额一样。
此数据集代表大约 620,000 个实例，其中实例由股票和日期的组合组成。我们要预测的变量 y 是一年后的板块中性超额表现的概率。我们模型中的表明变量包罗基于传统、金融、价格和基于成交量的指标的一大套 200 个特征。
为了避免前瞻性偏差，我们将使用一个为期 24 个月的滚动窗口来训练模型。因此，预测仅在 t+12 个月时才大概进行，而且我们将预测日期向前推移，以适应用于训练的正向时间段。我们将每个月重复一次训练，因此每个月更新每只股票在 12 个月后表现优异的概率。每个滚动分析周期将根据 80% 分别。
训练数据和 20% 的测试数据，保持测试数据在滚动窗口的最近部分，以避免“测试过去”的情况。测试部分用于调解超参数，由于避免过拟合是至关告急的，以便在样本外实现优越表现。
特征与标签工程

在基于 ML 的金融应用的大部分研究中，由于缺乏经济框架和不切实际或不明白的目的，例如寻找“最佳股票”，而失败。相反，我们的目的更为公道，由于我们寻求预测极端行为，并在每个板块中挑选出优质股票和最差股票，并将其表现为概率，以便对全面的股票横截面进行排序。
我们“工程化”了标签（未来回报）和特征，以便为算法提供更具因果关系的股票市场表现布局。
再次，我们摆脱了传统方法，该方法试图从过去的价格或短期回报推断未来的表现。我们将根本、风险、成交量和动量等基于信号的特征设为我们的特征。每个特征和标签都以 z 分数表现，然后转换为百分位数，以便在结果分析部分进行比较。
遵循古老的量化格言“垃圾进，垃圾出”，我们尽大概地对特征施加一些布局。
以同样的方式，我们通过次序进行一些布局：

回到一年（1Y）的表现，这足以在数据集的特征性质和标签的趋势之间创建肯定水平的因果关系。
根据每支股票的部门进行归一化。另一种方法是在特征中使用虚拟部门变量，但通过将正确的布局放在标签上，目的更加明白。
摆脱标签中的非常值：超出其部门中性表现（第 5；95）百分位数的股票被排除在培训之外。我们在这里的目的是尽大概地将特征与标签联系起来。例如，我们摆脱了被并购的股票或被涉及欺诈会计丑闻的股票，由于我们盼望标签真正与特征相干联。
仅处理筛选后股票的剩余顶部和底部五分位数。

我们盼望对横截面的顶部和底部部分的函数进行近似。通过如许做，我们盼望对表现良好/不良好的股票有一个清晰的分层表现。
我们界说 Yi1 为股票 i 在一年后的一段时间内表现优于其部门 S 的概率。因此，Yi0 = 1 − Yi1 将是股票 i 在一年后表现不及其部门的概率。Yi1 作为我们分类使命的主要输入。我们在算法中处理的标签如下：
y i = { 1 i f Y 0 i ≥ 0.5 0 i f Y 0 i < 0.5 y^{i}=\left\{\begin{array}{l l}{{1\ i f\ Y_{0}^{i}\geq0.5}}\\ {{0\ i f\ Y_{0}^{i}<0.5}}\end{array}\right. yi={1 if Y0i≥0.50 if Y0i<0.5
因此，这个变量跟踪相应的股票是否有大概
表现良好。在下一小节中，我们将重点关注我们依赖于来预测 yi 的表明变量。
7.3.3 使用的变量/特征

在我们的模型中，我们旨在使用极端梯度增强树每个月预测一只股票在其部门表现优于的概率。由于我们想要次序地创建弱学习器（单独的树），而且使用残差（错误分类的标签）进行下一轮，我们将使用数据会合的全部特征。在使用树进行 ML 预测的情况下，高度相干的变量不会干扰模型。大量高度相干的变量将为算法提供更多自由度，以确定每个单一变量的增值。
为了评估特征数据集之间的埋伏相干性水平，我们盘算了特征的品级相干性的分层聚类。如图 7.2 所示，我们可以确定代表信号族的差异指标组。
例如，图 7.2 中的左矩形显示了基于估值比率的指标，从简单的收益率和账面代价比指标到更基于规则的复合指标，根据公司性质施加更多的条件性。
中间的矩形代表基于价格的风险信号的聚类，例如价格颠簸信号的差异限期，大概颠簸率中的相干性加速。总共，这 200 个特征可以被聚类成六类指标，我们在表 7.1 中列出了它们。
在本章中，我们保存数据会合的全部特征。换句话说，在第一阶段我们不求助于告急特征发现，而是留下了树提拔模型。

成交量/估值职称/资格月度经营/技能风险估算活动性收益率ROE12-1 月度5 年熊市每股收益修订市值回报成交量账面收益率自由现金流/资产6 个月 RSI3 年FY1 收益成交量相干性贩卖收益率毛利润/资源投入12–1 个月回报/特定风险成交量来自 PCA 的残差每股收益增长活动性FY1风险通过训练部分的正则化参数来确定哪些特征在训练中起作用。此外，我们在训练的每个步骤中都使用了非常短的时间段。
（两年），因此在适应市场变化条件（例如部门和风格轮换、风险打开-风险关闭期间等）时，保存高数量的特征是得到更多自由度的好方法。
7.4 模型构建

在前一节中，我们介绍并表明了方法的目的、数据集和变量以及它们的布局。如今，我们将深入探究 XGBoost6 模型中使用的常规参数和超参数的细节。在本节中，我们介绍了 ML 模型，以及我们使用我们的数据找到的感兴趣的超参数。此外，我们将介绍怎样调解它们，以便给读者提供更实用的操纵指南。
XGBoost 是一种开源模型，可用于差异的语言（C++、R、Python、Julia、Scala），由于其在超参数调解方面的灵活性和快速的代码执行，在盘算机科学界非常受欢迎。
我们在第 7.2 节中讨论了树提拔的数学方面，因此我们将把本节的范围限制在实际方面。我们在这个练习中的目的是预测一只股票的行业中性超额表现的概率，我们依靠分类方法进行（我们回顾一下，我们的标签 yi 只能取一个或零作为值）。
为了得到行业中性超额收益的概率，我们采用基于逻辑的分类：发生的得分将通过 sigmoid 函数进行处理，这将导致一个介于零和一之间的数字。
目的函数将是通常的 logistic 损失函数，补充了一个正则化项，我们用它来控制模型的复杂性。控制模型复杂性是提拔树的一级重点，由于它们每每会对数据过拟合，并大概在样本外表现出较差的泛化行为。
7.4.1 超参数

提拔树中有许多差异的超参数；覆盖它们超出了本章的范围（它们通常取决于树聚合方法和实现方式）。我们将把介绍限制在我们测试或在本练习中使用的参数上。列表如下：

学习率：它是用于防止过拟合的步长缩减。在每次提拔步骤之后，我们可以直接得到新特征的权重，并实际上缩小特征权重，使提拔过程更保守。
最小分割损失：它是使叶节点的树进一步分割所需的最小损失淘汰。算法越大，就越保守（树将更小）。
最大深度：它是树的从根到叶子的最长路径（以节点计）。增加这个值会使模型更复杂，更轻易过拟合。
正权重的比例控制正权重和负权重的均衡：

对于不均衡的种别很有效。考虑的典范值：sum(负案例)/sum(正案例)。

回归：它是权重上的 L2 正则化项（在技能部分中提到），增加这个值会使模型更保守。

7.4.2 交织验证

在图 7.3 中，我们对三个差异的参数进行了交织验证。为了给读者一个一步一步的方法，我们盘算了一个图表，保存了在对 1000 个树的聚合上测试的每对参数的训练和测试预测错误。这个交织验证练习使用的评估指标是简单的平均偏差，由概率阈值 0.5 界说，给出二元分类错误率。
从左到右我们增加了树的深度，使它们更加复杂，遵循（3,5,7）的次序。从上到下我们增加

更高的学习速率意味着模型将学习得更快，有大概过拟合，而且在预测未见实例时泛化效果不佳。
偏差/方差折衷是呆板学习算法的核心，并呼应了 XGBoost 中处罚目的函数的核心原则：最小化损失并控制复杂性。与简单模型相干的较高偏差率更有大概在样本外进行良好的泛化。例如，使用低紧缩率（eta = 0.01）和非常浅的树（深度 = 3）测试的模型纵然颠末 1000 次迭代后仍旧学习得非常缓慢。这个模型位于图 7.3 的左上部分，显着地对数据拟合不敷：学习速率不够快。相反，图 7.3 右下部分的模型（深度 = 7; eta = 0.3）学习速率很快（从 0.01 到 0.1 终极到 0.3 的学习率达到 20%。
100 轮测试集后的偏差率）之后就趋于平稳。在这个例子中，模型更大概过拟合：这个模型在训练会合几乎达到了 99%的准确率。
一般来说，可以看出增加树的深度有助于降低紧缩的偏差水平。可以注意到，对于 eta 为 0.3，深度为 5 或 7 之间的测试偏差差异非常小，这表明这两个模型存在一些偏差（它们在 1000 轮后在训练集上达到了 99%的准确率）。
我们进行了网格搜索，以确认我们从图 7.3 中得出的结论。我们预测增强树模型的选定参数是：

1000 轮，早停在 100 以防止过拟合
设置为 0.1 以确保公道的学习速率 - 设置为 0：在我们的测试中，与其他参数相比似乎不太告急
深度为 5：我们需要一些（但不要太多）复杂性来从 200 个特征的完整集合中获益
L2 正则化参数固定为 1，在 XGBoost 模型中是默认值。

7.4.3 评估模型质量

在评估模型质量的过程中，有许多差异的评估指标可用。在交织验证部分，我们故意只披露了训练集和测试集的平均偏差。在这个子部分中，我们想介绍肴杂矩阵的概念及全部相干指标，以便准确评估 ML 模型的质量。
图 7.4 的每个部分都可以表明为：

Fp：假阳性。预测为表现优异的股票，但样本外实际上并不优秀。
Fn：假阴性。预测为表现不佳的股票，而样本外实际表现优异。
Tp：真阳性。预测为表现优异的股票，在样本外实际上表现优异。
Tn：真阴性。预测为表现不佳的股票，在样本外实际上表现不佳。

从这四种情况中，我们可以得出评估模型质量的几个经典指标。
精度：Tp /（Tp + Fp）
精度可以界说为中性部门的超额股票乐成预测率。
召回率：Tp /（Tp + Fn）
召回率可以界说为真实率，由于我们包罗了被错误分类为负的实例。
准确性：（Tp + Tn）/（Tp + Tn + Fp + Fn）
这是交织验证部分使用的准确性水平。这些措施可以帮助检测种别的不均衡，这大概导致“懒惰”的分类器问题，即全局准确性结果很好，但一个种别的表现较少，而且显示较低水平的准确性。在我们的练习中，我们将对发现真正的负面而不是真正的正面的准确性不太感兴趣。
在我们选定的模型中，差异评估指标的结果如下：

准确性：0.80 - 精度：0.797
召回率：0.795。

在早期阶段，我们决定对横截面分布的尾部进行训练，因此种别中几乎没有不均衡：因此召回率、精度和准确率非常靠近。
7.4.4 变量告急性

对于 ML 的一个常见品评是所谓的“黑箱”性质的预测，好像不大概理解或追踪哪个特征或特征组合负责预测。使用树进行集成学习确实具有一个非常好的特性，可以排除这一品评：变量告急性。
在图 7.5 中，我们展示了从 2002 年 12 月到 2017 年 12 月，我们每个月训练并用于预测的模型的平均变量告急性。每个月，我们保存来自训练模型的变量告急性。有很多差异的变量告急性指标。树集成中的一种流行指标是用于选择分割点的基尼不纯度指数。
在我们的练习中，我们使用增益度量，它等于相对贡献
（在准确性方面）与模型相对应的特征。要盘算增益度量，必须对每个月的每个特征的贡献进行平均。可以将增益度量总结为预测有效性指标。
全部特征的增益度量总和为 1。

起首，我们可以看到，平均而言，没有一项特征是占主导地位并表明大多数预测告急性的。然后，看看特征的类型，可以注意到：

我们有来自表 7.1 中网络的六个差异指标家族的特征。
在前 20 个特征中，价格风险指标似乎比估值、活动性指标等排名更靠前。
我们发现了一些常见的、众所周知的而且在资产定价文献中反复研究过的特征（代价的书籍收益、规模的市值、质量的资产盈利能力、低颠簸性非常的价格颠簸率和 12-1 个月的动量）。

7.5 结果与讨论

如今我们进行一个用例。我们的用例将测试我们基于 ML 的信号作为构建等权重投资组合的基础。我们处理我们的部门胜率概率就像处理任何其他信号一样。我们对其进行归一化处理，用百分位数表现，并评估月度重新均衡的十分位组合的表现。作为基准，我们构建了两个信号，并遵循上述相同的协议。这两个信号是：

使用常用的综合指标进行简单的多因子信号混合，以反映“因子投资”的界说。
根据我们的提拔树模型中最告急的 20 个特征挑选的排名前 20 个指标的线性组合。

在本节中，我们提供了实施为天真策略的信号的统计评估。我们将使用常用的股票特征制成的等权重（EW）投资组合作为基准，这些特征包罗：

代价：收益率，账面收益率，企业代价/EBITDA。
质量：净资产收益率，债务/股权比。3. 动量：12-1 总回报表现。
低颠簸性：三年和一年的价格颠簸率。5. 巨细：市值。

第二个基准将是一个等权重投资组合，使用由排名前 20 个最告急特征的线性组合构成的信号。
7.5.1 等权重十分位投资组合的时间序列分析

我们在这次回测中的目的是评估在多因子框架中使用 ML 信号相较于现有方法的附加代价。为了比较差异的

信号，我们根据每个信号的排名 z 得分创建等权重十分位投资组合。然后，我们使用月度回报分析这些信号的盘算时间序列。末了，我们将重点放在前十分位（D10，最倾斜）上，以提供更多的分析结果。
图 7.6–7.8 是两个基准的以美元表现的财富曲线
（多因子信号和排名前 20 个特征的线性组合）以及使用提拔树分类的 ML 模型。
可以注意到三个模型在十分位之间显示出累积的单调性能模式，即第一分位的性能低于第二分位的性能，低于第三分位的性能，等等。
三张图的比例故意相同，使得视觉比较更加轻易。可以看到，使用 ML 模型的性能分散在差异十分位之间的差异要比使用排名前 20 个特征的线性组合更加清晰，后者也显现出更好的累积性能单调性模式。
7.5.2 经济收益的进一步证据

为了进一步简化我们模型与两个基准之间的比较，我们在一个图表中绘制了每个模型每个分位的年化收益率。在图 7.9 中，可以看到 ML 模型的平均收益率之间的差距（9.8%）比前 20 个特征的线性组合模型（6%）更大。
和简单的多因子组合投资组合 (5.1%)。
在这里，ML 模型受益于尾部训练，我们根据一年后的表现将重点放在了前五分之一和后五分之一上来训练模型。因此，正如预期的那样，ML 模型对于最低十分位数（D1）的表现最差，而对于第十分位数（D10）的表现最好。

到如今为止，我们的分析会合在纯粹的绩效上，表格 7.2 为我们提供了一些关于替换和互补感兴趣的指标的光。这更深入地评估了 ML 模型的稳健性。
分析风险指标显示，与线性组合 (19%) 和 ML 方法 (17.6%) 相比，多因子组合投资组合的颠簸率最低 (14.7%)。这个结果并不令人意外: 多因子组合投资组合有五分之一的终极混合信号来自低颠簸性的投资。此外，它也很好。

MFactor-Signal linear_var_imp-Signal ML-Signal

表格 7.2 分析
MFactorlin_var_impML观测次数180180180中位数月收益率 (%)1.21.51.9年化收益率 (%)11.212.414.3年化颠簸率 (%)14.719.017.6平均秩 IC (12 M)0.050.060.11平均秩 IC (12M forward vol)−0.460.02−0.05收益/风险0.760.650.81t-stats2.872.392.95平均年换手率 (两种方式) (%)155203189我们正在比较每个模型的前十分位（第十分位）投资组合的分析 - 我们正在比较每个模型的前十分位数（第十分位数）投资组合的分析 - 左侧的两个基准和右侧的呆板学习模型。
已知，某些简单的质量关联度量，如债务与权益重叠，与低颠簸性轮廓重叠。
关于风险调解后的绩效，与多因子的 0.76 和前 20 个特征的线性组合的 0.65 相比，ML 模型产生了 0.81 的夏普比率。
查察平均品级信息系数（IC）显示，ML 信号更适合预测未来 12 个月的表现。ML 信号显示平均 IC
相比之下，多因子为 5%，线性组合为前 20 个变量的 6%。
最风趣的是，预测前实现颠簸性的平均 IC 数字显示，多因子信号的结果为 -46%。这一数字应该表明为：多因子信号水平高意味着与颠簸率呈负相干。换句话说，高水平的多因子得分意味着更高的低颠簸性股票曝光。这一结果对于 ML 模型和其他基准不成立。
末了，我们模型的三个 t 统计量都是明显的，ML 为最高
分别为 2.95，多因子和线性组合分别为 2.87 和 2.39。
由于其更动态的方法，与多因子信号（155%）相比，ML 信号产生了更高水平的周转率（189%）。然而，资产轮换低于前 20 个特征的线性组合。
本节结果显示，基于 ML 信号的投资组合在风险调解的基础上表现优于两个基准。ML 信号显示出更好的 IC
对于一年期前向表现和颠簸性的中立 IC。基于 ML 信号的多空策略（多头持有前十分位数，空头持有底部）在美元中性基础上表现优于两个基准。
基于我们的 ML 模型的非线性和动态方法在全部指标上都被证实更具回报和更高效（除了周转率）。这凸显了提拔树算法、正则化以及用于训练模型的大型特征数据集的附加代价。
7.6 结论

在本章中，我们介绍了应用于系统性股票投资的提拔树算法。我们展示了使用特征和标签工程的效率。应用更多条件性并施加更多因果布局使得今世量化方法能够进行准确的恒久预测。这一有见地的发现与最近的品评相抵牾，即基于呆板学习的方法仅实用于预测非常短期的价格颠簸。
我们提供了怎样使用传统的财务特征（如估值和盈利能力指标）、价格动量、风险估计、成交量和活动性特征调解、训练和测试基于呆板学习的模型的引导。我们表明，界定问题是主要使命，我们通过工程化特征和根据投资目的转换标签来办理这个问题。
我们发现，使用一个具有 200 个特征的提拔树算法的天真的等权组合，与简单信号混合的多因素组合相比，平均表现优于 3.1%。我们的结果还表明，基于呆板学习的信号对简单多因素信号是互补的。在股票多因素组合大概面对被大量涌入的风险、大概导致风格股票风险溢价套利的商品化风险的配景下，基于呆板学习的信号可以构成智能贝塔过度消费时代的有效疗法。纵然在最简单的加权方案和实施过程中，信号的动态特性也大概构成一个真正的优势。
参考文献

Ammann, M.，Coqueret, G.，Schade, J.P.（2016）。具有杠杆约束的基于特征的投资组合选择。《银行与金融杂志》70：23–37。
Ang, A.（2014）。《资产管理：因子投资的系统方法》。牛津大学出版社。
Arévalo, R.，García, J.，Guijarro, F.，Peris, A.（2017）。一种基于滤波标记模式辨认的动态生意业务规则，用于股票市场价格预测。《应用专家系统》81：177–192。
Ballings, M.，Van den Poel, D.，Hespeels, N.，Gryp, R.（2015）。评估多个分类器对股价方向预测的效果。《应用专家系统》42（20）：7046–7056。
Banz, R.W.（1981）。平凡股的回报与市值的关系。金融经济学杂志 9（1）：3–18。
Bodnar, T.，Mazur, S.，Okhrin, Y.（2017）。全球最小方差组合的贝叶斯估计。《欧洲运筹学杂志》256（1）：292–307。
Brandt, M.W.，Santa-Clara, P.，Valkanov, R.（2009）。参数化组合策略：利用股票收益横截面中的特征。《金融研究评论》22（9）：
3411–3447。
Chen, T.，Guestrin, C.（2016）。XGBoost：一种可扩展的树提拔系统。在：《第 22 届 ACM SIGKDD 国际知识发现与数据挖掘会议论文集》785––794。ACM。
Daniel, K.，Titman, S.（1997）。有关股票回报横截面变化特征的证据。《金融学杂志》52（1）：1–33。
Fama, E.F.和 French, K.R.（1992）。股票预期收益的横截面。《金融杂志》47（2）：427–465。
Fama, E.F.和 French, K.R.（1993）。股票和债券回报的共同风险因素。
金融经济学杂志 33（1）：3–56。
费舍尔（Fischer, T.）和克劳斯（Krauss, C.）（2018）。利用是非期影象网络进行金融市场预测的深度学习。欧洲运营研究杂志 270：654––669。
弗洛因德（Freund, Y.）和施皮尔（Schapire, R.E.）（1997）。在线学习的决策理论概括及其在增强中的应用。盘算机与系统科学杂志 55（1）：119–139。
弗里德曼（Friedman, J.）、哈斯蒂（Hastie, T.）、蒂布什拉尼（Tibshirani, R.）（2000）。加法逻辑回归：对提拔的统计视角（附讨论和作者的答辩）。统计年鉴 28（2）：
337–407。
弗里德曼（Friedman, J.）（2001）。贪心函数近似：梯度提拔机。统计年鉴 1189–1232。
弗里德曼（Friedman, J.）、哈斯蒂（Hastie, T.）、蒂布什拉尼（Tibshirani, R.）（2009）。统计学习的要素，第 2 版。
斯普林格。
格林（Green, J.）、汉德（Hand, J.R.）和张（Zhang, X.F.）（2013）。收益预测信号的超级视图。会计研究评论 18（3）：692–730。
哈维（Harvey, C.R.）、刘（Liu, Y.）、朱（Zhu, H.）（2016）。 . . . 以及预期收益的横截面。金融研究评论 29（1）：5–68。
伊尔曼（Ilmanen, A.）（2011）。预期收益：投资者收获市场回报的指南。
约翰·威利。
杰加迪什（Jegadeesh, N.）和提特曼（Titman, S.）（1993）。买赢家和卖输家的回报：对股票市场效率的影响。金融杂志 48（1）：65–91。
杰加迪什（Jegadeesh, N.）和提特曼（Titman, S.）（2001）。动量策略的盈利能力：替换表明的评估。金融杂志 56（2）：699–720。
卡恩（Kahn, R.N.）和莱蒙（Lemmon, M.）（2016）。资产管理者的困境：智能贝塔怎样颠覆投资管理行业。金融分析师杂志 72（1）：15–20。
克劳斯（Krauss, C.）、多（Do, X.A.）和赫克（Huck, N.）（2017）。深度神经网络、梯度提拔树、随机森林：标准普尔 500 指数上的统计套利。欧洲运营研究杂志 259（2）：689–702。
麦克莱恩（McLean, R.D.）和庞蒂夫（Pontiff, J.）（2016）。学术研究是否破坏了股票回报的可预测性？
金融杂志 71（1）：5–32。
尼尔（Nair, B.B.）、库马尔（Kumar, P.S.）、萨克西维尔（Sakthivel, N.R.）和维平（Vipin, U.）（2017）。聚类股价时间序列数据以生成股票生意业务发起：一项实证研究。专家系统与应用 70：20–36。
帕特尔（Patel, J.）、沙阿（Shah, S.）、萨卡尔（Thakkar, P.）和科特查（Kotecha, K.）（2015）。利用趋势确定性数据准备和呆板学习技能预测股票和股价指数的活动。专家系统与应用 42（1）：259–268。
施皮尔（Schapire, R.E.）（1990）。弱可学习性的强度。呆板学习 5（2）：197–227。史巴拉曼扬（Subrahmanyam, A.）（2010）。预期股票收益的横截面：我们从过去二十五年的研究中学到了什么？欧洲金融管理 16（1）：27–42。
范·迪克（Van Dijk, M.A.）（2011）。尺寸已颠末期了吗？对股票回报尺寸效应的审阅。银行与金融杂志 35（12）：3263–3274。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

大数据、呆板学习与量化投资（一）

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云