AI 处理的引入影响了投资团队的组织布局,随后影响了投资流程。以股票投资组合司理为例(基础股票选择者),负责投资组合中的股票的终极决定权。他过去依赖于研究团队、执行生意业务员以及他自己对他所生意业务市场的理解的输入。分析师每每在利基行业拥有多年的履历,在行业联系人中拥有广泛的网络,并多次与关键的 C 级高管交谈过。分析师的使命已渐渐转向创建和维护复杂模型、与高管交谈、记载、设置关键日期和关照警报等。根本上,已经创建了一个迭代的决策过程,例如:
只管量化基金,尤其是系统性对冲基金,一直是替换数据的早期采用者,但自由裁量和根本管理者也开始担当替换数据。这种转向“量化根本”投资反映了市场上其他一些趋势,包罗资金流向量化策略,远离股票多空策略,以及机械“智能β”或风险溢价投资风格的更大担当度。
量化根本法采用多种形式,包罗传统量化技能的使用增长,如回测、风险管理和基于根本分析的投资组合中的投资组合归因。在这里,我们将主要关注自由裁量分析师和投资组合司理对替换数据的采用。
量化基础的增加意味着以前在数据科学方面履历有限的基金将需要相识一些定量研究的根本原理。挑战在于将这些广泛的数据驱动方法与一直夸大深度而不是广度的投资哲学相协调。格林奥尔德(1989 年)在《主动管理的根本法则》中捕获了这一区别:
I R = I C ∗ N IR=IC*{\sqrt{N}} IR=IC∗N
在这里,司理的信息比率(IR),即其风险调解后的主动回报的衡量标准,被显示为两个因素的函数:
在本节中,我们创建在前面形貌的泛化案例之上。我们枚举了一些大数据和替换数据的示例,这些数据对生意业务员大概很告急。随后,我们形貌了实用于金融应用的布局化数据集,这些数据集可以被视为替换数据。这些数据集通常对人类生意业务员和呆板可读形式都可用。通常,这种呆板可读数据可以通过 API 实时分发给盘算机进行摄取,大概以较低频率(例如日末)以扁平文件的形式分发,这更适合恒久投资者。
5.4.2.1 大数据
Alberg,J.和 Lipton,Z.C.(2017)。通过预测公司根本面改进基于因子的量化投资。摘自 arxiv.org:https://arxiv.org/abs/1711.04837 Amen,S.(2013)。*Beta’em Up:外汇市场中的市场β是什么?*摘自 SSRN:https://papers
.ssrn.com/sol3/papers.cfm?abstract_id=2439854 Amen, S. (2016). 生意业务焦虑 - 使用 Investopedia 的专有数据集进行风险生意业务。
伦敦:Cuemacro。
Amen, S. (2018). Robo-News Reader. 伦敦:Cuemacro。
Clark, I. and Amen, S. (2017). 从 GBPUSD 风险逆转中推断分布及对英国脱欧情景的影响。Retrieved from MDPI: http://www.mdpi.com/2227-9091/5/3/35/
pdf Dixon, M.F., Polson, N.G. and Sokolov, V.O. (2017). 用于时空建模的深度学习:动态交通流量和高频生意业务。Retrieved from arxiv.org: https://
arxiv.org/abs/1705.09851 Fortado, L., Wigglesworth, R. and Scannell, K. (2017). 对数据挖掘的对冲基金的黄金时代。Retrieved from FT: https://www.ft.com/content/d86ad460-8802-11e7-bf50-e1c239b45787 Gibbs, S. (2017). AlphaZero AI beats champion chess program after teaching itself in four hours.
Retrieved from Guardian: https://www.theguardian.com/technology/2017/dec/07/alphazerogoogle-deepmind-ai-beats-champion-program-teaching-itself-to-play-four-hours IDC. (2017). 数据时代 2025。Retrieved from Seagate: https://www.seagate.com/files/wwwcontent/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf Kenton, W. (2017). Investopedia 焦虑指数。 Retrieved from Investopedia: https://www
.investopedia.com/anxiety-index-explained Roof, K. (2016). StockTwits raises funding, gets new CEO. Retrieved from Techcrunch: https://
techcrunch.com/2016/07/06/stocktwits-raises-funding-gets-new-ceo Turner, K. (2017). 这款应用会关照你特朗普是否在推特上提及你投资的公司。
Retrieved from Washington Post: https://www.washingtonpost.com/news/the-switch/wp/
2017/01/07/this-app-will-notify-you-if-trump-tweets-about-a-company-youre-investedin/?utm_term=.2c6d2a89d135
第六章:大即优美:电子收据数据怎样帮助预测公司贩卖额
Giuliano De Rossi,Jakub Kolodziej 和 Gurvinder Brar
6.1 介绍
本节的目的是传达我们预测方法的根本原理。设置如图 6.16 所示:我们的使命是根据管理层发布的引导方针和我们电子邮件收据数据会合的信息来预测第 t 季度的贩卖额。
如图 6.16 所示,财务第 t 季度的实际收入数据在该季度竣事后才可用,通常是在 t+1 季度的中期。使用收据数据集的一个优点是,我们可以在季度竣事后立即生成预测,由于全部样本信息都每周更新。换句话说,我们样本中的用户在第 t 季度购买的全部信息在季度竣事几天后就可用。
另外,我们可以利用频仍的更新,在第 t 季度的数据可用后进行实时预测,由于随着每周购买数据的更新,新的数据变得可用。我们将在本节末尾更详细地表明我们的方法论。
我们假设每个样本是从两个时间点的大总体中抽取的。总体中的个体保持不变:一些个体耗费为零,但没有新用户参加,也没有效户退出。我们还假设,在每个时间点给定分布的参数后,两个期间的支出是独立的,即分布的形状总结了关于消费增长的全部相干信息。
每个样本被假定从具有参数 i 的负指数分布中抽取:
p ( y ∣ λ i ) = λ i e − λ i y p(y\mid\lambda_{i})=\lambda_{i}e^{-\lambda_{i}y} p(y∣λi)=λie−λiy
( 6.1 ) (6.1) (6.1)
p(y ∣ i) = ie−iy (6.1)
指数分布(图 6.18)是一个简单的装备,用于模拟具有严重偏斜分布的正随机变量。实际上,消费者购买的样本将被长尾右侧特征化,这反映了在期间内有少数用户支出非常大的金额。2 在给定参数 1 和 2 的情况下,假设这两个样本是独立抽取的。这相称于假设均值参数的变化总结了在期间 1 和期间 2 之间的总体变化的全部信息。
每个总体的均值是 1/i,这是指数分布的一个特性。
6.4.2.1 先验分布 感兴趣的主要数量是均值的比率 1 2
,其中捕获了从期间 1 到期间 2 购买的平均金额的增长。我们界说 1 = 1/2,并设置如下的匀称先验:3
ϕ 1 ∼ U ( μ ‾ , μ ‾ ) \phi_{1}\sim U(\underline{{{\mu}}},\overline{{{\mu}}}) ϕ1∼U(μ,μ)
( 6.2 ) (6.2) (6.2)
1 ∼ U(, ) (6.2)
其中 和 为存货引导范围的上下界,以季度基础的增长率(加一)表现。我们夸大,先验是不确定的,即我们不在管理范围内的任何其他值内强加任何其他布局。这在图 6.17 中有所说明。
该推导可向作者索取,起首选择了参数 的先验分布,即 Gamma 分布。这是我们对 1 的假设: 1∼Gamma(, )。然后,我们对第 2 时期人口的平均值施加了先验,以考虑存货引导所隐含的增长率范围:
λ 2 − 1 ∣ λ 1 ∼ U ( μ λ 1 , μ ‾ λ 1 ) \lambda_{2}^{-1}\mid\lambda_{1}\sim U\left(\frac{\mu}{\lambda_{1}},\frac{\overline{{{\mu}}}}{\lambda_{1}}\right) λ2−1∣λ1∼U(λ1μ,λ1μ)
其中量 ∕1 可视为时期 1 的平均值乘以增长率,该增长率等于引导范围的下限。
作为替换,我们还考虑了高斯先验和 Datta 和 Ghosh(1996 年)对 1 的不恰当先验。详情可向作者索取。
6.4.2.2 后验分布 本节形貌了我们的收据数据会合参数的分布特征,即平均支出增长率。在推导后验分布时,我们使用了对先验的假设。
(方程(6.2))(Gamma 和匀称)以及似然(方程(6.1))(指数)来推断出给定命据的参数 1 的分布。
可以证实
p ( ϕ 1 ∣ d a t a ) ∝ { ( ϕ 1 s ) α + n ( 1 + ϕ 1 s ) − ( α + 2 n ) if μ ‾ ≤ ϕ 1 ≤ μ ‾ 0 otherwise p(\phi_{1}\mid d a t a)\propto\begin{cases}\left(\frac{\phi_{1}}{s}\right)^{\alpha+n}\left(1+\frac{\phi_{1}}{s}\right)^{-(\alpha+2n)}&\text{if}\underline{{{\mu}}}\leq\phi_{1}\leq\overline{{{\mu}}}\\ 0&\text{otherwise}\end{cases} p(ϕ1∣data)∝⎩ ⎨ ⎧(sϕ1)α+n(1+sϕ1)−(α+2n)0ifμ≤ϕ1≤μotherwise
其中 s = ∑iy2i/( + ∑iy1i)。后验分布在 ≤ 区间内具有
1 ≤ ,一个属于 Pearson 分布家族的众所周知的表达式,而且可以重写为 F 分布的转换。因此,其众数可以明白盘算,而其均值和中位数可以通过数值积分盘算。后验分布如图 6.17 右侧所示。
在实践中,我们可以使用后验分布的众数作为贩卖增长的估计值。我们起首创建每个时期平均支出的估计器:
λ ^ 1 = α + n β + ∑ i y 1 i , λ ^ 2 = n ∑ i y 2 i {\widehat{\lambda}}_{1}={\frac{\alpha+n}{\beta+\sum_{i}y_{1i}}},\quad{\widehat{\lambda}}_{2}={\frac{n}{\sum_{i}y_{2i}}} λ 1=β+∑iy1iα+n,λ 2=∑iy2in
值得注意的是
̂1 只是 1 的后验分布的均值,而
̂2 是第 2 时期样本均值的倒数。然后,增长率的最大后验概率(MAP)估计值为
ϕ ^ 1 M A P = { μ λ ^ 1 / λ ^ 2 if λ ^ 1 / λ ^ 2 < μ λ ^ 1 / λ ^ 2 if μ ≤ λ ^ 1 / λ ^ 2 ≤ μ ‾ μ ‾ if λ ^ 1 / λ ^ 2 > μ ‾ (6.3) \widehat{\phi}_{1\,\mathrm{MAP}}=\begin{cases}\frac{\mu}{\widehat{\lambda}_{1}/\widehat{\lambda}_{2}}&\text{if}\,\widehat{\lambda}_{1}/\widehat{\lambda}_{2}<\mu\\ \widehat{\lambda}_{1}/\widehat{\lambda}_{2}&\text{if}\,\mu\leq\widehat{\lambda}_{1}/\widehat{\lambda}_{2}\leq\overline{\mu}\\ \overline{\mu}&\text{if}\,\widehat{\lambda}_{1}/\widehat{\lambda}_{2}>\overline{\mu}\end{cases}\tag{6.3} ϕ 1MAP=⎩ ⎨ ⎧λ 1/λ 2μλ 1/λ 2μifλ 1/λ 2<μifμ≤λ 1/λ 2≤μifλ 1/λ 2>μ(6.3)
因此,我们可以通过在两个时期的参数估计之比来估计增长率。如果估计值超出了引导中隐含的范围,则我们将取较低或较高边界作为我们的估计。值得注意的是,随着样本量的增加,先验分布对估计的影响每每会消散,即参数和变得无关。
6.4.2.3 我们的样本具有代表性吗? 在本节中,我们介绍了一种简单的调解方法,处理由于抽样偏差大概产生的埋伏失真。Quandl 数据集相干的人口大概与全球客户和埋伏客户的更广泛人口性质差异。此外,正如下一节为亚马逊案例研究所详述的,企业的电子商务部分大概不允许我们就整个业务的贩卖增长得出结论。
季度季候性效应大概是一个问题,由于企业的差异部分大概有非常差异的模式。特殊是电子商务大概会在 12 月和季候性贩卖期间显示出更显着的高峰,这将导致我们高估这些效应的影响。此外,我们很大概捕获到的是倾向于年轻化而且更广泛使用电子商务平台的客户子集,而这些客户不代表整个人口。
一个简单而实用的方法是将从我们的样本中测得的增长率视为与实际感兴趣的变量相干的信号,即全体人口的增长率。形式上,我们可以将其写为
g t = f ( ϕ t ) + ε t g_{t}=f(\phi_{t})+\varepsilon_{t} gt=f(ϕt)+εt
其中,gt 是贩卖季度环比增长率。然后我们可以利用数据拟合一个适当的函数 f,例如通过使用诸如核回归之类的非参数方法。然而,在我们的案例中,由于我们汗青样本的长度极短,我们更倾向于专注于一个考虑到季候性因素的线性模型:
g t = β ′ f t ϕ t + ε t g_{t}=\beta^{\prime}f_{t}\,\phi_{t}+\varepsilon_{t} gt=β′ftϕt+εt
其中是一个 4 × 1 的季度斜率向量,ft 是一个 4 × 1 的向量,根据时间索引 t 指示的季度选择正确的斜率,即 ft = (f1t, f2t, f3t, f4t)
′
和
f q t = { 1 0 f_{q t}=\left\{\begin{array}{l}{{1}}\\ {{0}}\end{array}\right. fqt={10
i f t = 4 k + q f o r s o m e k ∈ N o t h e r w i s e \begin{array}{l}{{i f t=4k+q\,\,\,f o r\,s o m e\,k\in\mathbb{N}}}\\ {{o t h e r w i s e}}\end{array} ift=4k+qforsomek∈Notherwise
产品
′ft 是一个随着时间变化的缩放因子,由于受到季候效应的影响。可以通过回归从数据中估计系数向量。在履历分析中,我们还考虑了一个简单的变体,其中全部 的分量相等。
一旦模型被估计,就可以生成一个颠末偏差校正的大数据预测版本
̂1MAP:
ϕ ~ 1 t M A P = β ′ ^ f t ϕ ^ 1 t M A P \widetilde{\phi}_{1t M A P}=\widehat{\beta^{\prime}}f_{t}\,\widehat{\phi}_{1t M A P} ϕ 1tMAP=β′ ftϕ 1tMAP
( 6.4 ) (6.4) (6.4)
然而,似乎很告急允许季候性组分自己的时间变化。例如,如果公司差异业务的相对告急性发生变化,那么我们可以预期最佳缩放系数也会相应变化。处理这个埋伏问题的一种简单方法是将斜率向量 视为(缓慢)变化的系数。在这种情况下可以使用的流行模型之一是状态空间模型,将系数向量视为随机游走:
g t = β t ′ f t ϕ t + ε t g_{t}=\beta_{t}^{\prime}f_{t}\,\phi_{t}+\varepsilon_{t} gt=βt′ftϕt+εt
β t = β t − 1 + η t \beta_{t}=\beta_{t-1}+\eta_{t} βt=βt−1+ηt
其中 t 和 t 是均值为零、方差为 2 , 方差为 2 的扰动项。该模型可以用先验 0∼N(1, I) 初始化,并通过卡尔曼滤波器平静滑器(KFS)进行估计。参数 2 , 2 和 可以根据数据进行校准。由于我们样本的连续时间有限,我们不再深入探究这个想法。
另一个埋伏的偏倚来源是人口增长。我们的样本不包罗任何活跃用户(即已选择参加 Quandl 数据库并可联系到的用户),但选择不在电子商务平台上购买任何产品。这应该捕获到一般人口水平上用户增长的一个方面,即开始使用该平台的新客户。然而,由出生、死亡和移民引起的美国人口规模和人口构成的变化也大概影响电子商务贩卖的增长。例如,大量移民大概会增加贩卖额。同样,年轻的人口大概更倾向于在线购物。
在我们的分析中,当盘算增长率时故意保持人口恒定,如许我们的结果就不会误以为是应用程序用户的增长导致的。鉴于大部分收入来自人口增长较低的发达国家,这种影响似乎可以忽略不计,我们决定忽略它。另一种方法是明白建模用户增长,并将其添加到从样本中得到的贩卖增长的预测中。
6.5 实时预测 6.5.1 我们的布局时间序列模型
其中It,n是一个不规则成分,捕获例如亚马逊的prime日对贩卖的影响,Λn 是季候性成分,而Mt,n是捕获周具有不规则连续时间效应的乘数(例如,在 Q1 竣事时的六天星期)。 期望偏差。系数随我们建模的季度而变化(即,Q1 的第一周与 Q4 的第一周差异),但我们只使用下标 t 来保持符号简单。
需要注意的是,假定季候性成分Λn 在差异年份间是恒定的,而prime day的日期和乘数 M
随时间变化(后者是由于闰年)。为了关闭模型,我们施加了限制。
t=1
( I t , n + Λ n M t , n ) = 1 (I_{t,n}+\Lambda_{n}M_{t,n})=1 (It,n+ΛnMt,n)=1
以便
E(Y)可以被视为季度贩卖额的预期总和。
6.5.2 估计与预测
由于模型的乘性特性,我们可以直接从图 6.20 中所示的规范化贩卖系列估计参数,即我们可以使用比率 Yt,n/Yt 进行盘算。 Prime Day 的效应 It 可以通过对平均值进行估算来估计
Prime Day 周的规范化贩卖与没有举行 Prime Day 的同一周的规范化贩卖之间的差异。
由于一年中的天数已知,因此乘数 Mt 是已知的。为了估计季候性组件 Λn,我们使用 KFS 对比率 Yt,n/Yt(在减去不规则组件之后)拟合了一个三次样条曲线。7 亚马逊的估计结果绘制在图 6.21–6.24 中。从图中可以清晰地看出,季候效应在末了一个季度中更加显着。
假设我们已经观察到新季度前 s < 13 周一组客户的每周购买情况,那么我们可以预测整个季度的总数为
Y ^ t ∣ s = ∑ n = 1 s Y t , n ( ∑ n = 1 s ( I t , n + Λ ^ n M t , n ) ) − 1 \hat{Y}_{t|s}=\sum_{n=1}^{s}Y_{t,n}\left(\sum_{n=1}^{s}(I_{t,n}+\hat{\Lambda}_{n}M_{t,n})\right)^{-1} Y^t∣s=n=1∑sYt,n(n=1∑s(It,n+Λ^nMt,n))−1
季度增长率随后可以使用前一节介绍的方法进行预测。
6.6 案例研究:Http://Amazon.Com 贩卖 6.6.1 配景
一个既直观又有充分文献支持的事实是,公司在股票市场上的表现受到它们某些核心特征的驱动。在他们的开创性文章中,法玛和法伦奇(1992)表明,具有较高账面市值比的公司显着优于那些具有较低账面市值比的公司。他们还报告说,小公司的回报每每高于大公司的回报。后来,杰格迪什和提特曼
(1993, 2001) 构建了非常盈利的(动量)投资组合,通过购买表现优异的股票和做空表现不佳的股票。
此类发现导致了所谓的因子指数的构建,投资者购买表现高于平均水平的股票并卖出低于平均水平的股票。关于这些非常的文献非常庞大,而且有自己的元研究(例如见 Subrahmanyam 2010; Green et al. 2013; Harvey et al. 2016)。
2016)。2 这是否源于真正广泛(和定价)的影响股票回报横截面的因素(这是法玛和法伦奇 1993 年启动的文献流)大概直接来自公司特征,正如丹尼尔和提特曼(1997)提出的那样,这个问题是有争议的。
无论怎样,有很大的共识以为,投资者应该能够从引入公司特征到其资产设置过程中受益。
这些貌似显而易见的发起更为告急,由于智能贝塔指数正在重塑资产管理行业(Kahn and Lemmon 2016)。除了简单的投资组合构建过程外,3 出现了更复杂的方法,例如 Brandt et al. (2009) 和 Ammann et al. (2016) 中所述。
人工智能(AI)的崛起,特殊是呆板学习(ML)在无关范畴(盘算机视觉、翻译等)的应用,已经影响了量化管理者怎样处理手头全部数据的方式。最近的贡献包罗贝叶斯推理(Bodnar et al. 2017)、旗形图案辨认(Arévalo et al. 2017)、聚类(Nair et al. 2017)、随机森林、提拔树和神经网络(Ballings et al. 2015; Patel et al. 2015; Krauss et al. 2017)以致是循环神经网络(Fischer and Krauss 2018)等技能。
这些文章的限制在于预测变量通常仅限于价格数据或大概是技能数据。这是次优的,由于正如资产定价文献已经证实的那样,另有许多其他可作为表明变量的候选因素。
在本章中,我们发起充分利用 ML 总体和提拔树特殊是其优势,例如非线性,正则化和良好的泛化结果,以及随着大量数据的增加而良好的扩展性。本文的贡献与 Ballings 等人的工作(2015 年)精神上最靠近。两者之间的主要区别在于标签过程的复杂性:Ballings 等人(2015 年)只考虑价格方向,而我们采用更布局化的方法。
本章的组织如下。在第 7.2 节中,我们对提拔树进行了略微技能性的介绍。第 7.3 节专门介绍数据和协议,将介绍数据集的构建,包罗特征和标签工程,我们将在随后的章节中使用的协议以及通过盘算机科学界创建的严格协议进行 ML 的校准。
7.2 提拔树初探
本节专门介绍决策树和提拔树的自包含且公道技能性的介绍。有关更多详细信息,请参阅 Friedman 等人(2009 年)的第九章和第十章。
我们考虑一个被分成两部分的数据库:表明变量,聚集在矩阵 x 中,以及我们的目的变量,为简单起见,我们假设它是一个向量,y。设 T 为数据中的出现次数,K 为表明变量的数量:矩阵 x = xt,k 的维度为(T× K)。因此,我们将 xt 记为包含出现 t 的全部字段的 K 值向量。
树的目的是将数据(即(x,y)的集合)分割成尽大概相似的簇。如果 y 是一个数值变量,这意味着淘汰簇内的方差;如果是一个分类变量,则意味着淘汰簇的’不纯度’(我们寻求一个显着占优势的类)。
为了简化演示,我们起首处理回归树。在树的根部,变量 j 的最佳分割 s 是如许的,即根据该变量形成的两个簇的 y 的总方差最小:
V j s = ∑ t = 1 T 1 { x t , k > s } ( y t − μ j + ) 2 + ∑ t = 1 T 1 { x t , k ≤ s } ( y t − μ j − ) 2 , V_{j}^{s}=\sum_{t=1}^{T}{\bf1}_{\{x_{t,k}>s\}}(y_{t}-\mu_{j}^{+})^{2}+\sum_{t=1}^{T}{\bf1}_{\{x_{t,k}\leq s\}}(y_{t}-\mu_{j}^{-})^{2}, Vjs=t=1∑T1{xt,k>s}(yt−μj+)2+t=1∑T1{xt,k≤s}(yt−μj−)2,
其中 μ j + \mu_{j}^{+} μj+和 μ j − \mu_{j}^{-} μj−是
其中+j 和−j 是簇内平均值:
如今我们更深入地指定加法方法。让我们从一个拟合的树开始,然后让我们在其上“叠加”另一棵树,以减小第一棵树的偏差(例如,通过将新树拟合到残差)。让我们称第一棵树为 T1。
第二棵树 T2 是按以下方式构建的:T2(xt) = T1(xt)+2f2(xt),其中 2 和 f2 被选择为使 T2 最小化损失函数(例如总方差或加权交织熵的加权和)。该过程可以恣意次迭代,固然:
T m ( x t ) = T m − 1 ( x t ) + γ m f m ( x t ) . T_{m}(x_{t})=T_{m-1}(x_{t})+\gamma_{m}f_{m}(x_{t}). Tm(xt)=Tm−1(xt)+γmfm(xt).
真正的挑战显然是找到最优的 m 和 fm。 最近的方法 4 使用基于梯度的技能办理了这个问题。 下面,我们形貌了 XGBoost 背后的算法(Chen 和 Guestrin 2016)。 对于每个发生的情况,该方法归结为盘算来自差异树的预测的加权和。
我们从一些符号开始。 我们将 ̂ym 写成过程的第 m 次迭代的预测。 L 是损失函数,例如回归树的加权方差或多类分类的加权交织熵。 我们盼望最小化的目的是以下内容:
Λ m = ∑ t = 1 T L ( y t , y ^ t m + f m ( x t ) ) + Ω ( f m ) , \Lambda^{m}=\sum_{t=1}^{T}L(y_{t},\hat{y}_{t}^{m}+f^{m}(x_{t}))+\Omega(f^{m}), Λm=t=1∑TL(yt,y^tm+fm(xt))+Ω(fm),
其中 f m 是我们正在寻找的函数(在这里,是树)。 (f m) 是一个正则化项,用于处罚树的复杂性。 我们用 q 抽象地表现 f m 的布局
(节点/分裂)。 另外,我们将叶子的数量设置为 J,没有损失一般性。
和它们的权重(在终极加权和中)为 wj。 假设对于 (f m) 采用 L2 形式,并使用关于 ̂ymt 的 L 的二阶泰勒展开,目的简化为近似形式
Λ ~ m = ∑ t = 1 T [ g i f m ( x t ) + 1 2 h i f m ( x t ) 2 ] + λ 2 ∑ j = 1 J w j 2 , \widetilde{\Lambda}^{m}=\sum_{t=1}^{T}\left[g_{i}f^{m}(x_{t})+\frac{1}{2}h_{i}f^{m}(x_{t})^{2}\right]+\frac{\lambda}{2}\sum_{j=1}^{J}w_{j}^{2}, Λ m=t=1∑T[gifm(xt)+21hifm(xt)2]+2λj=1∑Jwj2,
其中 gi 和 hi 对应于泰勒展开中的前两个导数。 如果我们界说叶子号 j 的实例集:Ij = {i ∣ q(xt) = j},那么
Λ ~ m = ∑ j = 1 J [ w j ∑ k ∈ I j g k + w j 2 2 ( ∑ k ∈ I j b k + λ ) ] , \widetilde{\Lambda}^{m}=\sum_{j=1}^{J}\left[w_{j}\sum_{k\in I_{j}}g_{k}+\frac{w_{j}^{2}}{2}\left(\sum_{k\in I_{j}}b_{k}+\lambda\right)\right], Λ m=j=1∑J wjk∈Ij∑gk+2wj2 k∈Ij∑bk+λ ,
而且对于每个给定的叶子,最小化的权重是:
w j ∗ = − ∑ k ∈ I j g k ∑ k ∈ I j b k + λ . w_{j}^{*}=-\frac{\sum_{k\in I_{j}}g_{k}}{\sum_{k\in I_{j}}b_{k}+\lambda}. wj∗=−∑k∈Ijbk+λ∑k∈Ijgk.
然后的问题是找到一个符合的树布局,这通常通过一些贪心算法来执行。 注意,在上述权重中,梯度位于分子上,这在给定负号时似乎很直观:按照惯例,算法朝相反的方向前进。 末了,可以参加改进以进一步增强算法。 其中一种大概性是紧缩。 其背后的想法是全面学习大概会使优化朝着正确的方向,但是太远了。
因此,新增加的树可以稍微被因子稀释,这为未来的树留下了更多的空间:
Φ m ( x t ) = T m − 1 \mathbf{\Phi}_{m}(\mathbf{x}_{t})=T_{m-1} Φm(xt)=Tm−1
Tm(xt) = Tm−1(xt) + mfm(xt).
另一种大概性是子采样,我们参考原始贡献以相识有关此主题的更多详细信息。
7.3 数据和协议
本节形貌了我们的 ML 模型使用的数据和实证协议。 我们专注于美国股票,以避免处理欧洲或全球股票中大概出现的差异货币和国家。 我们还选择了美国股票的宇宙,由于其财务指标的覆盖范围更广,相对效率更高。
因此,我们将术语“特征”或因变量互换使用,以表达股票特征。在本节中,我们将表明已执行的特征转换,以使每个特征线性化,并以相同的单位表达它们(纵然 XGBoost 和树回归设计用于处理非归一化变量)。
数据
在基于 ML 的金融应用的大部分研究中,由于缺乏经济框架和不切实际或不明白的目的,例如寻找“最佳股票”,而失败。相反,我们的目的更为公道,由于我们寻求预测极端行为,并在每个板块中挑选出优质股票和最差股票,并将其表现为概率,以便对全面的股票横截面进行排序。
我们“工程化”了标签(未来回报)和特征,以便为算法提供更具因果关系的股票市场表现布局。
再次,我们摆脱了传统方法,该方法试图从过去的价格或短期回报推断未来的表现。我们将根本、风险、成交量和动量等基于信号的特征设为我们的特征。每个特征和标签都以 z 分数表现,然后转换为百分位数,以便在结果分析部分进行比较。
遵循古老的量化格言“垃圾进,垃圾出”,我们尽大概地对特征施加一些布局。
以同样的方式,我们通过次序进行一些布局:
我们盼望对横截面的顶部和底部部分的函数进行近似。通过如许做,我们盼望对表现良好/不良好的股票有一个清晰的分层表现。
我们界说 Yi1 为股票 i 在一年后的一段时间内表现优于其部门 S 的概率。因此,Yi0 = 1 − Yi1 将是股票 i 在一年后表现不及其部门的概率。Yi1 作为我们分类使命的主要输入。我们在算法中处理的标签如下:
y i = { 1 i f Y 0 i ≥ 0.5 0 i f Y 0 i < 0.5 y^{i}=\left\{\begin{array}{l l}{{1\ i f\ Y_{0}^{i}\geq0.5}}\\ {{0\ i f\ Y_{0}^{i}<0.5}}\end{array}\right. yi={1 if Y0i≥0.50 if Y0i<0.5
因此,这个变量跟踪相应的股票是否有大概
表现良好。在下一小节中,我们将重点关注我们依赖于来预测 yi 的表明变量。
7.3.3 使用的变量/特征