首页 > 资讯 >

Quant 4.0:你的量化研究处于哪个时代? 焦点观察

2023-06-14 17:45:45 来源:雪球网

在IDEA最新研究报告中首次提出了Quant 4.0的研究流程,在深度学习不断融入量化研究的时代,非常值得处于量化行业的我们仔细研读。

今天,公众号将与大家一起分享研究报告中量化研究过程的演进。


(资料图)

Quant 1.0

Quant 1.0的特点包括:

在该模式中,数百甚至数千名投资研究人员使用标准化的评估标准、标准化的回测流程和标准化的参数配置,在同一条流水线上工作,从大量的数据中挖掘有效的Alpha因子。这些Alpha挖掘研究者通过提交合格的Alpha因子而获得奖励,这些因子通常具有高回测收益率,高夏普比率,合理的换手率以及与Alpha数据库中现有因子的低相关性。尽管越来越复杂的机器学习因子也被挖掘出来,传统上,每个Alpha因子都是一个数学表达式,表征股票的某种模式,或股票之间的某种关系。典型的因子包括动量因子、均值回归因子、事件驱动因子、量价分布因子、成长因子等。由Alpha研究者提交的许多Alpha因子被组合到投资组合经理的统计模型或机器学习模型中,在适当的风险中和后确定最优的权重。

造成这一现象的原因是策略的市场容量的有限性、发现新的有效阿尔法算法的难度越来越大,甚至是人工智能在策略空间中搜索所有可能性的局限性。

Quant 3.0

与Quant 2.0将更多的研究精力和人力投入到挖掘复杂的Alpha因子上不同,Quant 3.0更注重深度学习建模。在使用相对简单的因子下,深度学习仍然有潜力通过其强大的端到端学习能力和灵活的模型拟合能力,学习出一个表现与Quant2.0一样好的预测模型。在Quant 3.0中,Alpha挖掘的人力成本至少部分被算力成本所取代,特别是对于昂贵的GPU服务器。但总的来说,从长远来看,这是一种更有效的量化研究方式。

尽管Quant 3.0在高频股票和期货交易等策略场景中已经证明了它的成功,但它有三个主要局限性

1、一般来说,构建一个好用的深度学习模型是非常耗时的。这其中包括繁重的网络架构设计和模型超参数调优工作,以及非常耗时耗力的交易端模型部署和维护工作。

2、解释一个深度学习模型是一个挑战,这对于那些非常关心金融市场机制并希望知道盈亏来源的投资者和研究人员来说非常不友好。

3、深度学习需要大量的数据,因此于该模式只适用于高频交易或至少具有大广度的中等频率的横截面alpha策略。这种现象阻碍了深度学习技术在低频率投资场景中的应用,如价值投资、基本面CTA和全球宏观策略。

Quant 4.0

下图蓝色部分为传统量化研究的流程,其中包括数据预处理、因子挖掘、建模、组合优化、执行及风险分析。

数据预处理通常是量化研究的第一步。原始数据可能存在许多问题。最常见的就是数据缺失的问题。虽然传统的方法可以用来估计和填补缺失的记录,但我们必须避免在输入过程中使用未来的信息。其次,金融数据包含极端值和异常值,这些异常值可能来自错误记录、数据存储问题、数据传输问题或极端市场,这些异常值可能导致投资决策中的风险偏差。异常值可以通过数据winsorization方法消除,该方法将极值限制在一定的每百分位数范围内,但我们必须注意到,一些异常值实际上是量化交易的强烈信号,而不是噪声,并且必须在数据预处理期间将两者区分开来。第三,许多金融数据,如新闻事件数据,数据覆盖率低,更新频率不规律。第四,不同的数据特征在取值范围上有很大的差异,因此在建模中一些“大”的特征可能会支配“小”的特征。

因此,采用数据标准化方法对特征范围进行规范化。为了减少信息的丢失,我们必须注意标准化数据的方法。

因子挖掘是特征工程的一项任务,它使用金融和经济领域的知识从原始数据中设计、搜索或提取因子。通常,一个较大的因子值表示一个更重要的交易信号。因子挖掘的动机是从原始数据中发现市场预测的信号,提高下游建模任务的质量。传统上,因子可以用公式或基于规则的表达式来表示。

建模是指使用因子构建统计或机器学习模型并预测市场趋势、资产价格变动、最佳交易时间或最有/最没有价值的资产的任务。模型的选择必须考虑许多因素,如预测精度、模型可解释性、模型鲁棒性和计算复杂性,并根据最终目标找到最佳方案。特别是,我们必须注意到,大多数统计或机器学习模型并不是专门为金融时间序列开发的,我们必须调整这些模型在量化建模中的应用。首先,金融时间序列预测必须避免使用未来信息,因此我们更倾向于前向验证(随着时间的推移将时间序列分成训练、验证和测试块),而不是模型超参数优化中的交叉验证。

其次,金融时间序列通常是非平稳的,与许多机器学习模型所要求的独立和同分布(i.i.d)假设相去甚远。因此,需要进行数据转换,使数据分布更接近i.i.d.,如果可能的话,看起来更像正态分布。第三,市场风格随时间变化,导致金融时间序列分布的变化。因此,为了使模型适应市场风格的变化,定期对模型进行再训练是必要的。

组合优化的目的是寻找最优的资产配置,获得更高收益和更低风险。预测模型告诉我们买什么或什么时候买/卖,而投资组合优化则指定买/卖多少。一个典型的投资组合优化器试图解决一个约束凸二次规划问题,该问题是由马科维茨的有效前沿理论扩展而来的。该优化问题的关键是如何估计波动率矩阵,当历史数据不够长时,波动矩阵的估计通常是不稳定的,在这种情况下,正则化和因子化等降维技巧有助于提高估计的鲁棒性。

订单执行是一项以最优价格和最小市场影响买卖订单的任务。通常一次买入(或卖出)一大笔订单会将目标资产的价格推向不利的方向(市场受到这一大笔订单的影响),从而增加交易成本。一个广泛使用的解决方案是订单分割,将一个大订单分成许多小订单,以减少市场影响。从最简单的时间加权平均价格(TWAP)和成交量加权平均价格(VWAP)到复杂的强化学习方法,算法交易提供了一系列的数学工具来分割订单,其中最优订单流被建模为一个(部分可观察的)马尔可夫决策过程。

风险分析是量化研究和量化交易不可缺少的一项任务。为了更好地控制量化研究和交易中不必要的和有害的风险,我们必须发现和理解每一个可能的风险暴露。在监控模块中,风险被实时测量,以帮助量化研究人员改进他们的策略。股票交易中最流行的风险模型是BARRA模型,该模型将投资组合的波动性分解为多个预定义风险因子的敞口,包括风格因子(规模、成长性、流动性等)和行业因子。然而,BARRA模型只能解释总波动率的30%左右,其余70%的风险仍然未知。

Quant 4.0的自动化量化研究流程如上图(橙色部分)所示。在本节的以下部分中,我们将集中讨论自动化流程中的三个核心模块:

应用自动化特征工程技术来搜索和评估由元因素产生的重要金融因素。我们将介绍流行的搜索算法,并演示如何设计算法工作流程。量化研究中的特征工程是指从原始数据中提取因子的过程,由于其固有的噪声,很难对其进行有效的模式识别。

在Quant4.0中,我们提出将特征工程作为一个搜索问题,并利用相应的算法生成具有令人满意的大规模回测性能的因子,从而实现因子挖掘过程的自动化。特别是,根据它们的表达形式,我们将因子分类为:

符号因子挖掘可以看作是符号回归的一个特例。传统的符号回归算法通常从给定的操作数和运算符中生成大量的符号表达式,并选择使预定目标函数最大化的符号表达式。下图为一个自动符号因子挖掘的框架,它由四个核心部分组成:操作数空间、运算符空间、搜索算法和评估准则。

操作空间定义了哪些元因子可以用于因子挖掘。元因子是因子构建的基本组成部分。典型的元因子包括基本的价格和成交量信息、行业分类、从限价/订单中提取的基本特征、常见的技术指标、分析师的基本统计数据、财务报告中的重要信号、上市公司的公告和其他研究报告、投资者情绪的情绪信号。

算子空间定义了哪些算子可以在因子挖掘过程中使用。例如,在横截面选股中,操作者可分为构建符号因子的主算子和标准化不同交易环境下因子的后处理算子。主算子可进一步分类为元素级算子(element-wise operator),如()和log();时间序列运算符,如ts_rank()和ts_mean(),分别计算每只股票的排名顺序和平均值;横截面运算符,如rank()和quantile(),在特定交易时间沿横截面计算排名和分位数;分组运算符,如group_rank(),分别计算每组(例如,行业或部门)的排名顺序。后处理操作符用于“微调”生成的因子。典型的后处理算子有标准化算子,如用于异常值处理的winsorization算子和用于统一数据量纲的归一化算子,以及用于风险中性化的算子,用于限制选股范围的分组算子,以及用于控制换手率以降低交易成本的衰减算子。

搜索算法的目的是尽可能高效地搜索和发现有效或合格的因子。生成新因子的一种简单方法是蒙特卡罗(MC)算法,该算法在操作数和操作符空间中随机选取元素,递归地生成符号表达式树。不幸的是,搜索时间可能会随着生成公式的长度和复杂性呈指数增长,并迫使我们考虑更有效的替代方案。第一种选择是马尔可夫链蒙特卡罗(Markov-chain Monte Carlo, MCMC)算法,该算法从后验分布中以重要方式生成采样因子,因此比MC效率更高。第二种选择是遗传规划,它是一种特殊的用于采样和优化树型数据的进化算法。第三种选择是基于梯度的方法,如神经网络,它用连续的非线性函数近似离散的符号公式,沿着梯度方向搜索,比随机搜索效率高得多。

评估标准衡量的是因子的质量。利用回测对所生成因子进行了评价。典型的评价标准包括信息系数(IC)、基于信息系数的信息比率(ICIR)、年化收益率、最大回收量、夏普比率和换手率。此外,通过过滤掉与其他因子高度相关的冗余因素,保持因子之间信息的多样性是非常重要的。

符号因子具有简单易懂的优点,在实践中得到了广泛的应用。然而,它们的表示能力受到操作数和操作符的限制。另一方面,机器学习因子在表示上更灵活,以适应更复杂的非线性关系,因此它们有可能在市场预测中表现得更好。特别是,挖掘机器学习因子是一个拟合神经网络的过程,其中梯度为快速搜索解决方案提供了最佳方向。

机器学习因子也有一些局限性。首先,由于机器学习的黑箱性质,它们通常很难解释和理解。其次,神经网络的梯度搜索可能会卡在局部最优点,导致模型不稳定问题。最后,神经网络由于其灵活性可能会遭受更严重的过拟合,并且由于数据具有极大的噪声,这种情况在量化中会变得更糟。

在本文中,我们关注最先进的深度学习自动化问题,将AutoML技术应用于发现最优深度学习模型,自动选择最合适的模型和最优模型结构,并调整最佳超参数。由于建模中的端到端特性和网络架构问题,该问题更加复杂。深度学习模型的配置包括架构、超参数和目标三部分,它们共同决定了模型的最终性能。传统上,这些配置是手动调优的。在Quant4.0中,它们使用各种AutoML算法进行搜索和优化。一个标准的AutoML系统需要回答以下三个问题:搜索什么(即搜索空间),如何搜索(即搜索算法),以及为什么要搜索(即性能评估)。

给定搜索空间,我们可以使用搜索算法来找到最佳的模型配置。表2列出了各种类型的搜索算法及其相应的任务:网络架构搜索(NAS)、超参数优化(HPO)[83]和训练目标选择(TOS)。

标签:

Quant 4.0:你的量化研究处于哪个时代? 焦点观察

在IDEA最新研究报告中首次提出了Quant4 0的研究流程,在深度学习不断融

2023-06-14

全国碳市场今日收盘价与前一日持平,报57.00元/吨_每日看点

App6月14日消息,“全国碳交易”微信公众号消息,今日全国碳市场碳排放

2023-06-14

市场监管总局:积极推动《消费者权益保护法实施条例》修订

南方财经6月14日电,国家市场监督管理总局登记注册局局长任端平在国新

2023-06-14

我国第一口万米科探井开钻大国深度:向地下一万米挺进 全球滚动

5月30日11时11分,我国第一口万米科探井——深地塔科1井在新疆塔里木盆

2023-06-14

国光电气(688776.SH):人才储备能满足后续发展所需_世界速读

格隆汇6月14日丨有投资者向国光电气688776SH提问据了解公司主营业务生

2023-06-14

突发 天津一男子用烟花爆竹作案 造成三人死亡多人受伤 房屋严重受损

6月13日,晚8时左右天津远翠中里小区里传出一声巨响,13号楼一户居民的

2023-06-14

全球热门:凤凰不夜城:创新文商旅融合业态,打造区域经济增长新引擎!

石家庄市高邑县作为千年古县,其县史最早可追溯至秦朝。而汉光武帝刘秀

2023-06-14

让更多美好在身边发生 静安寺街道发布社区社会工作三年行动计划

年逾八旬的李老伯患有中度阿尔兹海默病,生活起居均由同龄的老伴照顾。

2023-06-14

cssci期刊是什么意思 sci期刊是什么意思

1、SCI期刊IF值是衡量期刊水平的标准。2、它的计算方法为:出版当年之

2023-06-14

全球实时:美联储将维持利率不变 美元指数小幅收跌

今日周三(6月14日),美元指数开盘报103 30,昨收价103 30,截止发稿时

2023-06-14

苏宁易购发布“618”趋势家电榜单,中央空调top5品牌出炉_今日关注

近日,“618”年中大促火热进行,趋势类家电成为最热门商品之一。6月13日

2023-06-14

环球时讯:大行评级 | 摩通:LPR利率料下调 对内银负面影响被存款利率下调所抵销

格隆汇6月14日丨摩通发表报告,预计本月贷款市场报价利率(LPR)将下降10

2023-06-14

环球观察:中央气象台发布暴雨蓝色预警

人民网北京6月14日电(记者杨虞波罗)中央气象台预计,6月14日08时至15日

2023-06-14

武陵飘香酒怎么样?武陵飘香酒怎么样值得买吗? 每日关注

武陵酒是中国十七大名酒之一,于1953年成立,并在1972年推出自主创新研

2023-06-14

榨干电池 等于榨干自己

榨干电池等于榨干自己

2023-06-14

你觉得蝙蝠侠打得过蜘蛛侠吗?

综上所述,蝙蝠侠和蜘蛛侠之间的战斗比拼,实际上就是一种对于机会把握

2023-06-14

环球快资讯丨“母婴级家电认证”已涵盖近20个品类

北京商报讯(记者陶凤王柱力)6月13日,中家院(北京)检测认证有限公

2023-06-14

6月13日基金净值:广发招享混合A最新净值1.2682,涨0.11%|速讯

6月13日,广发招享混合A最新单位净值为1 2682元,累计净值为1 2682元,

2023-06-14

唐伯虎一头扎进庐山

《庐山图》中展现的那种略带阴沉的格调,其实也是他自己内心的一种真实

2023-06-14

qq分组图案符号(qq分组符号简单干净-当前热讯

QQ分组图案符号QQ分组图案符号是一种在QQ聊天软件中常用的表情符号,可

2023-06-14

霍秀秀是好的还是坏的(霍秀秀结局)

来为大家解答以下的问题,秀秀是好的还是坏的,霍秀秀结局这个很多人还

2023-06-14

江苏大学教务处_江苏大学视听说网址

1、密我。2、我告诉你。

2023-06-14

世界观察:哈萨克斯坦今年前5个月GDP增长4.5%

中新社阿斯塔纳6月13日电当地时间13日,据哈萨克斯坦总理府网站消息,

2023-06-14

特写:大山里的足球“超级周末”

新华社贵阳6月13日电(记者罗羽)夜幕降临、华灯初上,以一片绿茵场为

2023-06-14

IPO门槛实质提高还是强化定位?中介、创投这么说 快消息

随着全面注册制的实施,今年以来的IPO市场正在发生着一些变化。第一财

2023-06-13

河南明日调整油价:92号汽油7.49元/升,95号汽油8元/升_环球速看

光棍影院特片网_特片网你们能打开吗

多个保险能一起报销吗?

记者:巴萨尚未正式报价京多安,曼城提供1+1合同-世界即时

凌乱美是什么风格_凌乱美 环球新动态

短讯!“最美江景赛道” 市民跑者盛赞“吉马”

2023北京安博会,精华隆创新驱动与行业一起腾飞

热点评!2023杭州J2期第十二次小客车指标个人阶梯摇号的公告

东风日产新逍客高速失控 4S店仅做系统升级引车主担忧_当前讯息

天天快讯:学剪辑去哪里学比较好?学剪辑的方式和优缺点

华夏银行:聘任高波为副行长_环球观点

视讯!【新华解读】职业教育产教融合重磅政策出台 将通过“试点、政策、资金”三方面赋能

全球热文:大富翁哪个版本最好玩最经典?_大富翁 游戏哪个版本最好玩

微动态丨2023年5月郑州商品交易所硅铁期货成交量、成交金额及成交均价统计

世界播报:滴滴货运上线 快送业务已接入达达、闪送、UU跑腿三家公司

全球观焦点:神探狄仁杰第三部下载观看_神探狄仁杰第三部下载

“禁止婚外情和出轨,否则辞退”,公司最新回应 天天快播

新水浒多少集众人敬酒_新水浒多少集|世界焦点

天天观焦点:李斌是时候担忧蔚来的未来了

全球报道:吴京带杰森去外滩吃水饺喝二锅头,真牛啊!杰森穿衬衣,更硬汉

胃气下行的中成药_天天看点

高质量发展调研行|唱响海洋牧歌——广东“蓝色经济”发展驶入快车道

中远海发:6月12日融资买入1232.06万元,融资融券余额6.55亿元

全球资讯:生成式AI热潮让云计算收入猛增,甲骨文股价创历史新高

环球滚动:五大早期文明首次“聚首” 二里头出土文物讲述“最早中国”

Copyright @  2015-2022 太平洋家电网版权所有  备案号: 豫ICP备2022016495号-17   联系邮箱:93 96 74 66 9@qq.com