机器学习(machine learning)在经济学领域是否有应用前景?

2016年8月3日 | By News | Filed in: 未分类.

Source: http://www.zhihu.com/question/37870042/answer/114167050?utm_campaign=rss&utm_medium=rss&utm_source=rss&utm_content=title

机器学习在经济学领域最大的应用前景必然是量化投资。基于大数据和机器学习的互联网征信固然重要,但毕竟只是一个支持性的领域,不能直接产生收益。基于大数据和机器学习的宏观经济分析也很重要,但也只是提供决策建议。又有什么能比机器学习直接影响投资决策,直接控制几十亿甚至上百亿的资金更有吸引力的呢?

前段时间去对外经贸大学做过一次分享,介绍了国内几只大数据基金的框架和原理,已经算得上机器学习和大数据在公募量化投资领域第一步的尝试,再次跟大家分享出来,希望大家能体会一下机器学习在量化投资的应用前景。

一、模型框架

第一张介绍了传统量化多因子选股模型个部分的组成,以及对应的机器学习工程的各个阶段。

  • 全部A股:样本空间
  • 全部A股到选样空间:ETL过程
  • 选样空间到初筛股票池:基于规则的样本过滤
  • 多因子提取:特征工程
  • 量化引擎:模型构建与训练
  • 量化引擎到指数成分股:模型应用

可以看到多因子选股模型已经是一套比较完备的机器学习系统了,在各个阶段,使用不同的模型和算法,就成为了不同的量化模型。这里着重介绍一下特征工程阶段所选的特征,传统的多因子模型所采用的因子主要包括两大类:

  • 财务因子(市盈率、市净率、市销率、资产市值比、主营业务收入增长率、净利润增长率、EPS 增长率、总资产增长率等)
  • 市场驱动因子(选取短期收益率、长期收益率、特定波动率、交易量变化、自由流通市值)。

二、大数据基金的特点

大数据基金对于机器学习和大数据进行了进一步的应用,主要也在于特征工程这一步,区别于传统特征工程中仅采用“财务因子”和“市场驱动因子”,大数据因子的范围非常广泛,可以说只要有能够量化的影响一只股票的因素,都可以抽象成大数据因子。

下面就给大家列一下国内目前几只大数据基金采用的非常有意思的特征:

  • 淘宝大数据100

基于淘宝相关行业的选样空间,博时基金与蚂蚁金服生成了“聚源电商大数据因子”用于多因子量化模型的选股。其中支付宝金融信息服务平台提供网上消费类统计型趋势特征数据。根据所得行业投研指标,综合考察行业的景气度,包括:成长、价格、供需情况等,得到行业景气度排名。进而根据景气度对行业内股票给予相应评分,得到聚源电商大数据因子得分。

  • 百发100指数——搜索因子

对样本空间的股票分别计算最近一个月的搜索总量和搜索增量,分别记为总量因子和增量因子;对搜索总量因子和增量因子构建因子分析模型,计算每期个股的综合得分,记为搜索因子;

  • 雪球智选大数据100——雪球热度因子

首先,根据第二步得到的雪球智选组合,计算待选样本的智选组合覆盖度;其次,根据个股的智选组合覆盖度,对股票给予相应评分,记为个股的雪球热度因子得分。

  • 南方新浪大数据——新浪大数据因子

新浪财经频道下的页面点击量,微博的正负面文章报道、新闻报道影响。

  • 银联大数据指数——银联行业大数据因子

基于银联消费类统计型趋势特征数据经加工得到行业投研指标;其次,根据所得行业投研指标,综合考察行业的景气度,包括:消费金额、交易次数等,得到行业景气度排名;最后,根据景气度对行业内股票给予相应评分,得到行业大数据因子得分。

从上面大数据因子的选择我们就可以看到,这些特征本身都是分值类特征,特征生成的过程就用到了机器学习的模型,而这些因子又作为量化选股模型的输入。

三、量化引擎的选择

对于多因子选股模型来说,量化引擎部分当然就是我们说的机器学习模型了。选股模型既可以是一个回归问题——在最后的成分股中选出得分最高的N支股票;也当然可以是一个分类问题——选出最接近目标的那个股票分类组。所以各种机器学习模型也都各显神通。

  • Adaboost 当然是在这个场景中最直观的模型了,因为各个因子本身就是一个弱分类器,大数据因子更是一个较强的分类器,如何将这些弱分类器融合在一起成为一个强分类器就是Adaboost的使命了。
  • Logistic Regression 这种万能的算法模型当然也是适用的,将每个因子看作一个feature,然后得到一个score这种事情,Logistic Regression是最拿手的,但对于金融数据来说,样本量毕竟太少,更适合解决大样本简单问题的Logistic Regression用在选股这种实际问题中总归还是有点naive。。
  • SVM 作为史上最强分类器,当然是解决这种小样本复杂问题的利器,于是各家的量化选股模型确实有不少采用SVM的。

肯定还有很多人想起DNN,HMM等模型,但很遗憾,稍微分析就可以知道在量化选股这个实际问题上这类模型并不那么适用,还是用在高频、择时、趋势等问题的解决上比较好,在此就不再展开了。

以上的经验有我在解决实际问题的一些积累,更多的还是跟金融行业的同学交流讨论的结果,但更多的技术细节就不便透露了。

说了这么多,我觉得大家肯定能够体会到,机器学习在经济金融领域最激动人心的应用还是在于量化投资,还是那句话,又有什么能比机器学习直接影响投资决策,直接控制几十亿甚至上百亿的资金更有吸引力的呢?

最后还是要做个广告啊,想和我们更多交流,欢迎关注我的微信公众号「科学投资」:kexuetouzi

来源:知乎 www.zhihu.com

作者:王喆

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 48 个回答,查看全部。
延伸阅读:
该如何学习 R 语言?

统计学和计量经济学有什么区别?


Comments are closed here.