“全世界只有我知道”的自豪。
Elric,本科毕业于清华大学数理基科班,博士毕业于UC Berkeley,方向为Biostatistics。现为宽德投资机器学习研究员。
在统计学领域流传一句名言:“The best thing about being a statistician is that you get to play in everyone’s backyard.(作为一名统计学家,最棒的事情就是你可以在每个人的后院玩耍。)”作为普适性极强的学科,统计学给了跨专业发展的人以自由,他们可以在经济学的后院飞驰,也可以在量化的后院摘星。
Elric选专业时,正迎来数据极速膨胀的时代,统计学作为数据科学中的重要部分,用途日趋广泛。“我听了归国老师们的几场讲座,也和在UCLA交换时的导师交流许多,尤其是了解到统计学与大热的机器学习间千丝万缕的联系,感到十分有趣和实用。”
在UCB读生物统计的几年,Elric将这些时间当作筹码投资给自己,一方面训练做学术研究必备的科学素质,另一方面在前沿领域深入探索。多重假设检验、贝叶斯模型、生物信息、药物基因组、图神经网络、非凸性学习理论,他的研究范围从统计学、计算生物学延伸到了机器学习。
从海量的数据中探究未知规律,挖掘背后的小秘密,需要保持对科研的严谨与尊重。
直至今天,对思维严谨性的训练依旧令Elric受益良多,尽管过程非常痛苦。一次在做和疾病诊断相关的课题时,导师就“Early Decision”的用法和Elric反复推敲了很久,因为一旦应用到临床中,用词上细微的差别将引发巨大的歧义,而歧义将使医生对患者病症的早晚期作出误判。“我的导师对学术要求非常高,还记得我的一篇Paper全文至少改动过三十多遍,从定稿到审稿经历了漫长的时间,严谨度直接被拉满。” 日常与数据、模型打交道,其中的欢欣鼓舞和痛苦难捱,都推动Elric的研究向着更开阔处前行。
读书时,Elric的实习集中在互联网领域,也曾将互联网作为自己职业的首选。他曾在阿里、腾讯、Amazon(美)等大厂实习,做过多目标学习下的小程序排名、研究过便携式网络结构、为游戏建立推荐工具。
在互联网做数据科学,通常会聚焦在单一场景下的预测模型。比如,Elric曾在微软做用户的流动性分析,他需要做模型来预测哪些大客户会离开Azure Storage,推测客户在一两个月内流失的概率,这些流失概率将被统计进数据库,协助PM团队进行决策。
在互联网中兜兜转转,Elric对其业内生态有了粗略的认识。虽然不同的商业应用中的数据、内容、目的等大相径庭,但用到的模型、训练方式相似,所以互联网中使用的任务工具能够在不同场景间迁移。
恰如他尊崇的数学家张益唐教授所说:“他们说我是大海捞针的人,但是我这么多年针没捞到,最后大海是什么样子却全都搞清楚了。”
走出校园前的实习是证伪的过程,在不停地尝试中做排除法,在新的机遇中发掘自身的可能性。在互联网的海里游了一圈,Elric却没能找到想靠岸的岛。“虽然在当时互联网寒冬还没有来,整个行业都是蓬勃向上的状态,但我个人能做的事情十分有限。在技术完备、发展成熟的小组固然能少走些弯路,但个体的影响力也随之降低。”
时代的需求像红绿灯一样引导人才有序地流动,随着技术革新的加快,越来越多的金融机构采用机器学习算法来预测市场趋势和选择投资组合。目前,对机器学习(如Kernel模型、树模型等方法)和深度学习的研究与应用成为金融机构,尤其是量化行业的“兵家”必争之地。
从互联网到量化,Elric依然聚焦于数据挖掘、设计模型方案和策略,运用机器学习的方法破解金融市场的各种谜题,在海量数据中发现高维度、非线性的联系。量化给了他更广阔的展示天地,“宽德有很多独立数据源、超大规模的计算资源和强大算力支持,为我们倾尽所有打造了优越的工作环境。比如给我配备了多台A100的机器和多张显卡,我不用像学生时代一样担心资源不够用,工作效率得以大幅提升。”
量化研究也给了Elric强烈的反馈机制,在广阔的金融市场中,哪怕小小的突破都有可能产生巨大效益,金融数据的低信噪比,也对模型提出了更精细的要求。要实现这样的突破,就要在细节处多下苦功夫,可以从系统的学习和研究着手,可以在处理事务性工作中成长,也可以在一次次调参中获得启发。“研究遇到瓶颈的时候,同事推荐我去读读PyTorch Geometric的代码,我仔细琢磨后,对GNN刻画股票关系方面有了新思路。此外,我还通过对数据更细致的观察,重新定义了关系图。这两次努力,都让我在股票收益预测上取得了不错的提升。”
森重文曾说,“当你解决了棘手的问题,一旦有了这样的经验就会上瘾,一辈子的瘾。”Elric将这种“瘾”延伸到对自己的鞭策中。“最近,我正努力提升自己相对薄弱的工程能力。”每天会固定地花些时间看看arXiv和业内最新的文章,“一些关于GNN和Transformer模型的文章都曾给我启发,维持自己对学界的嗅觉,不能因为开始工作了,就丢掉一些功课。”
在瞬息万变的市场中,每分每秒都进行着大量交易,策略随时有可能失效,原地踏步会徒增被淘汰的风险。研究员既要在激烈的市场竞争中角逐,又要像做学术那样保持对新技术的好奇与专注。
在Elric看来,宽德就是呵护这些初心的“象牙塔”,对于多元化的探索与极大程度的包容,激发了“后学生时代”人才们的研究动力。
同时,宽德为这种动力武装了成熟的应用工具和科学的思维方式,让大家能够全身心地投入于研究金融中的数学之美。
从做学术研究的学生,到做量化的机器学习研究员,Elric向往的状态未曾改变,“是读博时朋友对我说的——‘这个东西,现在全世界应该只有我知道’时的自豪。”