李一凡

地址: 444 Washington Blvd, Jersey City, NJ, 07310
电话: +1 (608)-216-5993
邮箱: ivanlee142857@gmail.com


教育背景

康涅狄格大学,美国康涅狄格州

统计学博士(2018年9月 – 2023年9月)

课程: 生存数据分析,贝叶斯数据分析,线性优化,金融数据挖掘,贝叶斯决策,应用多元分析,线性统计模型

威斯康星大学麦迪逊分校,美国威斯康星州

统计学硕士(2016年9月 – 2018年5月)

专业 GPA: 3.87/4 | 总体 GPA: 3.77/4

课程: 生存分析,随机建模,分类与回归树,统计推断,数理统计,机器学习,多层次模型,实验设计

南京大学,中国江苏省

统计学学士(2013年9月 – 2017年5月)

课程: 数学分析,高等代数,离散数学,常微分方程,偏微分方程,复变函数,随机过程,实分析

奖项: 人民奖学金


工作经历

安永美国有限责任合伙公司(Ernst & Young U.S. LLP),美国纽约

高级咨询师(2023年10月至今)

  • 衍生品定价算法的模块化重构
    • 通过将算法分解为服务类和单独的分析单元,领导架构改造,实现代码的解耦。
    • 使每个组件能够独立更新,而不会影响整体系统,大幅减少冗余并提高可维护性。
    • 设计并实施了健壮的单元测试框架,通过主动识别潜在错误,提高系统调试的可靠性。
  • 美式期权定价的优化
    • 应用美式蒙特卡罗(AMC)方法替代耗时的二次蒙特卡罗法来定价美式期权。
    • 将计算复杂度从 O(n²) 降至 O(n),显著缩短定价时间并节省计算资源。
  • 股票衍生品定价算法的增强
    • 将股票衍生品的定价框架从基于市场风险的模型转变为基于基础资产位置的风险分析,提高了准确性和可解释性。
    • 将高级机器学习技术(如 LSTM、随机森林模型)与传统的 MCMC 方法相结合,用于奇异期权(超过三种基础资产)的定价。
  • 对手信用风险监控
    • 使用基于 SFT VaR 的模型来计算和监控对手信用风险。
    • 为跨专业团队和非技术客户解释复杂数据和模型结果。
    • 根据市场数据的变化,定期更新模型参数,确保模型反映最新市场状况并提供准确的风险评估。

中国银行国际控股有限公司,中国上海

证券分析助理(实习)(2021年6月 – 2021年9月)

  • 专注于电池和新能源行业。基于spike-and-slab误差的时间序列模型预测相关公司股票的短期和长期表现。
  • 在多项式模型中根据相关公司的表现调整预测,避免产生过于乐观的预测。

华泰证券股份有限公司,中国江苏

数据分析师(实习)(2017年7月 – 2017年9月)

  • 基于公司APP记录,使用无监督学习筛选出具有强烈购买意愿的访问者。
  • 通过合并同一访问者的操作数据,清理并汇总了1700万条访问记录。
  • 通过主成分分析(PCA)方法提取有用变量。
  • 使用K-means方法将访问者分为五组,并打上标签。
  • 基于标签数据拟合决策树模型,可在20秒内对新访问者完成分类。

康涅狄格大学统计咨询小组,美国康涅狄格州

项目负责人(2020年9月 – 2023年10月)

  • 通过聚类分析比较降温方法的影响
    • 比较不同降温方法对体温和心率的时间序列影响。
    • 通过依赖变量的比例标准化单元并消除个体差异。
    • 使用 K-means 方法对数据分组,并将其与先验信息配对。
    • 重新标记依赖变量以避免降温和加热程序之间的混淆,并重新设计假设检验以避免得出相反结论。
  • 使用特征提取方法推荐义肢
    • 基于生理和心理测试,推荐最适合某些患者的义肢类型。
    • 对高度线性相关的心理测试变量应用主成分分析(PCA)转换,找到可解释的准则。
    • 使用Lasso方法选择生理测试变量,帮助客户避免在不必要的测试上浪费资金。
    • 与XGBoost模型进行对比,我们的模型在保持类似预测准确性的同时具有更好的可解释性。
  • 信用卡审批中的不平衡数据和异常值处理
    • 根据历史还款记录决定信用卡的批准或拒绝。
    • 在检查随机性后,添加新的缺失指示变量,然后应用插值方法。
    • 基于异常值的分布生成特征,并为不平衡响应分配不同权重。
    • 分别拟合逻辑回归、XGBoost和随机森林模型,通过交叉验证后将三个模型的线性组合作为最终模型。
  • Yelp 评论评分预测
    • 预测 100 万条未标记 Yelp 文本评论的评分。
    • 清理了 150 万条 Yelp 评论,移除非英文评论、缩写和拼写错误。
    • 基于词语在不同评分评论中的相对频率提取正/负面词语,以避免对常见词(如“the”或“a”)的过度加权。
    • 使用Sentence-To-Vector方法将文本评论转换为向量,并从正/负面词语生成新特征。
    • 使用长短期记忆(LSTM)神经网络对预处理数据进行拟合,获得0.6的均方根误差。

博士论文

  • 项目反应理论(Item-Response-Theory,IRT)模型:
    • 基于多项任务表现估计个体能力和试题难度。
    • 使用带幂参数的 IRT 模型改进逻辑回归模型,幂参数用于控制链接函数的偏态性。
    • 结合切片采样和吉布斯采样方法(MCMC)估计感兴趣的变量。
    • 与普通逻辑回归模型相比,预测误差降低了一半。
  • 项目反应和反应时间的联合模型:
    • 基于项目反应(Item Response, IR)和反应时间(Response Time, RT)估计个体能力。
    • 分别对 IR 和 RT 拟合逻辑回归和线性回归模型,并结合非参数的狄利克雷过程(Dirichlet Process)先验,避免对变量正态性的假设。
    • 通过哈密顿蒙特卡罗(Hamiltonian Monte Carlo)方法估计个体能力,并通过狄利克雷过程的模式对个体进行聚类。
  • 纵向项目反应与生存时间的联合模型:
    • 分析个体能力随时间的趋势及其对反应时间的影响。
    • 将个体能力视为纵向数据,并通过前向和后向预测方法进行估计。
    • 使用部分似然方法将反应时间拟合为 Cox 比例风险模型,这是一种半参数方法。
    • 所有未知参数均通过随机梯度下降算法(SGD)估计。

技能

  • 语言:中文(母语),英语(熟练)
  • 编程/数据库:
    • 精通R、Python、GitHub、LaTeX、Nimble、JUGS、高性能计算(HPC)。
    • 熟悉SQL、SAS、MATLAB、C++、Julia。
  • 证书:CFA 一级