本项目试图将所有搜推算法岗可能会出现的问题囊括其中,以便复习之需。这是一个个人向的总结,未必能使人人都看懂,不过也可以作为参考。
- 深度学习基础
BatchNorm | Seq2seq+attention | 优化器 | CNN | RNN |
---|---|---|---|---|
LSTM/GRU | 学习率调整策略 | GAN | 损失函数 | 权重初始化 |
激活函数 | 超参数调优 | |||
- 统计机器学习
线性回归 & L1/L2正则 | logistic regression | SVM | 贝叶斯 | 决策树 |
随机森林 | GBDT | XGBoost | KNN | 无监督学习-聚类 |
无监督学习-PCA | 各种熵、KL散度、互信息 | 主动学习 | 特征工程-归一化 | 特征工程-筛选特征 |
特征工程-解决数据不平衡 | EM算法 |
- NLP语言模型
- Word2vec
- LSA,Glove,Fasttext,Elmo
- Transformer, Transformer细节
- GPT
- BERT, BERT变体
- Roberta, ALBERT, XLNET
- subword
- 推荐系统
- 信息检索
- Learning-to-rank指标, Learning-to-rank损失函数
- BM25
- Faiss
- pagerank&HIT
- IR经典模型
- Airbnb-数据驱动的模型
- ColBERT
- 句子相似度对比学习-SimCSE
- 京东个性化搜索
- Facebook Que2search
-
分布式数据库(未完成)
-
计算机基础课(未完成)
一些其他dalao的整理资料: