扫描关注,提前了解课程动态
以最专业的教学团队传递知识,以最负责的做事方式服务学员,愿和你在贪心相遇。一起收获一份知识、一段时光、一群朋友!
有良好的机器学习基础,有较强的编程能力
对数据结构与算法比较熟悉
追求技术细节,对背后的why感兴趣,不希望仅仅停留在使用工具层面
之后想从事相关研究工作或者之后想申请国外名校读相关专业的硕士/博士
掌握处理非结构化文本数据,完成知识抽取、NLU、多轮对话决策、逻辑推理等NLP核心技术
深入理解分词、语义分析、语义表示、文本匹配、文本分类、主题识别等NLP主流领域
掌握词向量如word2vec等以及NLP相关的深度学习(RNN、LSTM、Bert等)相关知识
掌握NLP传统、机器学习及深度学习算法,完成QA系统、机器翻译、知识图谱、聊天机器人等实战项目
从零开始搭建一个完整的问答系统。给定一个语料库(问题和答案对),对于用户的输入需要返回最适合的答案。涉及到的模块:
1. 对于用户的输入需要做拼写纠错,这部分会用到语言模型
2. 之后对输入做文本的预处理,过滤等操作。
3. 把文本转换成向量形式,这里需要用到tf-idf, word2vec等相关的技术。
4. 针对于语料库,为了提升效率需要创建倒排表。
5. 基于相似度的计算来获得最优的答案。
基于给定数据,来搭建一个完整的情感分析系统。项目涉及到的模块:
1. 数据的预处理
2. 特征工程,这部分是本项目的核心。
3. 监督学习模型的选择与调参。调参的过程需要尝试不同的优化策略。
利用非结构化数据来搭建知识图谱。项目涉及到的模块:
1. 从非结构化数据中抽取实体,以及词典库的构建
2. 关系的抽取(指定的关系)
3. 实体统一以及实体消歧。
4. 知识图谱的构建以及查询
基于给定的对话数据来构建NLU识别部分,并结果用于聊天机器人中。 项目涉及到的模块:
1. 文本特征的提取
2. 搭建CRF模型来识别关键词
3. 搭建LSTM-CRF模型来识别关键词。
基于给定数据,来搭建一个完整的情感分析系统。项目涉及到的模块:
1. 数据的预处理
2. 特征工程,这部分是本项目的核心。
3. 监督学习模型的选择与调参。调参的过程需要尝试不同的优化策略。
搭建一个完整的聊天机器人,用来服务搜索餐厅。项目涉及到的模块:
1. 文本预处理
2. 意图识别和关键信息抽取
3. 对于每一个意图设计对话管理状态机
4. 设计上下文处理的方法
5. 对话生成模块
6. 处理一些常见的boundary case。
这是一个开放性的项目,学员根据自己的兴趣可以选择方向以及题目,导师以及助教团队会全程指导你完成。选择的项目可以围绕自己所熟悉的任何NLP场景,也可以是纯学术性的,当然针对学术性的项目,如果有一定创新性,导师团队也可以协助你发表顶会论文。项目的中期和最后,会有简短的学员项目展示环节,导师和助教团队会提供建设性的意见。
基于Sparse Quadratic Programming的股票投资组合优化策略编写
基于Earth Mover's Distance的短文本相似度计算
基于Projected Gradient Descent和非负矩阵分解的词向量学习
基于Linear Programming的机票定价系统
基于DTW的文本相似度分析
时间复杂度,空间复杂度分析
Master's Theorem,递归复杂度分析
动态规划以及Dynamic Time Warpping
Earth Mover's Distance
维特比算法
LR、决策树、随机森林、XGBoost
梯度下降法、随机梯度下降法、牛顿法
Projected Gradient Descent
L0, L1, L2, L-Infinity Norm
Grid Search, Bayesian Optimization
凸函数、凸集、Duality、KKT条件
Linear SVM、Dual of SVM
Kernel Trick, Mercer's Theorem
Kernelized Linear Regression、Kernelized KNN
Linear/Quadratic Programming
Integer/Semi-definite Programming
NP-completeness/NP-hard/P/NP
Constrained Relaxation、Approximate Algorithm
Convergence Analysis of Iterative Algorithm
基于无监督学习方法的问答系统搭建
基于监督学习的Aspect-Based 情感分析系统搭建
基于CRF、LSTM-CRF、BERT-CRF 的命名实体识别应用
基于语言模型和Noisy Channel Model的拼写纠错
文本预处理技术(tf-idf,Stemming等)
文本领域的特征工程
倒排表、信息检索技术
Noisy Channel Model
N-gram模型,词向量介绍
常见的Smoothing Techniques
Learning to Rank
Latent Variable Model
EM算法与Local Optimality
Convergence of EM
EM与K-Means, GMM
Variational Autoencoder与Text Disentangling
有向图与无向图模型
Conditional Indepence、D-separation、Markov Blanket
HMM模型以及参数估计
Viterbi、Baum Welch
Log-Linear Model与参数估计
CRF模型与Linear-CRF
CRF的Viterbi Decoding与参数估计
利用非结构化数据和信息抽取技术构建知识图谱
任务导向型聊天机器人的搭建
包含Intent与Entity Extraction的NLU模块实现
基于SkipGram的推荐系统实现(参考Airbnb论文)
命名实体识别技术
信息抽取技术
Snowball, KnowitAll, RunnerText
Distant Supervision, 无监督学习方法
实体统一、实体消歧义、指代消解
知识图谱、实体与关系
词向量、Skip-Gram、Negative Sampling
矩阵分解、CBOW与Glove向量
Contexualized Embedding与ELMo
KL Divergence与Gaussian Embedding
非欧式空间与Pointcare Embedding
黎曼空间中的梯度下降法
知识图谱嵌入技术
TransE, NTN 的详解
Node2Vec详解
Adversial Learning与KBGAN
利用纯Python实现BP算法
基于Seq2Seq+注意力机制、基于Transformer的机器翻译系统
基于Transformer的闲聊型聊天机器人
基于BI-LSTM-CRF和BERT-BiLSTM-CRF在命名实体中的比较
利用Laywer-wise RP可视化端到端的机器翻译系统
Pytorch与Tensorflow详解. 表示学习,分布式表示技术
文本领域中的Disentangling
深度神经网络与BP算法详解
RNN与Vanishing/Exploding Gradient
LSTM与GRU
Seq2Seq与注意力机制
Greedy Decoding与Beam Search
BI-LSTM-CRF模型
Neural Turing Machine
Memory Network
Self Attention,Transformer以及Transformer-XL.
Bert的详解
BERT-BiLSTM-CRF
GPT,MASS, XLNet
Low-resource learning
深度学习的可视化
Laywer-wise Relevance Propagation
利用Collapsed Gibbs Sampler和SGLD对主题模型做Inference
基于Bayesian-LSTM的命名实体识别
利用主题模型做文本分类在
LDA的基础上修改并搭建无监督情感分析模型
概率图模型与条件独立
Markov Blanket
Dirichlet分布、Multinomial分布
Beta分布、Conjugate Prior回顾
Detail Balance
主题模型详解
MCMC与吉布斯采样
主题模型与Collapsed Gibbs Sampling
Metropolis Hasting, Rejection Sampling
Langevin Dyamics与SGLD
分布式SGLD与主题模型
Dynamic Topic Model
Supervised Topic Model
KL Divergence与ELBO
Variantional Inference, Stochastic VI
主题模型与变分法
Nonparametric Models
Dirichlet Process
Chinese Restarant Process
Bayesian Deep Neural Network
VAE与Reparametrization trick
Bayesian RNN/LSTM
Bayesian Word2Vec
MMSB
搭建辅助医疗诊断的智能问答系统
LDA主题模型的平滑处理方法研究
基于知识驱动的对话聊天机器人
基于深度学习的命名实体识别研究
什么是Capstone项目?
开放式项目又称为课程的capstone项目。作为 课程中的很重要的一部分,可以选择work on 一个具有挑战性的项目。通过此项目,可以深 入去理解某一个特定领域,快速成为这个领域 内的专家,并且让项目成果成为简历中的一个 亮点。
Step 1: 组队
Step 2: 立项以及提交proposal
Step 3: Short Survey Paper
Step 4: 中期项目Review Step
5: 最终项目PPT以及代码提交
Step 6: 最终presentation
Step 7: Technical Report/博客
完整PPT、代码和Conference-Style Technical Report 最为项目的最后阶段,我们 将组织学员的presentation分享大会。借此我 们会邀请一些同行业的专家、从业者、企业招 聘方、优质猎头资源等共同参与分享大会。
Capstone项目选题方向有哪些?
学员可以选择自己感兴趣的项目来做,可以是
自己在公司中遇到的问题,也可以纯粹中自己
的兴趣出发,也可以是偏学术性的。主要分成
四个方向:应用型、工具型、论文复现性/总
结型的、研究性质的。
选定一个特定领域(比如医疗,汽车行业, 法律等等),并构建此领域的知识图谱, 然后基于知识图谱搭建问答系统。 此项目 的难点在于数据获取这一端。
课程里涉及到了很多NLP核心的技术,比 如拼写纠错,分词,NER识别,关系抽 取,POS识别等等,而且市面上也有一些 开源的工具比如HanNLP, 哈工大NLP, 结 巴等等。 有没有可能自己写出在某些问题 上更好的NLP相关的API呢,然后再开源?
我们可以选择一些比较前沿的技术而且 “重要”的论文来做复现,可以偏向于是系 统实现,也可以是对某一个技术的总结。 例如:利用深度增强学习的方式来搭建 聊天机器人(参考https://arxiv.org/pdf/ 1709.02349.pdf)。
研究是具有挑战性的,其中很重要的问题 是选题。基于个人的兴趣,narrow down 到一个特定的问题。我们将在研究的过程 中给一些思路上的指导,最终达到发表一 篇论文的目的。
基于Sparse Quadratic Programming的股票投资组合优化策略编写
基于Earth Mover's Distance的短文本相似度计算
基于Projected Gradient Descent和非负矩阵分解的词向量学习
基于Linear Programming的机票定价系统
基于DTW的文本相似度分析
时间复杂度,空间复杂度分析
Master's Theorem,递归复杂度分析
动态规划以及Dynamic Time Warpping
Earth Mover's Distance
维特比算法
LR、决策树、随机森林、XGBoost
梯度下降法、随机梯度下降法、牛顿法
Projected Gradient Descent
L0, L1, L2, L-Infinity Norm
Grid Search, Bayesian Optimization
凸函数、凸集、Duality、KKT条件
Linear SVM、Dual of SVM
Kernel Trick, Mercer's Theorem
Kernelized Linear Regression、Kernelized KNN
Linear/Quadratic Programming
Integer/Semi-definite Programming
NP-completeness/NP-hard/P/NP
Constrained Relaxation、Approximate Algorithm
Convergence Analysis of Iterative Algorithm
基于无监督学习方法的问答系统搭建
基于监督学习的Aspect-Based 情感分析系统搭建
基于CRF、LSTM-CRF、BERT-CRF 的命名实体识别应用
基于语言模型和Noisy Channel Model的拼写纠错
文本预处理技术(tf-idf,Stemming等)
文本领域的特征工程
倒排表、信息检索技术
Noisy Channel Model
N-gram模型,词向量介绍
常见的Smoothing Techniques
Learning to Rank
Latent Variable Model
EM算法与Local Optimality
Convergence of EM
EM与K-Means, GMM
Variational Autoencoder与Text Disentangling
有向图与无向图模型
Conditional Indepence、D-separation、Markov Blanket
HMM模型以及参数估计
Viterbi、Baum Welch
Log-Linear Model与参数估计
CRF模型与Linear-CRF
CRF的Viterbi Decoding与参数估计
利用非结构化数据和信息抽取技术构建知识图谱
任务导向型聊天机器人的搭建
包含Intent与Entity Extraction的NLU模块实现
基于SkipGram的推荐系统实现(参考Airbnb论文)
命名实体识别技术
信息抽取技术
Snowball, KnowitAll, RunnerText
Distant Supervision, 无监督学习方法
实体统一、实体消歧义、指代消解
知识图谱、实体与关系
词向量、Skip-Gram、Negative Sampling
矩阵分解、CBOW与Glove向量
Contexualized Embedding与ELMo
KL Divergence与Gaussian Embedding
非欧式空间与Pointcare Embedding
黎曼空间中的梯度下降法
知识图谱嵌入技术
TransE, NTN 的详解
Node2Vec详解
Adversial Learning与KBGAN
利用纯Python实现BP算法
基于Seq2Seq+注意力机制、基于Transformer的机器翻译系统
基于Transformer的闲聊型聊天机器人
基于BI-LSTM-CRF和BERT-BiLSTM-CRF在命名实体中的比较
利用Laywer-wise RP可视化端到端的机器翻译系统
Pytorch与Tensorflow详解. 表示学习,分布式表示技术
文本领域中的Disentangling
深度神经网络与BP算法详解
RNN与Vanishing/Exploding Gradient
LSTM与GRU
Seq2Seq与注意力机制
Greedy Decoding与Beam Search
BI-LSTM-CRF模型
Neural Turing Machine
Memory Network
Self Attention,Transformer以及Transformer-XL.
Bert的详解
BERT-BiLSTM-CRF
GPT,MASS, XLNet
Low-resource learning
深度学习的可视化
Laywer-wise Relevance Propagation
利用Collapsed Gibbs Sampler和SGLD对主题模型做Inference
基于Bayesian-LSTM的命名实体识别
利用主题模型做文本分类在
LDA的基础上修改并搭建无监督情感分析模型
概率图模型与条件独立
Markov Blanket
Dirichlet分布、Multinomial分布
Beta分布、Conjugate Prior回顾
Detail Balance
主题模型详解
MCMC与吉布斯采样
主题模型与Collapsed Gibbs Sampling
Metropolis Hasting, Rejection Sampling
Langevin Dyamics与SGLD
分布式SGLD与主题模型
Dynamic Topic Model
Supervised Topic Model
KL Divergence与ELBO
Variantional Inference, Stochastic VI
主题模型与变分法
Nonparametric Models
Dirichlet Process
Chinese Restarant Process
Bayesian Deep Neural Network
VAE与Reparametrization trick
Bayesian RNN/LSTM
Bayesian Word2Vec
MMSB
搭建辅助医疗诊断的智能问答系统
LDA主题模型的平滑处理方法研究
基于知识驱动的对话聊天机器人
基于深度学习的命名实体识别研究
什么是Capstone项目?
开放式项目又称为课程的capstone项目。作为 课程中的很重要的一部分,可以选择work on 一个具有挑战性的项目。通过此项目,可以深 入去理解某一个特定领域,快速成为这个领域 内的专家,并且让项目成果成为简历中的一个 亮点。
Step 1: 组队
Step 2: 立项以及提交proposal
Step 3: Short Survey Paper
Step 4: 中期项目Review Step
5: 最终项目PPT以及代码提交
Step 6: 最终presentation
Step 7: Technical Report/博客
完整PPT、代码和Conference-Style Technical Report 最为项目的最后阶段,我们 将组织学员的presentation分享大会。借此我 们会邀请一些同行业的专家、从业者、企业招 聘方、优质猎头资源等共同参与分享大会。
Capstone项目选题方向有哪些?
学员可以选择自己感兴趣的项目来做,可以是
自己在公司中遇到的问题,也可以纯粹中自己
的兴趣出发,也可以是偏学术性的。主要分成
四个方向:应用型、工具型、论文复现性/总
结型的、研究性质的。
选定一个特定领域(比如医疗,汽车行业, 法律等等),并构建此领域的知识图谱, 然后基于知识图谱搭建问答系统。 此项目 的难点在于数据获取这一端。
课程里涉及到了很多NLP核心的技术,比 如拼写纠错,分词,NER识别,关系抽 取,POS识别等等,而且市面上也有一些 开源的工具比如HanNLP, 哈工大NLP, 结 巴等等。 有没有可能自己写出在某些问题 上更好的NLP相关的API呢,然后再开源?
我们可以选择一些比较前沿的技术而且 “重要”的论文来做复现,可以偏向于是系 统实现,也可以是对某一个技术的总结。 例如:利用深度增强学习的方式来搭建 聊天机器人(参考https://arxiv.org/pdf/ 1709.02349.pdf)。
研究是具有挑战性的,其中很重要的问题 是选题。基于个人的兴趣,narrow down 到一个特定的问题。我们将在研究的过程 中给一些思路上的指导,最终达到发表一 篇论文的目的。
问参加本次课程有什么要求吗?
答本次课程适合具备一定编程基础的开发人员,以及对自然语言处理和人工智能有兴趣的践行者。
问学员会有实际实操的机会?
答这是本课程设计的核心,课程设计以理论+实践的方式,带你实战典型的行业应用。
问本课程怎么答疑?
答本课程会配有专门助教团队,对于学员的问题,及时提供在线答疑。