扫描关注,提前了解课程动态
培养高水平人工智能创新人才和团队
加快高端人工智能人才引进力度
建设人工智能学科
2020年人工智能和应用达到世界先进水平
2025年人工智能成为引导经济转型主要动力
2030年中国要成为世界主要人工智能创新中心
剩余仅剩50席
剩余仅剩50席
每周3h专业授课+1h案例讲解
课上讲师专业讲解,学习基础知识,课后通过项目案例不断加深记忆
毕业设计(大型实战项目任选其一)
为期一个月的毕业设计,真枪实弹,直击名企
每周1h公共课程,回顾基础知识,巩固基础,达到温故知新的效果
本科及以上学历最佳
英语能力,通过CET-4最佳
持续学习能力,课程每周需投入
课程+项目、作业共计约6小时时间
人工智能、知识图谱领域专家。 曾任北京会牛科技的首席科学家兼投资总监 、美国亚马逊和高盛的高级工程师, 负责过金融知识图谱、聊天机器人、量化交易、自适应教育系统等核心项目,并兼任多加创业公司的技术顾问。美国南加州大 学博士,荷兰阿姆斯特丹访问学者,南开大学本科,先后在AAAI、KDD、AISTATS、CHI、IAAI 等国际会议上发表过15篇以 上论文、并荣获 IAAI、IPDPS-Parlearning、CISC-W 的Best Paper Award。
人工智能领域专家、百度人工智能事业群资深工程师、多家一线公司技术负责人和技术顾问。业内公认技术工程、数据分析、大数据等多领域专家。
美国微软总部和美国亚马逊总部的资深推荐系统工程师、美国新泽西理工人工智能博士,是人工智能、分布式系统、云计算方面的专家。
现任Google科学家,美国卡耐基梅隆人工智能博士,曾任美国智能监控公司的首席科学家, 对视频和多媒体的智能分析有深入研究。
美国亚马逊总部资深科学家,负责Amazon Alexa的智能化以及个性化的研发与应用,拥有美国Texas A&M大学的博士学位。
人工智能、自然语言处理领域资深工程师,985院校计算机硕士。在一线金融科技企业,负责过推荐系统、知识图谱等多款知名产品的核心算法研发工作。熟悉算法理论、大型工程构建、择业经验。
一线技术专家亲自授课;同时为学 员配备了经验丰富的助教团队,均 毕业于美国顶尖高校。
博士助教团队提供在线答疑,代码 审核,帮助学员快速解决问题,消 灭“拦路虎”,消除盲点,不怕学不 会!
课程涵盖10个实习5+Capstone 项目,且侧重技能不同,学员的知 识体系会更加全面。
小班授课,小群互动,班主任日日 陪伴,全程督学,关注你点滴进 步,不怕拖延症。
学员有机会选择并完成自己感兴趣 的课题,无论应用性的还是学术性 的课题,导师助教团队都可以很好 地指导你。或许这样的一个项目可 以让你实现拥有顶会论文的目标。
从传统NLP技术到基于深度学习的 NLP技术,帮助学员理解技术深层 次的本质关系。
我们将邀请国内外的AI博士与资深 工程师,来对NIPS, ICML,ACL, EMNLP等AI会议的热点paper 进行详解与讨论。
在课程末期,导师助教团队会给学 员提供个性化就业面试指导。成绩 优异者,还会帮你内推一线AI企业 的岗位。
自然语言处理概论
时间复杂度
主定理(Master's Theorem)
编辑距离与动态规划
文本分析流程
分词技术
拼写纠错技术
词的标准化与停用词
关键词的提取
文本聚类
文本的表示
词向量
句向量
Noisy Channel Model
语言模型
N-Gram模型
不同的平滑技术
Perplexity
神经语言模型
最大似然估计介绍
朴素贝叶斯模型
简单的优化理论
逻辑回归模型
过拟合与正则
L1与L2正则
超参数搜索
文本领域的特征工程
图模型介绍
HMM模型详解
Viterbi算法与EM算法
无向图模型介绍
Log-Linear模型
MEMM与CRF
CRF的参数估计
词性标注,命名实体识别
知识图谱
信息抽取技术
知识图谱的推理
神经网络与BP算法
Pytorch的使用
深度神经网络
RNN与梯度消失
LSTM 与 GRU
Seq2Seq模型与Decoding
注意力机制
Self-Attention与Transformer
Denoising Autoencoder
Transformer Encoder与BERT
Permutation语言模型
XLNet详解
TinyBERT与ALBERT
神经网络中的调参技术
Adam, Adagrad, SGD的比较
医疗+AI领域一向都是行业的热点。在本项目中,大家将有机会完成一款基于知识图 谱的问答系统。从知识图谱的搭建到问答系统模块、最后到部署上线,你将会体会 到完整的流程。
爬虫,文本数据清洗、预处理,文本挖掘,文本分类,知识图谱的构建以及查询, 序列到序列模型,attention机制,模型部署
知识图谱相关概念的理解,确定知识图谱的原型
爬取格式化数据,数据清洗及处理
熟悉图数据neo4j的使用,将格式化数据存储于图数据库中
部署在微信上的聊天小程序
问句分词解析(由医疗领域存在许多专业词汇,需要手动实现分词算法)
基本的数据预处理,如去除停用词、无用符号、特殊词汇等
匹配问句的意图(基于句向量间的匹配)
获取问句中的关键信息(词槽)
将意图以及关键信息转化为查询语句
将查询结果转化为自然语言的形式
闲聊语料库的清洗、整理
根据seq2seq+attention训练闲聊模型
在工业界,文本生成的应用到处可见,比如自动生成天气预报、体育新闻的生成、学生能力报告的生成等等。在本项目中,你将有机会根据给定的结构化数据来一段文本。比如输入为MR,输出为NL:
预训练模型,seq2seq,attention机制, copy机制,损失函数的优化,文本质量的评估(rouge,bleu等)
从不同的内容源获取并整合数据
收集、整理、清洗、格式化
数据扩增
利用预训练模型获取基本语义
构建基本的序列到序列模型
添加attention机制和copy机制
优化损失函数
在训练好的模型上生成文本,采用beam search生成多个候选项
构建rouge
Quora可以认为是英文的知乎,如何给用户匹配接近的问题是平台面临的挑战。客服机器人等应用也会使用文本匹配技术。
研读相关的研究论文
自己编写深度学习模块(LSTM、CNN、FC、Dropout等)
调用自己的Class手动实现模型的Baseline
研究数据特点、制作优质的人工特征(如:图特征等)
调节超参数(包括网络结构),抛出但模型的最优结果
多模型融合、超越单模型结果
使用预训练模型、超越现有深度学习模型
融合所有模型,刷榜
对不同文本匹配模型的原来进行总结分类
总结人工特征的经验、总结模型调优的结果、融合模型的效果
完成一篇完整的Technical Report
Python编程
Numpy, Pandas, Sklearn的使用
数据结构与算法
软件工程技术
模型部署于上线
A/B测试
职业辅导
具有QS或US News世 界排名前100名学校的 硕士、博士学位或正在 攻读硕士、博士学位
以第一作者身份发表过 至少一篇,或者非第一 作者身份发表2篇以上 CCF C类以上的会议 (包括C类)
自己的Github项目中至 少有一个项目star数超 过300
ACM、MCM竞赛获得 亚洲区或国际一等奖及 以上
Kaggle,天池竞赛获得 过前5%成绩