铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
纸上得来终觉浅,决胜NLP要躬行。
一套面向实战、号称“代码优先”的NLP课程来了,名字为A Code-First Introduction to Natural Language Processing,fast.ai出品,全程免费学习。
不到半天点赞超过1600,转发近500。
这套课程内容包括主题建模、情绪分类,语言建模和翻译等,是旧金山大学今年春天的最新硕士课程,此前已经有300多名学生上过此课并毕业。
里面融合了此前经典NLP课程的基础内容,比如正则表达、SVD、朴素贝叶斯,还加入了最近兴起的神经网络中新方法,比如RNN、seq2seq、注意力机制和Transformer架构。
还加上了对道德问题、偏见问题和虚假信息可能带来的影响。
既然偏向实战,那代码必须全。这套课程用的是PyTorch和fast.a库所有的Python代码都在Jupyter Notebook中,还有全套视频与你为伴。
服用指南
直接看课程里面有什么干货。
1、概览
什么是NLP
2、传统NLP方法
占整个课程三分之一的篇幅,介绍了使用SVD进行主题建模,通过朴素贝叶斯和逻辑回归、以及正则表达式进行情感分类。
3、深度学习:NLP中的迁移学习
NLP中的迁移学习涉及到在大型语料库上训练语言模型,并且对不同的小语料库进行微调等。
这项工作已经被BERT、GPT-2和XLNet等模型采用,在这一节中,主要分享了构建英语以外其他语言模型的技巧,包括用ULMFit建立越南语和土耳其语语言模型的技巧。
4、深度学习:Seq2Seq翻译和Transformer架构
这一节研究了简单RNN如何工作的细节,还介绍了用于翻译的Seq2Seq模型。
从建立翻译模型,到teacher forcing方法、注意力机制以及GRU等方法提高准确率。
最后介绍了Transformer架构的实现。
5、NLP的伦理问题
伦理问题及潜在的风险是作者重点推荐的一节。
在OpenAI的GPT-2语言模型问世后,翻译、阅读理解、回答问题等任务都能做到以假乱真,让不少群众开始慌张。
这一节给出了解决方法和建议步骤,如验证系统和数字签名等。
每节课都有视频,每个视频长度在20-90分钟之间。
侧重实践
这门课背后的fast.ai,在深度学习界算是独树一帜。
fast.ai由Kaggle大神Jeremy Howard、后悔读了博的数学博士Rachel Thomas、原本在巴黎教了7年书的Sylvain Gugger联合创办。
他们是真正的实践派,课程以“教实用的东西、高效解决问题”为核心追求,非常重视工程实现细节。
在去年发布更基础的“程序员的机器学习入门”课时,他们赞扬了吴恩达老师的入门课worderful之后就接了个“但是”:但是,它现在有显得太老气了,特别是作业还得拿Matlab写。
fast.ai的课程就非常紧跟程序员的实践潮流,用Python编程,用交互式的Jupyter Notebooks学习。
同时,他们也非常鼓励学生去参加Kaggle竞赛,检验自己的能力。
这套NLP新课,也是同样的思路了。
传送门
课程首页:
https://www.fast.ai/2019/07/08/fastai-nlp/
GitHub上有课程所需的所有代码:
https://github.com/fastai/course-nlp
油管上所有课的视频(需要科学前往):
https://www.youtube.com/playlist?list=PLtmWHNX-gukKocXQOkQjuVxglSDYWsSh9
Fast.ai库:
https://docs.fast.ai/
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ’ᴗ’ ի 追踪AI技术和产品新动态