摘抄得刘知远老师的仓库:https://github.com/zibuyu/research_tao

What is NLP?

理解并处理自然语言

研究内容:

语法分析、语义分析、篇章理解等

难题:

歧义解决

nlp & cv

image

进入高层任务后,两个领域都将面临共同的关键挑战,都可以归结为复杂语境下的多对象(图像中是不同对象,文本中是不同概念)的语义组合问题

中英文nlp差异

在词性分析、隐性表示上具有很大

学术期刊&会议

NLP/CL的高水平学术成果主要分布在ACL、NAACL、EMNLP和COLING等几个学术会议上

https://github.com/zibuyu/research_tao/blob/master/01_community.md

根据Google Scholar Metrics 2018年发布的NLP/CL学术期刊和会议论文引用排名,ACL、EMNLP、NAACL、SemEval、TACL、LREC位于前6位,基本反映了本领域学者的关注程度。其中ACL、EMNLP、NAACL的H5-Index和H5-Median明显高于其他会议和期刊,也是该领域每年参会人数最多的会议,可谓NLP/CL的三大顶级国际会议。

ACL wiki:https://aclweb.org/aclwiki/Main_Page

人工智能领域

人工智能领域相关学术会议包括IJCAI和AAAI。AAAI全称美国人工智能年会,IJCAI全称人工智能国际联合大会。这两个会议方向非常广泛,涵盖机器人、知识、规划、自然语言处理、机器学习、计算机视觉等几乎所有AI子领域,是AI领域“奥运会”式的学术会议。近年来,由于AI领域备受社会各界关注,这两个会议的录用论文数也成倍增长。以AAAI 2019为例,投稿数猛增至7000多篇,最终录用1150篇,录用率降低至16.2%。有些老师在社交媒体上如此评价,AAAI/IJCAI更像花样齐全的“奥运会”,而ACL/EMNLP/NAACL更像专业领域的“锦标赛”,所以一般对专业领域任务的精细研究,更多发表在锦标赛式的专业会议上。由于知识表示等方向没有更权威的专门学术会议,所以更多发表在AAAI/IJCAI上。人工智能领域相关学术期刊包括Artificial Intelligence、Journal of AI Research。

机器学习领域

机器学习领域相关学术会议包括ICML,NIPS,ICLR、AISTATS等。其中NIPS全称是Conference on Neural Information Processing Systems,由于最近这波AI浪潮就源自以神经网络技术为基础的深度学习,所以近年来备受关注,参会人数倍增,近几年会议注册页面刚开放就会被抢注一空。树大招风,2018年由于NIPS缩写有性别歧视的意味,所以从2019年开始更名为了NeurIPS。ICLR是深度学习兴起后在2013年创立的年轻会议,采用的开放审稿模式,整个审稿过程的审稿意见、作者回复全部实时公开,也允许其他围观用户评论,面貌一新,关注者众,颇领一时风气之先。机器学习领域相关学术期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。

信息检索和数据挖掘领域

信息检索和数据挖掘领域相关学术会议主要由美国计算机学会(ACM)主办,包括SIGIR、KDD、WWW(从2018年开始更名为The Web Conference)、WSDM。信息检索和数据挖掘领域相关学术期刊包括ACM TOIS、IEEE TKDE、ACM TKDD、ACM TIST等。其中ACM TOIS和IEEE TKDE历史比较悠久,地位卓然;ACM TKDD则创立于2007年,ACM TIST创立于2010年,均为新兴的著名期刊,特别是ACM TIST创刊时就邀请了LibSVM等有影响力的成果发表,现在SCI影响因子比较高。

国内

中国计算机学会(CCF)制定了“中国计算机学会推荐国际学术会议和期刊目录”,基本公允地列出了每个领域的高水平期刊与会议。大家可以通过这个列表,迅速了解每个领域的主要期刊与学术会议。

与国际学术组织和会议相似,国内也有一家与NLP/CL相关的专业学术组织,中国中文信息学会(CIPS,http://www.cipsc.org.cn/ ),是国内最大的自然语言处理学术组织,最早由著名科学家钱伟长先生发起成立。通过学会的理事名单(http://www.cipsc.org.cn/lingdao.php )基本可以了解国内从事NLP/CL的主要单位和学者。中文信息学会每年组织很多学术会议,例如全国计算语言学学术会议(CCL)、中国自然语言处理青年学者研讨会(YSSNLP)、全国信息检索学术会议(CCIR)、全国机器翻译研讨会(CWMT)等,是国内NLP/CL学者进行学术交流的重要平台。尤其值得一提的是,YSSNLP是专门面向国内NLP/CL青年学者的研讨交流会,采用邀请制参加,大家自愿报名在研讨会上报告学术前沿动态,是国内NLP/CL青年学者进行学术交流、建立学术合作的绝佳平台。2010年的COLING和2015年的ACL在北京召开,均由中文信息学会负责组织工作,这在一定程度上反映了学会在国内NLP/CL领域的重要地位。此外,计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议(NLP&CC)是最近崛起的国内重要NLP/CL学术会议。中文信息学会主编了一份历史悠久的《中文信息学报》,是国内该领域的重要学术期刊,发表过很多篇重量级论文。此外,国内著名的《计算机学报》、《软件学报》等期刊上也经常有NLP/CL论文发表,值得关注。

全国计算语言学大会(CCL)
全国知识图谱与语义计算大会(CCKS)
全国社会媒体处理大会(SMP)
全国信息检索学术会议(CCIR)
全国机器翻译研讨会(CWMT)
自然语言处理青年学者研讨会(YSSNLP)
CIPS暑期学校(CIPS Summer School)
CCF国际自然语言处理与中文计算会议(NLPCC)

Reading paper

https://github.com/zibuyu/research_tao/blob/master/02_reading_paper.md

阅读论文也不必需要每篇都从头到尾看完。一篇学术论文通常包括以下结构,我们用序号来标记建议的阅读顺序:

  • 题目(1)
  • 摘要(2)
  • 正文:导论(3)、相关工作(6)、本文工作(5)、实验结果(4)、结论(7)
  • 参考文献(6)
  • 附录

按照这个顺序,基本在读完题目和摘要后,大致可以判断这篇论文与自己研究课题的相关性,然后就可以决定是否要精读导论和实验结果判断学术价值,是否阅读本文工作了解方法细节。此外,如果希望了解相关工作和未来工作,则可以有针对性地阅读“相关工作”和“结论”等部分。

Where’s Idea?

实践法。即在研究任务上实现已有最好的算法,通过分析实验结果,例如发现这些算法计算复杂度特别高、训练收敛特别慢,或者发现该算法的错误样例呈现明显的规律,都可以启发你改进已有算法的思路。现在很多自然语言处理任务的Leaderboard上的最新算法,就是通过分析错误样例来有针对性改进算法的 [1]。

类比法。即将研究问题与其他任务建立类比联系,调研其他相似任务上最新的有效思想、算法或工具,通过合理的转换迁移,运用到当前的研究问题上来。例如,当初注意力机制在神经网络机器翻译中大获成功,当时主要是在词级别建立注意力,后来我们课题组的林衍凯和沈世奇提出建立句子级别的注意力解决关系抽取的远程监督训练数据的标注噪音问题 [2],这就是一种类比的做法。

组合法。即将新的研究问题分解为若干已被较好解决的子问题,通过有机地组合这些子问题上的最好做法,建立对新的研究问题的解决方案。例如,我们提出的融合知识图谱的预训练语言模型,就是将BERT和TransE等已有算法融合起来建立的新模型 [3]。

正如武侠中的最高境界是无招胜有招,好的研究想法并不拘泥于以上的路径,很多时候是在研究者对研究问题深刻认知的基础上,综合丰富的研究阅历和聪明才智产生”顿悟“的结果。这对初学者而言恐怕还很难一窥门径,需要从基本功做起,经过大量科研实践训练后,才能有登堂入室之感。

在科研实践过程中,除了通过大量文献阅读了解历史,通过深入思考总结产生洞察力外,还有一项必不可少的工作,那就是主动开放的学术交流和合作意识。不同研究领域思想和成果交流碰撞,既为创新思想提供了新的来源,也为”类比“和”顿悟“提供了机会。了解一下历史就可以知晓,人工智能的提出,就是数学、计算机科学、控制论、信息论、脑科学等学科交叉融合的产物。而当红的深度学习的起源,1980年代的Parallel Distributed Processing (PDP),也是计算机科学、脑认知科学、心理学、生物学等领域研究者通力合作的产物。

如何写一篇论文

https://github.com/zibuyu/research_tao/blob/master/04_writing_paper.md