跨专业自学NLP，这个90后撸出了开源类库HanLP，已在GitHub收获1.5W星

发布时间：2019-11-05 07:05:56 所属栏目：移动来源：刘燕

导读：副标题#e# 截止 2019 年 10 月底，一款名为 HanLP 的自然语言处理类库在 GitHub Star 数达到了 15.5 K，超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨工业大学的 LTP。这是一款由一系列模型与算法组成的自然语言处理（NLP）开发工具包。你或

谈到 NLP 现在发展中的挑战，何晗表示，NLP 现在最大的问题是难以表示世界知识，举个例子，每个人都有一套对物理世界的认识，但计算机只有一些符号语料。“人们都说百闻不如一见，目前的 NLP 系统别说见了（机器视觉），连闻都很少闻（语音处理）”。

但就学界的前沿动态而言，在模型结构的探索上 AutoML（自动设计神经网络），以及在知识工程上的自动构建知识图谱，都是未来可预见的发展趋势。

就工业界而言，未来机器学习工程师的岗位反而会减少，因为神经网络可以自行设计神经网络，就不需要这么多工程师手动设计了。到时候，软件开发将进入 2.0 时代，不用再写代码，而是标注数据。标注数据丢给神经网络学习模型，模型的结构也是神经网络自动探索出来的，这个模型用来解决实际问题。软件工程师不需要写一行代码，或者说，他们标注的数据就是他们的代码。神经网络是他们的编译器，训练出来的神经网络是他们编译后的程序。正如编译器可以编译编译器一样，神经网络也可以训练神经网络。这就是未来最有潜力的技术。

写在最后

现在读到博士了，何晗的生活依旧简单，除了日常学习，他最爱的还是动漫和游戏。

维护 HanLP 之外，何晗还业余经营着一个名为“码农场”的博客，用于自己的课程笔记分享。由于太忙，这几年“码农场”的更新频率已经降到了以“年”为单位，不过，日常仍有数千粉丝来这里翻阅资料。

从该博客的一隅，或许可以一窥何晗的另一面。

在“码农场”的资料介绍处，何晗称自己是一个算法初心者。大二时兼职开发 HanLP，何晗常常一个人坐在教室忙活，同学们完全不知道在干什么，“大部分女同学认为我就是个码农，修电脑的那种；有的男同学觉得我很 low，有的觉得我很酷“，何晗从来不解释，他觉得做自己就好了。

他亦是一位算法坚守者，从兼职接触到如今锁定研究方向，他一直在自己喜欢的领域保持专注。采访最后，何晗告诉我们，毕业后，他会选择继续扎根学术。

【编辑推荐】

Photoshop 2020来了，人工智能让设计更轻松
央视点名推荐的“家庭智能管家”，疑似阿里人工智能实验室新品
新的人工智能编程语言超越了深度学习
媒体近距离接触谷歌量子计算机：还要解决哪些问题
81页计算机视觉学习指南，助你从萌新长成老司机

【责任编辑：张燕妮 TEL：（010）68476606】
点赞 0

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/4

首页