在这个信息爆炸的时代,我们每天看到的信息太多了, 该怎么样像挑选喜欢的歌一样,从繁杂的信息里找到那篇自己想读的文字呢?最近,温州大学瓯江学院师生的一项名为“基于主题建模的文本小说自动摘要生成算法”的研究可以帮大家解决这一后顾之忧,他们的这项成果不仅成功发表在计算机科学与技术学科国际著名学术期刊《专家系统与应用,Expert Systems with Applications》上,还顺利申请了国家发明专利。
研究成果显著,具有重要现实意义
雷力是温州大学瓯江学院2016届本科毕业生,在毕业答辩一年后,他的毕业设计成果“基于主题建模的文本小说自动摘要生成算法,A Topic Modeling based Approach to Novel Document Automatic Summarization”终于成功发表在计算机科学与技术学科国际著名学术期刊《专家系统与应用》上,这是爱尔唯思(Elsevier)旗下的老牌期刊,主要发表专家智能系统领域的最新研究成果,系工程技术类国际SCI二区期刊,最新影响因子为2.982。该成果以温州大学瓯江学院为第一通讯单位,雷力同学为论文的通讯作者,其毕业设计指导老师吴宗大博士为论文的第一作者。
该研究成果借助计算机代替人工,能够快速地将数10万个单词的长篇英文小说自动压缩为500个单词左右的高质量小说摘要,帮助人们快速地了解长篇小说的内容梗概。在互联网信息爆炸的时代背景,该研究具有重要的现实意义。该研究还申请了国家发明专利。此外还得到了国家自然科学基金的资助。
一切从毕业设计开始,不断挑战自我
说起与这项研究的结缘,还要回到大三那年暑假,当其他同学还在准备考研或是公务员,出国或是实习的时候,电子信息工程专业的雷力却开始考虑自己的毕业设计。作为交换生,从台湾中华大学学习回来以后,雷力开始对“自然语言处理”领域产生了浓厚的兴趣:这是一门融汇了计算机科学、语言学等在内的跨学科领域。他考虑以这个方向作为自己的毕业设计方向,作为自己迈向这个领域的第一步。
对于非计算机专业的学生跨专业参与毕业设计是一件非常困难的事情:一是因为流程比较繁琐,未必能找到合适的导师;二是因为自身缺少计算机科学的背景知识,存在着无法毕业的风险。在班主任尤佳老师的鼓励帮助下,雷力争取到了在计算机科学系答辩的机会。
随后,他找到了学术上颇有建树的吴宗大老师,这位老师刚刚三十出头,却已经在教学和科研上取得了耀眼成绩,在国际权威学术期刊发表了许多成果。于是雷力怀着忐忑找到了吴老师。没想到,吴老师得知雷力的想法和能力后,非常热情地鼓励和接纳了他,并给他定一个小目标:在领域内国际著名学术上发表毕业设计成果,并申请国家发明专利。
实现小目标的过程,痛并快乐着
定下目标之后,雷力开始不断地阅读相关的资料,一次他偶然读到了一篇论文是利用文本自动摘要技术对小说进行摘要,他想能不能在保证压缩质量的前提下,进一步提高压缩比呢(比如控制在四五百字以内)?这样,既可以使更多的人有机会了解到经典读物的大概,激发阅读的兴趣;又可以让寻找资料的人能在极短的时间内判断一篇文章是否是自己想要的,节省了大量的时间成本。
有了这个想法以后,雷力在吴老师的指导下几乎就是疯狂弥补着这块研究的背景知识,为了能在尽可能少的句子里包含尽可能多的信息,使信息量最大化,他参考一些小说的文法结构特点,设计了一系列句子选取规则,基于主题建模方法,建立了摘要提取模型。并在美国爱丁堡计划提供的公共数据集(数据集包含数百本经典长篇小说),不断地进行实验评估。与五个当前国际主流的摘要算法的实验比较结果表明:相比于已有方法,雷力提出的方法所生成的小说自动摘要不仅拥有更高的压缩比率(0.5%以内),并且拥有极高的摘要质量(摘要主题多样性得到了显著提高)。
最终这篇毕业设计获得了了温州大学瓯江学院2016届本科优秀毕业论文,但据离一开始与吴老师拟定的小目标还有非常大的差距。一个本科生,在国际期刊发表论文并且得到同行的认可难度何其大,可如果放弃,那就是真的没有希望了。抱着试试看的心情,吴宗大老师和雷力将他们的论文投稿到了国外的知名期刊《专家系统与应用》,研究结果得到期刊主编美国路易斯安那州立大学Binshan Lin博士的肯定,认为这是一项重要而有趣,但审稿专家一针见血地提出了许多中肯意见。于是雷力又开始设计新的实验,反复和吴老师讨论着修改方向,斟酌着用词与结构,经过一个多月废寝忘食的修改,最终该论文成功发表。
最近,凭借该论文,雷力正在积极申请国外名校的研究生。现在已经得到了多个学校的回应。展望未来,雷力说:“路漫漫其修远兮,我的学术之路才刚刚起步”。(通讯员 杜晓哲)
相关链接:
新浪网:http://zj.sina.com.cn/edu/zgk/2017-05-19/062831336.html