深兰科技

6冠3亚2季!深兰科技在RANLP2023国际赛事上斩获11项大奖

2023-09-03

9月4日至8日,RANLP2023(RecentAdvancesinNaturalLanguageProcessing)在保加利亚著名海滨城市瓦尔纳召开。该会议是自然语言处理领域的国际性会议之一,专注于自然语言处理(NLP)和计算语言学(CL)领域的最新研究进展和创新,为全球相关领域的研究人员提供了一个分享和学习的平台。深兰科技在本届会议上参与了多项竞赛任务,一共斩获了6个冠军、3个亚军、2个季军。

undefined

本次竞赛的大部分数据,来源于印度德拉维达语系。德拉维达语系在语法、音韵体系和词汇等方面都有独特的特点,与其他印度语系有显著的区别,完成相关竞赛任务要面临可用数据量少、质量低的难题。

深兰科技团队凭借丰富的竞赛经验,结合了多种模型训练技巧,使用多个预训练模型作为基座进行精调,然后选取优质的模型进行融合,最终在RANLP的竞赛中取得了6冠3亚2季的好成绩。

undefined

深兰科技此次参赛获得名次的研讨会有DravidianLangTech(含:侮辱性评论检测、情感分析、虚假信息检测三项任务)、LT-EDI(含:针对同性恋和跨性别的恶意言论检测、抑郁症检测两项任务)和CASE(含:基于因果新闻语料库的事件因果关系识别一项任务)。

undefined

图一:SentimentAnalysisinTamil

DravidianLangTech中,深兰科技#晒出上学时的你#在侮辱性评论检测任务下的Tamil-English和Telugu-English项子任务中,分别获得冠军和亚军;在情感分析任务下的Tamil和Tulu两项子任务中,夺得双冠;在虚假信息检测任务中夺得冠军。

undefined

图二:SentimentAnalysisinTulu

LT-EDI中,深兰科技在针对同性恋、跨性别的恶意言论检测下任务A所属的Tamil和Malayalam两项子任务中,分别夺得亚军和季军;在任务B所属Tamil和Malayalam两项子任务中,分别获得冠军和季军;在抑郁症检测任务中夺得亚军。


在CASE的基于因果新闻语料库的事件因果关系识别任务下的因果分类子任务竞赛中,夺得冠军。


当今数字时代,社交媒体和在线平台已经成为人们交流的主要平台,但随之而来的则是言辞滥用、虚假信息泛滥,甚至包含恶意和冒犯性的言辞。本届RANLP大赛的举办,不仅是一场科技的竞争,更是社会责任的展现,它将有助于人们共同创建一个更加友善、真实和包容的数字社会,为人们的情感交流和情绪表露提供一个更加安全、积极、理性的网络环境,赋能全社会的精神文明建设。


长期以来,深兰科技深耕自然语言处理技术,曾多次参加ACL、EMNLP、NAACL三大全球自然语言处理领域顶级会议,并在大会举办的相关任务竞赛中,与英特尔、Google、Microsoft等国际知名企业同台竞技,同时斩获多项世界冠军。迄今为止,已经累计赢得自然语言处理、计算机视觉和数据挖掘等AI领域各项国际赛事冠军50多个。

Document