NEWS AND INFORMATION
新闻中心
|
人大附高中生中NeurIPS顶会真卷到中学了实验结果显示★★,在验证集和测试集上★,该模型的BLEU得分分别达到了62★.4和62.3★★★,显著提高了盲文翻译的准确度★。 NeurIPS是今年刚设的★★“高中生赛道★★”,主要征集“机器学习的社会影响”方向的论文★★★。 据张铭教授介绍,吴悠在2022年高一加入她的课题组时★,就提出了这个项目的想法。
公告中还规定了,作者需要提交高中在读证明,所有补充材料均应完全由作者完成★★★,包括视频、Demo★、海报、网站或源代码★★★。
论文致谢中提到,吴悠主要是在张铭教授博士生、论文第二作者袁野的指导下完成了这项研究。 而后,为了模拟真实世界中盲文使用者省略声调的情况,作者识别出这些盲文中代表声调的部分,并随机去除了其中90%的声调,创建Chinese-Braille-10per-Tone以反映现实世界中中文盲文的使用情况。 *阶段★★:使用Chinese-Braille-Full-Tone数据集作为训练的简单部分,让模型学习基本的翻译规则★★★。这个数据集中的盲文包含完整的声调信息★。 今年★★,NeurIPS率先把AI顶会卷到了高中里,正式面向高中生征集论文★★,还为此专门设置了高中生赛道(High School Projects Track)★。
同音字混淆:中文中存在大量同音字,并且由于声调符号经常被省略★★★,同音字的区分变得更加困难。 张铭★★,北京大学计算机学院教授,博士生导师,研究领域包括文本挖掘★★★、知识图谱、图神经网络和计算机教育研究等★。她合作发表的科研学术论文曾获ICML 2014*论文、ICDM 2022*论文提名等荣誉★★。Google Scholar显示★★★,她的论文引用量接近2万,h指数为48。 详细来说,就是允许高中生们找外部导师来合作完成项目★,但必须把导师以及合作者的贡献,和高中生作者的贡献区分开来。 提交项目必须说明完全由高中生作者独立完成的工作★★★。希望每个提交的项目都能突出显示积极的社会影响★,或者使用机器学习产生积极社会影响的潜力。 人大附中吴悠,有一篇一作论文入选该赛道,还被选为了Spotlight Project。 第二阶段:使用Chinese-Braille-No-Tone数据集,让模型在没有声调信息的情况下,学会根据上下文猜测正确的中文字符★。 该项目是在吴悠高三时完成。张铭教授透露,他目前已进入康奈尔大学就读计算机和生物医药工程专业。 接着★★,采用课程学习策略——即从简单到复杂地安排训练任务,分三个阶段微调了多语言Transformer模型mT5★★: (正确答案★★★:不过★★,对于自己外向的性格★★,埃托奥说,“这就是真实的我,我不会为此改变。) 盲文数据的特殊性:盲文通过最多三个单元格来表示每个汉字的发音★,即声母★★★、韵母和音调。但在实际使用中,盲文使用者通常会省略大部分声调符号,这给盲文翻译带来了挑战★★。
训练方法方面,作者使用RetinaNet来执行盲文OCR任务,将盲文图像转换为数字盲文字符。
论文作者已经放出了项目Demo,效果是酱婶的★★★,感兴趣的小伙伴们可以戳文末链接自行测试★★: 具体来说★,该项目基于谷歌的mT5模型,采用Curriculum Learning(课程学习)方法微调出了一个盲文翻译模型。 作者从莱比锡数据集中收集了100万个不同的中文句子,使用中文盲文在线平台提供的工具★★,将收集到的中文句子转换为“全音”盲文★。 缺少数据集★★:中文盲文翻译数据集非常稀缺,数据的采集也比较困难★★★,需要耗费大量人力。 |