字节跳动火山翻译上新38个稀有语种

林月 2021-12-31 11:47:45
行业观察 2021-12-31 11:47:45 阅读 1420 评论 0

12月31日消息,据IT之家消息,近日,字节跳动旗下火山翻译官网上新了包括世界语、塔希提语、鞑靼语等在内的38个稀有语种的翻译。

目前,包括汉语、英语、阿拉伯语、俄语、法语、西班牙语六个通用语种在内,火山翻译已具备94个语种、8742个语向的翻译能力,整体bleu(机器翻译质量自动评估指标)达33.45,能够满足不同国家地区、不同种类的翻译需求。

format-jpg

蓝色部分为火山翻译上新的38个语种

据了解,通过采用自研的mRASP多语言模型,火山翻译仅使用一个模型就完成了上述38个语种与英文的双向互译,突破了传统双语言翻译模型对每个语向单独训练、单独上线服务的方式,大幅降低机器学习的训练和服务成本。

火山翻译团队介绍称,通常情况下,训练76个语向的双语言模型需要150-200天。而相同硬件条件下,训练一个多语言模型只需要30天。对于请求量小的语种,使用mRASP模型集中服务可以大大节省计算资源,仅需半张用于深度学习训练的Tesla T4显卡就可以满足38个语言的全部翻译请求,和双语翻译所需的资源一样。

format-jpg

据悉,火山翻译通过mRASP中的对比学习和词对齐信息,可以很好地借助单语语料和其他拥有丰富语料的语种来帮助训练,弥补训练数据的不足。数据显示,火山翻译此次上新的稀有语种平均bleu值达33.36,其中,海地语翻译表现最为突出,bleu值达50.76。

目前,火山翻译拥有火山同传、机器翻译与视频翻译三大产品,支持飞书、今日头条、西瓜视频等业务的翻译需求,并通过字节跳动旗下的企业级技术服务平台火山引擎对外提供翻译服务。

format-jpg

声明:
  1. 该内容为作者独立观点,不代表电商报观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
  2. 电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
  3. 如对本稿件有异议或投诉,请联系:info@dsb.cn
请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!
讨论数量: 0
暂无评论