Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

利特拉
正确的文章链接:

自动创建语义标记的短语语料库

Zaripova Diana Aleksandrovna

ORCID: 0000-0003-1121-1420



119991, Russia, Moscow, Leninskie Gory str., 1, building 51

diana.ser.sar96@gmail.com
Lukashevich Natal'ya Valentinovna



119991, Russia, Moscow, Moscow, Leninskie Gory microdistrict, 1, building 51, room 953

louk_nat@mail.ru

DOI:

10.25136/2409-8698.2023.11.44007

EDN:

QRBQOI

评审日期

12-09-2023


出版日期

26-11-2023


注解: 自动解决歧义的任务是语义文本分析的第一个也是关键阶段。 它包括在上下文中选择一个多义词的含义,甚至对人类注释者也会造成困难。 为了训练和测试基于机器学习的模型,以展示最高质量的指标,需要大量具有语义标记的数据。 通过数值手动标记结果证明是耗时的、昂贵的并且需要大量时间。 因此,开发和测试自动和半自动语义标记的方法非常重要。 此类标记的可能信息来源包括语义相关的单词以及包含该单词的搭配。 本研究的主题是语义标记的搭配语料库。 这项工作的目的是开发和测试一种基于同义词库中相关单词的信息自动生成这种语料库的方法。 本研究的主要方法是语料库方法,并使用Python编程语言进行了一些实验作为研究的一部分。 本文描述了基于俄语材料的语义标记的搭配语料库的自动创建过程。 为了解决词在搭配中的歧义,使用了基于RuWordNet同义词库的相关词。 相同的同义词库充当库存值的来源。 词库中的相关词对该词的一个或另一个含义进行投票,然后使用不同的方法对其投票进行权衡。 所描述的方法使得能够实现80%的F1度量并且向语料库中添加约23%的具有未识别的歧义的搭配。 在自动模式下创建的语义标记搭配语料库将简化标记数据的准备,用于训练和评估自动解决歧义的模型,并且还可以用作基于知识的模型中的知识源。 因此,在自动模式下创建标记搭配语料库,包括俄语,似乎是一个有前途的研究领域。


出版日期:

自动语言处理, 自动语义分析, 自动歧义解决, 语义标记, 案例的自动生成, 短语语料库, 价值清单, 语义相关的词, N.句法,句法, 同义词库