突尼斯方言口语理解与层次隐马尔可夫模型状态序列求解
在自然语言处理领域,对于不同语言的口语理解和状态序列求解是重要的研究方向。本文将围绕突尼斯方言口语理解中的语义标注以及层次隐马尔可夫模型(HHMMs)中最可能的上层状态序列求解展开探讨。
突尼斯方言口语理解的语义标注
由于缺乏突尼斯方言的自动分析器,研究人员采用完整存储方法对动词和名词进行了自动浅层形态分析,构建了动词和名词可能变化的形态库,以辅助名词和动词的处理。
- 标注语料特征 :仅标注了623个对话,这些对话代表2352个客户轮次,客户轮次中共有7814个标注词。具体特征如下表所示:
| 特征 | 数量 |
| — | — |
| 标注对话数量 | 623 |
| 标注客户轮次数量 | 2352 |
| 客户轮次中标注词数量 | 7814 |
-
统计语义标注方法
- 序列标注任务 :口语理解的浅层解析即序列标注,旨在为转录语音的一组观察序列分配标签序列。例如在铁路请求信息领域,为话语中的每个单词标注其对应的概念,如“[ ﻣﻊOut] [ وﻗﺘﺎشHour_Req] [ إيOut] [ إيOut] [ اﻟﺘﺮانTrain] [ ﻳﻤﺸﻲDeparture_Cpt]”。
- 统计语义标注 :以往的工作通过统计模型处理序列标注任务,从生成模型到判别模型都有深入研究。研究表明,判别模型能够在条件随机场(CRF)中纳入相关特征,相比
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



