摘要:在自然语义识别任务中,单一模态数据难以有效捕捉复杂的语境信息。多模态数据融合通过结合视觉、听觉与文本等异构数据,构建了更为完整的语义理解框架。研究设计了一种融合驱动的语义识别架构,提出了基于深度(试读)...