Automatic Annotation Synchronizing with Textual Description for Visualization

作者

北京大学机器感知与智能教育部重点实验室

Chufan Lai
Zhixian Liu
Ruike Jiang
Yun Hai
Can Liu
Xianru Yuan (大数据分析与应用技术国家工程实验室)

摘要

在本文中，我们提出了一种根据文本描述自动标注可视化的技术。在我们的方法中，目标可视化中的视觉元素，以及它们的视觉属性，都是用掩码 R-CNN 模型识别和提取的。同时，解析描述以生成视觉搜索请求。基于识别结果和搜索请求，每个描述性句子作为注释显示在所描述的焦点区域旁边。不同的句子呈现在生成动画的不同场景中，以促进生动的逐步呈现。通过用户定制的风格，动画可以通过适当的突出显示来引导用户的注意力，例如强调特定的特征或隔离部分数据。我们通过不同用例的用户研究来展示我们方法的实用性和可用性。

Introduction

当人们分享他们的数据发现时，可视化起着重要的作用。可视元素及其属性能够以直观和吸引人的方式反映各种数据特征。然而，如果没有适当的指导，观众很难理解可视化的(口头或文本)描述。观众需要理解描述，知道提到了哪些实体和属性，然后在图像中直观地搜索它们。随着可视化变得越来越复杂，这个过程可能会很乏味和耗时。

精心制作一个注释良好的可视化可能是一项挑战。知道要强调哪些实体，演示者必须:(1)适当地突出显示焦点区域，(2)决定并绘制正确的图形覆盖(例如，箭头和趋势线)，以及(3)为注释找到合适的位置，以便它不会模糊关键的即时内容。此外，一个完整的数据故事通常涉及多个焦点，每个焦点用多个句子描述。在同一个图像上标注它们需要一个合适的位置。如果条件允许(例如，多媒体可用)，使用动画可能是更好的方式，其中动画的每个场景只有几个焦点。但这需要流畅的动画来顺利转移观众的注意力，这需要时间和专业知识来制作。

在本文中，我们提出了一种自动标注技术来帮助用户高效地使用虚拟化图表进行演示。

Automatic Annotation Synchronizing with Textual Description for Visualization

Related Work

注释辅助讲故事
自动生成注释
从可视化中提取信息
数据实体提取
辅助实体提取
自然语言界面

可视化标注的自动化

Automatic Annotation Synchronizing with Textual Description for Visualization
在这一节中，我们介绍了基于其工作流程的建议技术的设计细节，该工作流程包含三个主要模块。由于数据连续地通过这些模块，我们的阐述也遵循相同的顺序。在此之前，我们简单介绍一下工作流及其设计原理。

我们的工作流程设计受到手动注释的四个步骤的启发。首先，我们浏览可视化，以了解图像中存在哪些实体及其属性。然后我们阅读文本描述，以了解描述了什么样的实体。之后，我们执行视觉搜索任务，即在视图侧集合中搜索所描述的实体。最后，我们突出显示图像中的实体，并将句子显示在旁边作为注释。

一旦视觉搜索完成，渲染就很容易了。因此，我们结合最后两个任务，设计了三个模块:目标检测、自然语言处理、和注释。前两个模块分别处理加载的图像和文本，以完成前两个任务，而注释模块完成其余任务。

Evaluation

在这一部分，我们通过用户研究和从用户输入中收集的多个用例来评估我们工作的有效性。

正如在“工作流”一节中提到的，所提出的技术完成了四项任务:即，阅读图表、综合描述、视觉搜索和注释呈现。前三个任务是为了同一个目标而执行的:将描述与所描述的图像区域正确匹配。给定注释，渲染任务旨在更好地引导观众的注意力，以获得更流畅的呈现。考虑到这两个目标是相互独立的，我们通过两个不同的研究来验证它们。

Automatic Annotation Synchronizing with Textual Description for Visualization

Automatic Annotation Synchronizing with Textual Description for Visualization
从结果来看，大多数参与者认为突出显示(Q3)、图形覆盖(Q4)和动画(Q5)有助于演示和图表阅读。相比之***释的位置(Q1)和样式(Q2)仍有改进的空间。

Discussion and Future Work

在这一节中，我们讨论了当前提出的自动注释技术的局限性。

更复杂的关系经常出现在关系数据可视化中(例如，节点链接图)。为了处理这种关系，我们仍然需要进一步的研究来理解它们的普遍模式。

在 OD 模块中，考虑到数据特征不可预测的外观(如聚类)，我们不检测数据特征。这样的决定取决于我们使用的模型。在自然图像中，每种可检测的类型都有相当稳定的外观。当涉及到数据特征时，对象检测的性能可能比专门的特征检测算法差。一个可行的解决方案是对可视化类型[52，31]进行分类，并使用专门的算法相应地检测数据特征。

关于辅助实体检测也有局限性。自动标签阅读本身可能是一个独立的研究课题。目前，我们只考虑数据实体内部的标签。像 Darknet 这样的文本检测模块可以用来识别数据实体之外的标签。然而，仍然需要进一步研究如何将标签与其对应的数据实体相匹配，尤其是在拥挤的空间中。轴和颜色图例的样式也受到限制，例如，仅考虑分类图例。这些限制的存在只是为了缩小我们工作的重点

在自然语言处理模块中，我们的检测基于一个通用语言模型，以及预定义的词汇和句子结构。在大多数情况下，当前设置已经可以实现准确的信息提取。然而，当出现新情况时，仍然需要进行配置工作，因为不同的结构是逐案处理的。更智能的方法是收集可视化描述，并训练端到端语言模型，将可视化描述直接转换成结构化数据。

Conclusion

在本文中，我们提出了一种自动标注技术，以提高可视化数据呈现的效率。演示者可以上传带有相应文本描述的可视化图像，并获得一系列生动且注释良好的动画。这个过程非常高效，可以在几秒钟内完成。它为演示者节省了大量的时间和精力来制作注释，使他们能够更专注于设计数据故事的内容。

为了实现这一点，我们采用了最先进的目标检测模型来有效地从视觉化中提取信息。自然语言处理模型和技术用于根据描述生成搜索查询。通过完成视觉搜索，我们能够定位每个句子中描述的实体的焦点图像区域。我们提供各种类型的突出显示和注释选项，以帮助演示者自定义他们的演示。多个用例的案例研究证明了我们方法的有效性。未来，我们计划扩展我们的技术，以实现更精确、实时、语音控制的可视化标注。