随意记录一下阅读论文中的启发和一些重要的点,可能顺序比较混乱,哈哈。

系统简介

作者将 Natural language interface(NLI)和 Dataflow visualization systems(DFVS)结合,构建了 FlowSense 系统。这个系统利用 NL 技术减少数据流图的学习开销。这个系统通过语义分析,为数据流图中的内容加上一些 tag,并且这些 tag 是内容独立的,不受数据集影响,用户可以与这些 tag 进行交互,从而更好理解结果,方便 bug 搜寻。

Natural language interface(NLI)

论文中提及的其他 NLI 系统:

  • InfoStill
  • DataTone
  • Orko
  • IBM Watson Analytics
  • Microsoft Power BI
  • Wolfram Alpha

FlowSense 是基于 VisFlow 进行的构建。

一个 NLI 的解释,主要是允许用户通过一些日常的语言、短句等与信息系统交互,而不需要知晓专业的名词才能知道结果。

FlowSense 与 其他 NLI 系统的区别

  • 用户可以调用检索多个时间段下的 queries,而不是仅仅一个。
  • 反馈是实时的,不需要等待整个 queries 完成。
  • 从 FlowSense 反馈的分数可以结合 DFVS 很好地理解。

FlowSense 中的 Semantic Parser

为了构建 Semantic Parser,作者首先分析了 VisFlow 中的各种示意图,并最终选择了 6 种作为主要用到的 VisFlow 图。

FlowSense 首先提取了一个叫 special utterances 的东西。这是一些从输入数据和 VisFlow 示意图中提取出的单词,能够代表数据和图的含义。这一步应该是人为定义的,比如说 table 的 column name,VisFlow 中的 node name,node type等。

针对 Semantic Parser 的生成,FlowSense 通过 Stanford SEMPRE framework 和 CoreNLP toolkit 构建。文中提到是使用 derivation 的方法。还有一些具体的 NLP 内容,在文中 3.x 和 4.x 有详细介绍。我看不懂,就略过。

FlowSense 的验证

还是通过列举应用实例,以及调研使用者的反馈来实现。

总结

这篇文章主要是借助了 NLP 中的 NLI 技术,对 VisFlow 示意图的内容通过文字的形式进行了可视化,让用户能够更加直观地理解数据流图。并且 FlowSense 是相对数据独立的,可重复利用性好。