随意记录一下阅读论文中的启发和一些重要的点,可能顺序比较混乱,哈哈。
系统简介
作者将 Natural language interface(NLI)和 Dataflow visualization systems(DFVS)结合,构建了 FlowSense 系统。这个系统利用 NL 技术减少数据流图的学习开销。这个系统通过语义分析,为数据流图中的内容加上一些 tag,并且这些 tag 是内容独立的,不受数据集影响,用户可以与这些 tag 进行交互,从而更好理解结果,方便 bug 搜寻。
Natural language interface(NLI)
论文中提及的其他 NLI 系统:
- InfoStill
- DataTone
- Orko
- IBM Watson Analytics
- Microsoft Power BI
- Wolfram Alpha
FlowSense 是基于 VisFlow 进行的构建。
一个 NLI 的解释,主要是允许用户通过一些日常的语言、短句等与信息系统交互,而不需要知晓专业的名词才能知道结果。
FlowSense 与 其他 NLI 系统的区别
- 用户可以调用检索多个时间段下的 queries,而不是仅仅一个。
- 反馈是实时的,不需要等待整个 queries 完成。
- 从 FlowSense 反馈的分数可以结合 DFVS 很好地理解。
FlowSense 中的 Semantic Parser
为了构建 Semantic Parser,作者首先分析了 VisFlow 中的各种示意图,并最终选择了 6 种作为主要用到的 VisFlow 图。
FlowSense 首先提取了一个叫 special utterances 的东西。这是一些从输入数据和 VisFlow 示意图中提取出的单词,能够代表数据和图的含义。这一步应该是人为定义的,比如说 table 的 column name,VisFlow 中的 node name,node type等。
针对 Semantic Parser 的生成,FlowSense 通过 Stanford SEMPRE framework 和 CoreNLP toolkit 构建。文中提到是使用 derivation 的方法。还有一些具体的 NLP 内容,在文中 3.x 和 4.x 有详细介绍。我看不懂,就略过。
FlowSense 的验证
还是通过列举应用实例,以及调研使用者的反馈来实现。
总结
这篇文章主要是借助了 NLP 中的 NLI 技术,对 VisFlow 示意图的内容通过文字的形式进行了可视化,让用户能够更加直观地理解数据流图。并且 FlowSense 是相对数据独立的,可重复利用性好。