FlowSense 论文笔记

随意记录一下阅读论文中的启发和一些重要的点，可能顺序比较混乱，哈哈。

系统简介

作者将 Natural language interface（NLI）和 Dataflow visualization systems（DFVS）结合，构建了 FlowSense 系统。这个系统利用 NL 技术减少数据流图的学习开销。这个系统通过语义分析，为数据流图中的内容加上一些 tag，并且这些 tag 是内容独立的，不受数据集影响，用户可以与这些 tag 进行交互，从而更好理解结果，方便 bug 搜寻。

Natural language interface（NLI）

论文中提及的其他 NLI 系统：

InfoStill
DataTone
Orko
IBM Watson Analytics
Microsoft Power BI
Wolfram Alpha

FlowSense 是基于 VisFlow 进行的构建。

一个 NLI 的解释，主要是允许用户通过一些日常的语言、短句等与信息系统交互，而不需要知晓专业的名词才能知道结果。

FlowSense 与其他 NLI 系统的区别

用户可以调用检索多个时间段下的 queries，而不是仅仅一个。
反馈是实时的，不需要等待整个 queries 完成。
从 FlowSense 反馈的分数可以结合 DFVS 很好地理解。

FlowSense 中的 Semantic Parser

为了构建 Semantic Parser，作者首先分析了 VisFlow 中的各种示意图，并最终选择了 6 种作为主要用到的 VisFlow 图。

FlowSense 首先提取了一个叫 special utterances 的东西。这是一些从输入数据和 VisFlow 示意图中提取出的单词，能够代表数据和图的含义。这一步应该是人为定义的，比如说 table 的 column name，VisFlow 中的 node name，node type等。

针对 Semantic Parser 的生成，FlowSense 通过 Stanford SEMPRE framework 和 CoreNLP toolkit 构建。文中提到是使用 derivation 的方法。还有一些具体的 NLP 内容，在文中 3.x 和 4.x 有详细介绍。我看不懂，就略过。

FlowSense 的验证

还是通过列举应用实例，以及调研使用者的反馈来实现。

总结

这篇文章主要是借助了 NLP 中的 NLI 技术，对 VisFlow 示意图的内容通过文字的形式进行了可视化，让用户能够更加直观地理解数据流图。并且 FlowSense 是相对数据独立的，可重复利用性好。