# KNIME工作台指南
本指南介绍了启动KNIME Analytics Platform后要执行的第一步,并为您提供KNIME Workbench中可用于构建工作流的资源。它还说明了如何自定义工作台和配置KNIME Analytics Platform以最适合特定需求。在本指南的最后一部分,我们介绍数据表。
# 工作空间
启动KNIME Analytics Platform时,将显示KNIME Analytics Platform启动器窗口,并要求您定义KNIME工作区,如图1 (opens new window)所示 。
KNIME工作区是本地计算机上的一个文件夹,用于存储KNIME工作流,节点设置和工作流产生的数据。 | |
---|---|
图1. KNIME Analytics Platform启动器
可通过KNIME Workbench左上角的KNIME Explorer获得工作区中存储的工作流程和数据。
# KNIME工作台
选择当前项目的工作区后,点击启动。将打开KNIME Analytics Platform用户界面-KNIME Workbench。
它通常如图2 (opens new window)所示组织。
图2. KNIME工作台
在接下来的几节中,我们将解释工作台的以下组件的功能:
- 欢迎页面 (opens new window)
- 工作流程编辑器和节点 (opens new window)
- KNIME资源管理器 (opens new window)
- 工作流程教练 (opens new window)
- 节点存储库 (opens new window)
- KNIME集线器搜索 (opens new window)
- 描述 (opens new window)
- 节点监控器 (opens new window)
- 大纲 (opens new window)
- 安慰 (opens new window)
# 欢迎页面
图3中 (opens new window)显示的欢迎页面位于KNIME Workbench的中间。
图3.欢迎页面
本页链接到信息,例如可用的更新和最新的KNIME新闻,即将发生的事件以及提示和技巧。
关闭欢迎页面后,如果没有以前创建的工作流,则需要创建一个空的工作流编辑器,如下一节所述。
# 工作流程编辑器和节点
工作流编辑器是组装工作流的地方。工作流由节点代表的单个任务组成。
创建一个新的工作流编辑器将文件→新建...并选择新的工作流KNIME在打开的窗口选项。然后单击下一步,在要创建的工作流名称旁边的字段中为新工作流命名 ,然后单击完成。其他选项可用,如“ 构建工作流程”部分中所述 (opens new window)。
在新的空工作流程编辑器中,通过将节点从节点存储库 (opens new window)拖动到工作流程编辑器,然后连接,配置和执行它们来创建工作流程。
# 节点数
在KNIME Analytics Platform中,单个任务由节点表示。节点可以执行各种任务,包括读取/写入文件,转换数据,训练模型,创建可视化等等。
# 关于节点的事实
图4.节点端口和节点状态
- 每个节点都显示为带有输入和输出端口以及状态的彩色框,如图4 (opens new window)所示。
- 输入端口保留节点处理的数据,输出端口保留操作的结果数据集
- 数据通过连接从一个节点的输出端口传输到另一个节点的输入端口。
为简单起见,当我们引用节点输入和输出端口时,我们引用数据,但是节点也可以具有输入和输出端口,这些输入和输出端口包含模型,数据库查询或“节点端口”中 (opens new window)解释的另一种类型。 | |
---|---|
# 更改节点的状态
可以更改节点的状态,可以对其进行配置,执行或重置。所有这些选项都可以在图5 (opens new window)所示的节点的上下文菜单中找到 。
通过右键单击节点打开上下文菜单。从上下文菜单中,还可以打开输出表和视图以及复制节点,以及一些更高级的节点选项。
图5.节点的上下文菜单
# 识别节点状态
每个节点下面的交通灯显示该节点的状态。配置节点后,交通灯从红色变为黄色,即从“未配置”变为“已配置”。
首次将新节点添加到工作流编辑器时 (opens new window),其状态为“未配置”-由节点下方的红色交通灯显示。
# 配置节点
可以通过在其配置对话框中调整设置来配置该节点。
通过以下任一方式打开节点的配置对话框:
- 双击节点
- 右键单击一个节点,并选择*配置...*在上下文菜单
- 或者,选择节点并按F6
除了特定于任务的设置,每个节点配置对话框还具有:
- “内存策略”选项卡:在这里可以定义是尝试将表保留在内存中,还是将所有表都写入磁盘(有关详细信息,请参阅内存中缓存 (opens new window)部分)。
- “流量变量”选项卡:在“流量控制指南” (opens new window)中说明了流量变量
# 执行节点
一些节点在创建时已经具有“已配置”状态。这些节点是可执行的,无需调整任何默认设置。
通过以下任一方式执行节点:
- 右键单击该节点,然后选择执行。
- 或者,选择节点并按F7
如果执行成功,则节点状态变为“已执行”,这对应于绿色交通信号灯。如果执行失败,则会在交通信号灯上显示错误符号,并且必须根据需要调整节点设置和输入。
右键单击节点,然后在菜单中选择最后一个选项,以检查输出,例如数据表和已执行节点的视图。如果节点产生的输出,像所有基于JavaScript的节点(互动)视图中,选择*(互动)查看:...*从上下文菜单中打开它。
# 取消执行节点
要取消节点的执行,请右键单击该节点,然后选择“*取消”,*或者选择它并按F9。
# 重置节点
要重置节点,请右键单击它,然后选择“*重置”,*或选择它并按F8。
重置节点还会重置工作流程中的所有后续节点。现在,节点的状态从“已执行”变为“已配置”,节点的输出被清除。 | |
---|---|
# 节点端口
一个节点可以具有多个输入端口和多个输出端口。使用左侧的输入端口和右侧的输出端口的互连节点的集合构成了工作流程。输入端口使用来自先前节点的输出端口的数据,而输出端口将数据提供给工作流中的后续节点。
除了数据表 (opens new window),输入和输出端口还可以提供其他类型的输入和输出。对于每种类型,输入和输出端口对看上去都不同,如图6 (opens new window)所示。
输出端口只能连接到相同类型的输入端口-数据到数据,模型到模型等。
某些输入端口可以为空,例如图6中 (opens new window)“决策树视图”节点的数据输入端口。这意味着输入是可选的,并且无需输入即可执行节点。必须提供强制输入(由填充的输入端口显示)才能执行该节点。
图6.常用端口类型
工具提示会简要说明输入和输出端口。如果执行了该节点,则输出数据的尺寸将显示在其数据输出端口中。输入和输出端口的更详细说明在节点描述中。
# 如何在工作流程中选择,移动,复制和替换节点
可以通过拖放将节点移动到工作流编辑器中。要在工作流之间复制节点,请选择选定的节点,右键单击所选内容,然后在菜单中选择“复制”。在目标工作流程中,右键单击工作流程编辑器,然后在菜单中选择“粘贴”。
要在工作流编辑器中选择一个节点,请单击一次,该节点将被边框包围。要选择多个节点,请按“ Ctrl”并通过单击鼠标来选择节点,或者使用鼠标在节点上绘制一个矩形。
通过将新节点拖动到现有节点上来替换节点。现在,现有节点将被一个带箭头的彩色框和内部的框覆盖,如图7 (opens new window)所示。释放鼠标将替换节点。
图7.替换工作流中的节点
# 注释和注释
在工作流编辑器中,有两个选项可以记录工作流(如图8 (opens new window)所示):
- 通过双击节点下方的文本字段并编辑文本,向单个节点添加注释
- 向工作流添加一般注释,右键单击工作流编辑器,然后在菜单中选择“新建工作流注释”。现在,一个黄色框将出现在工作流编辑器中。
您可以在工作流注释框中执行以下操作。
- 要在工作流编辑器中移动工作流注释框,请首先从左上角激活它,然后将其拖动。
- 要调整框的大小,请拖动其任何边缘。
- 要编辑其中的文本,请双击注释框的左上角,然后在文本字段中键入新文本。
- 要更改文本和边框的属性,请双击左上角,然后在框内右键单击。将打开一个菜单,显示可用的编辑选项。
图8.编写节点注释并创建工作流注释
视频注释和评论 (opens new window)为您提供了一些有关如何记录工作流程的提示。 | |
---|---|
# 工作流程编辑器设置
通过单击图9 (opens new window)所示工具栏中的“工作流编辑器设置”按钮来更改工作流编辑器的视觉属性。
图9.更改工作流的视觉属性
在打开的对话框中,您可以更改网格的大小或完全删除网格线。您也可以将连接样式从角度更改为弯曲,并使连接更粗或更窄。
所做的更改仅适用于当前活动的工作流程编辑器。要更改默认工作流程编辑器设置,请转到文件→首选项→ KNIME → KNIME GUI →工作流程编辑器。
# 键盘快捷键
要查看键盘快捷键的完整列表,请 从工具栏中选择“帮助” →“显示活动的快捷键” 。在这里,还可以修改绑定并创建个性化的快捷方式。
# KNIME资源管理器
您可以在KNIME Explorer中管理工作流,工作流组和服务器连接。默认情况下 ,在KNIME Explorer中仅可见本地工作空间,EXAMPLES服务器 (opens new window)以及连接到您的个人KNIME集线器空间的链接。
图10. KNIME Explorer
# 挂载点
挂载点是可以从KNIME Analytics Platform访问的工作流存储库。它们可以在KNIME Explorer视图中显示为根目录。
每个安装点均由工作流存储库的位置和安装ID组成。对于本地工作流存储库,位置是文件夹的路径,对于服务器,位置是服务器的地址。挂载ID用于引用挂载点下的文件和工作流程。
# KNIME Explorer工具栏
KNIME Explorer的顶部是几个图标,排列在工具栏中,如图11 (opens new window)所示 。
图11. KNIME Explorer工具栏
图标的功能在下表1 (opens new window)中说明:
(+)展开显示其内容的选定工作流组(-)折叠元素 折叠KNIME Explorer中的所有元素,仅显示安装点 | |
---|---|
刷新视图,以防与基础文件系统不同步 | |
选择在工作流程编辑器中打开的工作流程 | |
在字段中添加文本,然后按“ Enter”。KNIME资源管理器将仅显示名称中包含文本或名称中包含文本的工作流组中的项目。 | |
打开资源管理器首选项页面,允许添加/删除/编辑挂载点 |
# KNIME Explorer内容
表2 (opens new window)中描述了在KNIME Explorer中可以看到的内容类型。
工作流程 | 用于在KNIME中分析数据的节点的集合 | |
---|---|---|
工作流程组 | KNIME Explorer中的文件夹,可用于存储工作流,数据文件,组件和元节点。 | |
资料档案 | 将数据文件从KNIME Explorer拖到工作流编辑器会自动创建正确的节点来读取文件类型。将数据文件存储在当前活动的工作空间中可以定义相对于文件在KNIME Explorer中位置的文件路径。 | |
组件/元节点 | 组件和元节点包含一个预配置的子工作流程,可以将其集成到工作流程的任何部分。组件是封装和抽象功能的节点。相反,元节点用于组织工作流程,折叠其中的一部分以隐藏工作流程功能的那一部分。 |
《KNIME组件指南》中 (opens new window)提供了有关组件和元节点的更全面的概述。 | |
---|---|
# 资源管理器操作
# 拖放元素
在KNIME Explorer中,可以像在任何其他文件资源管理器中一样在存储库之间移动元素。除此之外,还可以应用影响存储在KNIME Explorer中的工作流的操作:创建节点以读取不同的文件类型并使用工作流中的组件或元节点。这些操作总结在表3中 (opens new window)。
移动 | 要移动项目,只需将其拖放到所需位置 |
---|---|
复制 | 复制项目与移动项目相同。在拖放步骤中,按住“ Ctrl”键。鼠标光标旁边的小加号表示复制操作。此外,“ Ctrl” +“ c” /“ v”快捷方式可用于将元素从一个存储库复制并粘贴到另一个存储库。 |
节点创建 | 将数据文件拖放到工作流编辑器中。KNIME将自动创建适当的文件读取节点并预先配置该节点。 |
组件/元节点使用 | 可以将组件或元节点保存在KNIME Explorer中,以供以后重用。要做到这一点,右键单击任何部件或元节点,并选择 组件(或者元数据节点)→分享......。出现的对话框使您可以选择目标和链接类型。要使用存储在KNIME Explorer中的组件或元节点,请将其拖放到工作流编辑器中。 |
# 上下文菜单
上下文菜单中提供了您可以在KNIME Explorer中执行的其他有用操作。右键单击KNIME Explorer或视图的某个项目以打开图12 (opens new window)所示的菜单。
图12. KNIME Explorer上下文菜单
图12 (opens new window)所示的菜单项是可用于存储在本地工作空间中的工作流的操作,而没有任何远程工作空间可用。下面列出了可能的操作:
1个 | 打开工作流程 |
---|---|
2 | 创建一个新的空工作流程 (opens new window),将其放置在选定的工作流程组中,然后在工作流程编辑器中将其打开 |
3 | 创建一个新的空工作流组 (opens new window),并将其放置在选定的工作流组中或直接在“ LOCAL”安装点下 |
4 | 打开工作流程导入或导出向导 (opens new window) |
5 | 删除或重命名所选项目。如果当前在工作流编辑器中打开了工作流,或者工作流组包含打开的工作流,则该工作流将被锁定,并且无法重命名或删除。 |
6 | 打开元信息编辑器,可以在其中编写与所选工作流程或工作流程组相关的描述 |
7 | 刷新工作流(组),以防与基础文件系统不同步 |
8 | 展开不同文件路径类型 (opens new window)的菜单,以将路径复制到项目 |
9 | 剪切/复制所选项目 |
# 创建一个新的工作流程
要创建一个空的工作流程,右击任意位置在本地工作区,并选择新的工作流KNIME ...在菜单中,或使用其中的一个选项中说明建设工作流程 (opens new window)。 为工作流程命名,并定义新工作流程的目的地。 单击完成,新的工作流程将出现在KNIME Explorer中的选定工作流程组中。 要了解如何构建工作流,请查看下一节“构建工作流” (opens new window),按照《快速入门指南》中 (opens new window)的步骤进行操作 ,或查看视频“工作流和工作流组” (opens new window)。
# 建立工作流程
要创建工作流程,您需要一个空的工作流程编辑器。要创建一个新的空工作流编辑器,请执行以下任一操作:
- 导航到文件→新建...,然后选择新工作流程KNIME
- 点击工具栏中最左侧的图标
- 右键单击本地工作区,然后选择新建KNIME工作流程...
通过将节点从节点存储库拖动到工作流编辑器并将其连接来构建工作流。要将节点从节点存储库或工作流教练添加到工作流编辑器,您有两个选项,如图13 (opens new window)所示 :
- 将节点拖放到工作流编辑器中
- 双击节点
图13.将节点添加到工作流编辑器
将两个节点添加到工作流编辑器后,可以通过以下三种方式中的任何一种进行连接:
- 单击第一个节点的输出端口,然后在第二个节点的输入端口上释放鼠标。现在,节点已连接。
- 在工作流编辑器中选择一个节点,然后双击节点存储库中的下一个节点。双击将创建一个新节点,并将其连接到工作流编辑器中的选定节点。
- 在工作流编辑器中选择要连接的节点,然后按“ Ctrl + L”
要在工作流程中的两个节点之间添加节点,请将节点从节点存储库中拖出,并在连接器变为红色时将其释放到工作流程中的位置,如图14 (opens new window)所示。红色连接表示已准备好接受新节点。释放鼠标,节点就位。
图14.在工作流中间添加一个节点
# 工作流程组
可以将多个工作流程组织到工作流程组中。工作流程组是KNIME工作空间中的文件夹,可以包含多个工作流程,关联的数据文件,共享的组件和元节点,甚至其他工作流程组。
工作流程组LOCAL
位于KNIME Explorer中安装点下当前活动的本地工作空间 中。
您可以通过三种方式创建新的空工作流程组:
- 右键单击在KNIME Explorer中的本地工作区,并选择*新的工作流程组...*菜单
- 单击工具栏中最左侧图标旁边的箭头,然后选择“新建KNIME工作流组”
- 导航到文件→新建...,选择新的工作流KNIME集团在列表中,然后单击下一步。
在打开的对话框中,为文件夹命名,然后定义将文件夹保存在本地工作区中的位置。点击完成。现在,新文件夹将出现在KNIME Explorer中的选定目的地中。
# 导入/导出工作流程和工作流程组
您可以使用三个选项来导出工作流程或工作流程组:
- 导出为文件
- 在公共场所或私人场所将其保存到您的个人KNIME Hub空间中
- 或者,将其部署到服务器(需要许可证)
要将工作流保存到您的个人KNIME Hub空间中,需要登录。在KNIME Explorer中,右键单击My-KNIME-Hub(hub.knime.com),然后单击Connect to KNIME Hub。请注意,将工作流程组(包括数据 (opens new window)公开)保存到KNIME Hub上的公用文件夹时,请注意。 | |
---|---|
同样,您可以通过以下方式将工作流程导入本地工作空间:
- 将包含工作流程的文件导入本地工作空间
- 将服务器上的工作流程保存到本地工作空间。例如,您可以访问EXAMPLES服务器(不需要凭据),并将位于该服务器上的所有工作流程保存到本地工作空间中。
# 如何导入和导出工作流程(或工作流程组)
您可以通过以下方式导入或导出工作流程或工作流程组:
右键点击任何地方在当地KNIME工作区,并选择进口(出口)KNIME工作流程...,如图图15 (opens new window)。
图15.导入和导出工作流(组)
转到文件菜单并选择导入(导出)KNIME工作流程...
将打开图16 (opens new window)中所示 (opens new window)的对话框。
# 导入工作流程
在“导入”对话框的上部,选择要导入的项目,即定义要导入的文件或文件夹路径。在下面的“目标”字段中,在KNIME工作区中定义要导入到的目标文件夹。
导入工作流程组将在对话框的下部显示工作流程组内的元素列表。在这里,您可以选择单个元素来导入它们。
# 导出工作流程
在“导出”对话框的上部,选择要导出的工作流程(或组)。在下面的“目标”字段中,定义本地系统上目标文件夹的路径以及文件名。
在“选项”中,您可以选择在导出之前重置工作流程。重置节点后,节点状态从“已执行”更改为“已配置”,并且节点的输出不再可用。在执行状态下导出工作流程时,也会导出工作流程中使用的数据。有关更多信息,请参见“重置和日志记录 (opens new window)”部分。
导出工作流组时,可以选择要导出的文件包含的元素。
图16.定义用于导入和导出工作流的设置(组)
该视频还介绍了导入和导出工作流程: 导入/导出工作流程 (opens new window)。 | |
---|---|
- KNIME工作流程的文件扩展名是
.knwf
(KNIME工作流程文件) - 工作流程组的文件扩展名是
.knar
(KNIME存档文件)
# knime://协议
knime://
protocol是KNIME特有的协议,它允许指定相对于KNIME工作区甚至当前正在执行的工作流的位置的文件路径。
文件路径之后的第一个元素是该路径knime://
的基础。它可以是工作流本身,当前安装点或特定的安装点,如LOCAL
以下示例所示:
knime://LOCAL/My_First_Project/data/sales_2008-2011.csv
可移植文件路径选项在下面的小节和此视频中进行了解释:knime://协议 (opens new window)。 | |
---|---|
# 绝对网址
相对于特定安装点定义了绝对URL。以下文件路径是基于安装点使用文件的绝对路径定义的 LOCAL
:
knime://LOCAL/My_First_Project/data/sales_2008-2011.csv
文件路径现在可以在将工作流保存在本地工作空间中的任何系统上使用,并且本地工作空间文件夹中的文件路径是相同的。
# 相对于Mountpoint的URL
由于LOCAL
绝对路径中的术语,如果将工作流部署到服务器,则无法使用绝对URL访问文件。
要在本地和服务器上都可以访问数据文件,请选择相对于当前活动安装点的文件路径。
为此LOCAL
,请将文件路径中的术语更改knime.mountpoint
为此文件路径中的:
knime://knime.mountpoint/My_First_Project/data/sales_2008-2011.csv
在相对于mountpoint的文件路径中,knime.mountpoint
引用是最上层的文件夹级别,可以是LOCAL
或服务器的安装ID。
# 工作流相对路径
最灵活的可移植文件路径是工作流程相对路径。工作流相对路径定义相对于当前正在执行的工作流的文件路径。使用此文件路径,您可以访问不同系统或服务器上本地工作区中工作流中的数据文件,只要工作流与数据文件之间的文件夹结构相同即可。
与绝对路径和相对于mountpoint的相对路径相比,包含工作流的文件夹的名称不必在不同位置相同。这是因为较高的文件夹级别由/../
而不是文件夹的名称表示。
图17.工作流相对文件路径
# 使用数据保存工作流程
通过使用如上所述的工作流程相对路径,您可以轻松地将数据包含到工作流程中。首先,从操作系统访问knime-workspace中的工作流,然后手动创建一个名为的文件夹 data
,并将数据放入该文件夹中。这样,您可以使用相对于工作流程的路径 (opens new window)轻松地在节点内引用数据,从而确保您在存档,导出数据或将其上传到KNIME服务器或KNIME集线器时,数据都将随您的工作流程保留。
# 示例服务器
您可以在公共EXAMPLES服务器上探索示例工作流程,其中还包括一些实际用例。
通过在KNIME Explorer中展开EXAMPLES挂载点,检查工作流组中的不同类别,然后双击下面的文本,如图18 (opens new window)所示。
您可以通过拖放来下载示例工作流程,也可以将工作流程复制并粘贴到本地工作空间中。双击示例工作流程的下载副本,即可像其他任何工作流程一样打开和编辑它。 或者,直接在EXAMPLES服务器上双击示例工作流程,以在工作流程编辑器中将其打开。它保存到通过“本地工作区文件”,然后“另存为... ”。
图18.示例服务器上可用的示例工作流程
视频“示例服务器” (opens new window)提供了对“示例服务器”的更详细介绍。 | |
---|---|
# 工作流程教练
图19 (opens new window)中所示 (opens new window)的工作流程指导提供了节点建议。如果在工作流编辑器中选择了一个节点,则工作流教练将显示最受欢迎的节点来跟随所选节点。否则,建议代表启动工作流程的最受欢迎节点。
这些建议基于有关KNIME Analytics Platform中构建的工作流程的KNIME社区使用情况统计信息。可以使用与从节点存储库相同的方式,通过拖放或双击将节点从工作流向导添加到工作流编辑器。
图19.工作流程指导
注意:随时可以通过选中选项“是,帮助改进KNIME”来开始或停止发送匿名使用数据*。*在“偏好设置 (opens new window)”的“ KNIME”对话框中 。
# 定制节点建议
自定义节点建议在“工作流教练”对话框中,在文件 →首选项→ KNIME →流程教练。您有以下三个选项:
- 通过启用“工作空间建议”对话框中的“工作*空间节点建议”*选项,基于当前活动的本地工作空间中的工作流添加节点建议
- 通过在“服务器建议”对话框中选择“ KNIME服务器”,基于服务器上的工作流添加节点建议
- 通过取消选中“工作流程指导”对话框中的“社区建议的节点”选项,可以禁用社区建议的 节点
视频 工作流程教练:KNIME人群的智慧 (opens new window) 提供了有关节点建议的更详细的介绍。 | |
---|---|
# 节点存储库
当前安装的节点在节点存储库中可用,它们按不同类别进行组织。您可以通过拖放或双击将节点存储库中的节点添加到工作流编辑器中,如“构建工作流 (opens new window)”部分中所述。
通过扩展类别或在节点存储库顶部的搜索字段中键入搜索词来搜索节点,如图20 (opens new window)所示 。默认搜索模式是明快搜索。使用此搜索模式,接口将返回所有名称中包含搜索词或位于名称中包含搜索词的子类别中的所有节点。
单击搜索字段旁边的图标,将搜索模式切换为模糊搜索。在此搜索模式下,界面返回与搜索词相关的所有节点。
图20.具有两种搜索模式的节点存储库
视频节点存储 (opens new window)库中也提供了有关 节点存储库的介绍 (opens new window)。 | |
---|---|
# KNIME集线器搜索
图2 (opens new window)中所示 (opens new window)的KNIME Workbench右侧的搜索栏 提供了一种便捷的方法,可以从KNIME Analytics Platform中直接搜索KNIME Hub (opens new window)。输入搜索词或句子后,按“ Enter”。这将打开浏览器窗口,并显示搜索结果,如图21 (opens new window)所示。
图21.在浏览器上检查KNIME Hub搜索结果
在KNIME Hub页面上,您可以:
- 检查,打开和下载工作流程
- 通过拖放将节点和组件添加到工作流中
- 通过拖放安装扩展
# 描述
图2 (opens new window)中所示 (opens new window)的KNIME Workbench右侧的描述面板 提供了对当前活动的工作流或在节点存储库或工作流编辑器中选择的节点的描述。对于工作流程,第一部分是一般性说明,其后是标签和指向与该工作流程相关的其他资源的链接。对于节点,第一部分是概述,其后是可用的设置选项,最后是输入和输出端口的列表。
# 节点监控器
“节点监视器”选项卡位于KNIME Workbench底部的控制台 (opens new window)选项卡的同一面板上,如图22 (opens new window)所示。检查工作流中的中间输出表特别有用。
自KNIME Analytics Platform 4.2版以来,默认情况下显示“节点监视器”选项卡。对于版本低于4.1的KNIME Analytics Platform,或者如果您关闭了“节点监视器”选项卡并想要还原它,请转到工具栏中的“查看”,然后 从菜单中选择“节点监视器”。 | |
---|---|
图22.节点监视器
在这里,您可以选择在活动工作流程中选定节点的任何端口上显示流量变量或输出数据的预览。要选择您想要可视化的输出类型,请单击节点监视器选项卡右上角的三个垂直点,然后选择。您还可以将监视器视图固定到特定节点,而与工作流程编辑器中的选择无关,例如,以便跟踪数据流的发展并帮助调试。为此,选择要固定的节点,然后单击节点监视器选项卡右上角的绿色固定符号。
# 大纲
在大纲中,在图23 (opens new window)所示的KNIME Workbench的底部 ,您可以找到当前活动工作流程的概述。如果整个工作流程都不适合工作流程编辑器,则可以通过滚动蓝色透明矩形来更改活动区域。
图23.大纲和控制台
# 安慰
图23 (opens new window)所示的KNIME Workbench底部的console选项卡 显示了与工作流程执行相关的所有警告和错误消息。要调试并记录要在控制台中报告的信息消息,请在文件→首选项→ KNIME → KNIME GUI中更改控制台日志级别。
# 自定义KNIME工作台
# 重置并记录
重置节点后,节点状态从“已执行”更改为“已配置”,并且该节点的输出不再可用。在以执行状态保存工作流程时,也会保存工作流程中使用的数据。即,数据集越大,文件大小越大。因此,如果可以无限制地访问数据集,建议在保存工作流之前先对其进行重置。
重置工作流程仅保存节点配置,而不保存任何结果。但是,重置节点不会撤消之前执行的操作。knime.log
文件中报告了在创建,配置和执行工作流程过程中完成的所有操作。
要检查knime.log
文件,请转到查看→打开KNIME日志。日志文件在工作流编辑器中打开。该knime.log
文件的大小受限制,到达文件后,行将从顶部覆盖。
该knime.log
文件也位于启动KNIME Analytics Platform时定义的KNIME工作区文件夹中的knime
-folder内的 .metadata
-folder中。
# 显示堆状态
堆状态面板显示工作流程执行期间的内存使用情况,并有助于监视项目的内存使用情况。要将堆状态面板添加到工作台,请转到文件→首选项。在打开的对话框中,单击常规,选择显示堆状态,然后单击应用并关闭。
显示内存使用情况的堆状态栏出现在状态栏的右下方,位于控制台面板的正下方。堆状态栏旁边是“运行垃圾收集器”按钮。单击它可以手动分配和释放内存。
# 配置KNIME Analytics平台
# 首选项
在首选项中,您可以调整KNIME Analytics Platform的默认设置。转到文件→首选项,然后在打开的对话框中显示子类别列表。每个类别都包含一个单独对话框,用于特定设置,例如数据库驱动程序,可用的更新站点和外观。
# 尼米
在子类别列表中选择KNIME,可以定义日志文件日志级别。默认情况下,它设置为DEBUG。此日志级别可帮助开发人员查找任何意外行为的原因。
您可以在下面直接定义所有节点的最大线程数。工作流的独立分支分布到多个线程,以优化整体执行时间。默认情况下,线程数设置为正在运行的计算机上CPU数的两倍。
在同一对话框中,您还可以为临时文件定义文件夹。
选中最后一个选项。*是,有助于提高KNIME。*同意向我们发送匿名使用数据。该协议激活了社区在工作流程指导中 (opens new window)的节点建议。
# KNIME GUI
该KNIME类,包含一个子类别KNIME GUI。在此对话框中,您可以定义控制台视图日志级别。默认情况下,它设置为“ WARN”,因为更详细的信息仅对诊断有用。
在下面的内容中,您可以选择使用KNIME Analytics Platform时显示哪些确认对话框。从以下选项中选择:
- 重置节点后的确认
- 删除节点或连接
- 更换连接
- 保存并执行工作流程
- 加载每晚构建的工作流
在同一对话框中,您可以定义如果某项操作需要执行工作流程中的先前节点,该怎么办。您有以下三种选择:
- 自动执行节点
- 始终拒绝节点执行
- 显示执行对话框
通过以下选项,您可以定义是否应自动保存工作流以及在什么时间间隔后自动保存链接的组件和元节点。您还可以定义视觉属性,例如工作流注释的边框宽度。
# 主密钥
可以使用主密钥对工作流程中使用的所有凭据进行加密。例如,一旦您为工作流中的不同数据库连接输入凭据,就不需要将它们与工作流一起保存,也不需要在每次打开工作流时都输入它们。相反,您只需要提供主密钥。
# 设置knime.ini
安装KNIME Analytics Platform时,配置选项将设置为其默认值。配置选项,即KNIME Analytics Platform使用的选项,范围从内存设置到某些扩展所需的系统属性。
您可以在knime.ini
文件中更改默认设置。该knime.ini
文件位于KNIME Analytics Platform的安装文件夹中。
要knime.ini 在MacOS上找到文件,请打开Finder并导航到已安装的应用程序。 接下来,右键单击KNIME应用程序,在菜单中选择Show Package Contents,然后导航到Contents,然后打开Eclipse。 | |
---|---|
knime.ini
使用任何纯文本编辑器(例如记事本(Windows),TextEdit(MacOS)或gedit(Linux))编辑文件。
该条目-Xmx1024m
中的knime.ini
文件指定的内存KNIME分析平台是如何允许使用。该值的设置将取决于正在运行的计算机中的可用内存量。我们建议将其设置为大约可用内存的一半,但是可以修改和个性化此值。例如,如果计算机具有16GB内存,则该条目可能设置为-Xmx8G
。
除了可用的内存,您还可以在knime.ini
文件中定义许多其他设置 。在表4 (opens new window)或此 配置选项的完整列表 (opens new window)中找到一些最常见设置的概述 。
设置 | 说明 |
---|---|
-Xmx 默认值: 1024m 例: -Xmx16G | 设置KNIME Analytics Platform可用的最大内存量。 |
-Dknime.compress.io 默认值: SNAPPY 可能的值: [SNAPPY|GZIP|NONE] 例: -Dknime.compress.io=SNAPPY | 确定将临时表写入磁盘时要使用的压缩算法(如果有)。 |
-Dorg.knime.container.cellsinmemory 默认值:5,000可能的值:0到2,147,483,647之间的任何值例: -Dorg.knime.container.cellsinmemory=100,000 | 此设置定义“小桌子”的大小。试图将小表保留在内存中,而与表缓存 (opens new window)策略无关。通过增加小表的大小,可以限制到磁盘的交换次数,其代价是减少了可用于其他操作的内存空间。 |
-Dknime.table.cache 默认值: LRU 可能的值: [LRU|SMALL] 例: -Dknime.table.cache=SMALL | 确定是否尝试在内存中缓存大表(即,不被认为是“小”的表;请参阅设置-Dorg.knime.container.cellsinmemory )。如果设置为LRU ,则按最近最少使用(LRU)的顺序或内存不足时将大表从内存中逐出。如果设置为SMALL ,大表将始终刷新到磁盘。 |
-Dknime.url.timeout 默认值:1,000毫秒例: -Dknime.url.timeout=100 | 尝试连接或从URL读取数据时,此值定义请求的超时。如果读取器节点发生故障,请增加该值。超时值太高可能会导致网站缓慢阻止KNIME Analytics Platform中的对话框。 |
# KNIME桌子
# 数据表
节点的 (opens new window)非常常见的输入和输出端口是数据输入端口和数据输出端口,它们对应于图24中 (opens new window)的黑色三角形 。
图24.数据输入和输出端口
数据表由列和行组成,并且包含许多等长行。每列中的元素必须具有相同的数据类型。
图25 (opens new window)所示的数据表由File Reader节点生成,该节点是许多带有黑色三角形输出端口的节点之一,用于输出数据。要打开表,请右键单击该节点,然后在菜单中选择最后一项“ 文件表”。输出表具有唯一的行ID和列标题。行ID由读取器节点自动创建,但也可以手动定义。因此,行ID和列标题可用于标识表中的每个数据单元。数据中的缺失值以问号显示。
除数据表外,节点输出还包含以下选项卡:
- “表格”标签显示表格的内容
- “规范”选项卡显示表的元信息,包括列名称,列类型和可选属性,例如列中值的域
- “属性”选项卡显示与某些列相关的元数据,例如,统计节点生成的“直方图”列中的直方图宽度
- “流变量”选项卡显示节点输出中可用的流变量及其当前值。
图25. KNIME Analytics Platform中的数据输出
在视频数据表结构中, (opens new window)我们将更详细地介绍KNIME Analytics Platform中的数据组织和数据表示。 | |
---|---|
# 列类型
在KNIME分析平台的基本数据类型是Integer
,Double
,和 String
,与其他支持的数据类型,例如沿Long
,Boolean
值,JSON
,URI
,Document
,Date&Time
,Bit vector
,Image
,和 Blob
。KNIME Analytics Platform还支持定制的数据类型,例如分子的表示。
单击输出表中的“ Spec”选项卡,以查看数据表中列的数据类型以及列中值的域,如图26 (opens new window)所示。对于数值,仅显示数据中值的范围。对于字符串值,将显示数据中出现的不同值。
图26.“ Spec”选项卡中的数据类型和数据域
KNIME Analytics Platform中的阅读器节点根据其对内容的解释为每个列分配一种数据类型。如果读取器节点无法识别列的正确数据类型,则此后可以更正该数据类型。有可用于转换数据类型的节点。例如:从字符串到数字,从数字到字符串,从双精度到整数,从字符串到日期和时间,从字符串到JSON和从字符串到URI。
String
阅读器节点识别出许多特殊数据类型。要将这些String
列转换为其正确的数据类型,请使用“列类型自动转换”节点。
使用文件读取器节点读取文件时,可以直接通过节点配置对话框转换列类型。为此,在预览中双击列标题,然后在打开的对话框中更改列类型,如图27 (opens new window)所示。
图27.在“文件阅读器”节点中更改列类型
# 排序
可以通过单击列标题并选择Sort Descending或Sort Ascending来按一列中的值对表视图输出中的行进行排序 ,如图28 (opens new window)所示。请注意,这种排序仅影响当前输出视图,而对节点输出没有影响。
图28.在表视图中对数据进行排序
要永久地对输出表中的行进行排序,请使用“排序器”节点。使用Column Resorter节点对列进行重新排序。
# 列渲染
在表视图输出中,您还可以更改数值在数据表中的显示方式。例如,可以以全精度将数值显示为百分比,也可以用色标或彩条代替数字。要查看列的这些和其他渲染选项,请右键单击列标题,然后选择Available Renderers,如图29 (opens new window)所示 。请注意,这些更改是临时的,对节点输出没有影响。
图29.在表视图中呈现数据
# 表存储
执行时,许多KNIME节点会在其输出端口生成并提供对表格数据的访问。这些表可能很大,因此可能无法放入正在执行的计算机的主存储器中。有几个选项可用于配置将哪些表保存在内存中以及何时以及如何将表写入磁盘。本节概述了这些选项。
# 内存中缓存
KNIME Analytics Platform区分大表和小表。当表由最多(超过)5000个单元格组成时,表被认为是小(大)表。可以通过文件中的-Dorg.knime.container.cellsinmemory
参数调整此5000个单元的阈值knime.ini
(opens new window)。KNIME Analytics Platform始终尝试在内存中保留小表,仅在内存不足时才将它们刷新到磁盘。
此外,KNIME Analytics Platform尝试在有足够内存可用时将最近使用的大表保留在内存中。但是,它会在后台将这些表异步写入磁盘,以便在一段时间没有访问它们或内存不足时可以将它们从内存中删除。您可以将 (opens new window) 特定节点的内存消耗配置 (opens new window)为从不尝试将其表保留在内存中,而是在执行时将其写入磁盘。如果您知道某个节点将生成一个无法保存在内存中的表,或者您想减少该节点的内存占用量,这将很有帮助。
图30.配置节点的内存策略
另外,通过将行-Dknime.table.cache=SMALL
放入knime.ini
(opens new window)文件中,可以将KNIME Analytics Platform全局配置为使用较少的内存消耗,尽管缓存策略要慢得多。此策略仅将小表保留在内存中。
# 磁盘存储
KNIME Analytics Platform压缩写入磁盘的表以减少占用的磁盘空间量。默认情况下,KNIME Analytics Platform使用Snappy压缩 (opens new window)算法来压缩其表。但是,可以通过文件中的-Dknime.compress.io
参数将KNIME Analytics Platform配置为使用GZIP压缩或完全不使用压缩方案knime.ini
(opens new window)。
KNIME Analytics Platform还支持使用Apache Parquet (opens new window)格式对表进行列式存储。列式表存储格式提供了对表的各个部分的更快访问,因此可以加快某些节点的执行速度。要安装柱状数据存储,在KNIME分析平台,转到文件→安装KNIME扩展...和搜索KNIME列存储(基于Apache木地板)。要启用柱状表存储,请导航至文件→首选项→ KNIME →数据存储。
← KNIME快速入门指南 扩展和集成指南 →