# KNIME快速入门指南


# 介绍

KNIME Analytics Platform是用于创建数据科学应用程序和服务的开源软件。KNIME直观,开放并不断集成新开发成果,使每个人都可以理解数据并设计数据科学工作流程和可重用组件。

使用KNIME Analytics Platform,您可以使用直观的拖放式图形界面创建可视化工作流程,而无需进行编码。

在本快速入门指南中,我们将带您进入KNIME Workbench,并向您展示如何构建第一个工作流程。从一个真正的项目开始,您的大多数问题可能都会出现。在这种情况下,您会在《KNIME工作台指南》 (opens new window)和我们网站上的电子学习课程中 (opens new window)找到很多答案。但不要卡在指南中。也可以在KNIME论坛 (opens new window)上与我们以及KNIME Analytics Platform用户的广泛社区联系 。获得数据科学问题答案的另一种方法是探索KNIME Hub (opens new window)上可用的节点和工作流程 。我们很乐意为您提供帮助!

# 启动KNIME Analytics Platform

如果尚未安装KNIME Analytics Platform,则可以在此 下载页面上进行安装 (opens new window)。有关逐步的介绍,请遵循本《 安装指南》 (opens new window)

启动KNIME Analytics Platform,并在出现KNIME Analytics Platform Launcher窗口时,在此处定义KNIME工作区,如图1所示。

02工作区启动器

图1. KNIME Analytics Platform启动器

KNIME工作区是本地计算机上的一个文件夹,用于存储您的KNIME工作流程,节点设置以及该工作流程生成的数据。可通过KNIME Workbench左上角的KNIME Explorer访问存储在工作区中的工作流程和数据。

在为您的项目选择一个文件夹作为KNIME工作区之后,点击 启动。使用时,KNIME Analytics Platform用户界面-KNIME Workbench-如图2所示。

02 knime工作台

图2. KNIME工作台

KNIME Workbench由以下组件组成:

  • KNIME Explorer:活动的KNIME工作空间(即您的本地工作空间,KNIME服务器和您的个人KNIME集线器空间)中可用工作流程和工作流程组的概述。
  • 工作流程教练:根据广大KNIME用户社区构建的工作流程,列出节点建议。如果您不允许KNIME收集使用情况统计信息,该信息将处于非活动状态。
  • 节点存储库:此处列出了核心KNIME Analytics Platform和您已安装的扩展中所有可用的节点。节点是按类别组织的,但是您也可以使用节点存储库顶部的搜索框来查找节点。
  • 工作流程编辑器:用于编辑当前活动工作流程的画布。
  • Description(描述):当前活动的工作流程或选定节点的描述(在Workflow Editor(工作流程编辑器)或Node Repository(节点存储库)中)。
  • 大纲:当前活动工作流程的概述。
  • 控制台:显示执行消息,指示引擎盖下发生的事情。
KNIME工作台指南》 (opens new window)以及介绍性视频 《 KNIME工作台 (opens new window)》中 (opens new window)提供了有关KNIME Workbench中 (opens new window)不同视图的更详细说明。

# 节点和工作流程

在KNIME Analytics Platform中,单个任务由节点表示。每个节点都显示为带有输入和输出端口以及状态的彩色框,如图3所示。输入是节点处理的数据,输出是结果数据集。每个节点都有特定的设置,我们可以在配置对话框中进行调整。完成后,节点状态会更改,每个节点下方的交通信号灯都会显示该状态。节点可以执行各种任务,包括读取/写入文件,转换数据,训练模型,创建可视化等等。

03节点状态

图3.节点端口和节点状态

互连节点的集合构成了工作流,通常代表特定数据分析项目的一部分或全部。

# 建立您的第一个工作流程

现在开始构建示例工作流程,在其中分析一些销售数据。完成后,工作流程将如图4所示。不要担心,如果您一路走来,可以在KNIME Hub上 (opens new window) 找到 (opens new window)完成的工作流程。

03工作流程

图4.示例工作流程

图4中的示例工作流程从CSV文件中读取数据,过滤出一部分列,过滤出一些行,并以两个图形显示数据:堆叠面积图和饼图,您可以在图5中看到它们:一个显示了销售随着时间的变化,另一个显示了不同国家/地区在总销售中所占的份额。

03输出视图

图5.示例工作流的输出视图

首先,请首先下载CSV文件,其中包含我们将在工作流程中使用的数据。你可以在这里 (opens new window)找到它。接下来,通过以下方法创建一个新的空工作流程:

  • 在KNIME Workbench顶部的工具栏面板中单击“新建”
  • 或者在KNIME Explorer中右键单击本地工作区的文件夹,如图6所示。

03创建工作流程

图6.创建一个新的空工作流程

您需要的第一个节点是File Reader节点,您将在节点存储库中找到它。您可以导航到IO→读取→文件读取器,或在节点存储库面板的搜索框中键入名称的一部分。

要在工作流程中使用该节点,您可以:

  • 将其从节点存储库拖放到工作流编辑器
  • 或双击节点存储库中的节点。它会自动出现在工作流编辑器中。

现在让我们定义该节点的设置:

  • 通过双击打开配置对话框任一文件读取器节点,或通过右击并选择配置...,如图7。

    03配置文件阅读器1

    图7.配置节点

  • 在配置对话框中,单击“浏览” 按钮定义文件路径,然后检查其他可用设置,并预览数据,如图8所示。

    03配置文件阅读器2

    图8. File Reader节点的配置对话框

现在,您可能需要检查输出表,以查看是否按预期读取了数据文件。要检查输出表:

  • 通过右键单击文件读取器节点并选择执行执行该节点
  • 通过右键单击执行的节点并选择菜单中的最后一个选项,打开输出表:文件表

如果正确读取了数据,则将“列过滤器”节点添加到工作流编辑器,并将其连接到“文件读取器”节点:

  • 单击“文件阅读器”节点的输出端口,按住鼠标按钮并将其释放到“列过滤器”节点的输入端口
  • 或者,通过在工作流程中单击一次来选择“文件读取器”节点,然后双击节点存储库中的“列过滤器”节点。此方法自动将“列过滤器”节点连接到“文件读取器”节点。

在继续之前,必须配置“列”过滤器节点:

  • 通过双击列或使用图9所示配置对话框中的ExcludeInclude字段之间的按钮,将“ country”,“ date”和“ amount”列移到绿色框内的 Include字段中。

    03柱过滤器

    图9.配置列过滤器节点

  • 单击确定完成配置

继续构建工作流程:

  • 将“行过滤器”节点添加到工作流编辑器并将其连接到“列过滤器”节点

  • 打开“行过滤器”节点的配置对话框,并从输入表中排除行,其中“ country”列的值为“ unknown”,如图10所示。

    03行过滤器

    图10.配置行过滤器节点

现在,数据已被过滤,让我们继续进行数据可视化:

  • 在节点存储库中搜索节点堆积面积图和饼图/甜甜圈图,并将它们添加到工作流编辑器中,两者都连接到“行过滤器”节点

  • 打开堆积面积图节点的配置对话框。选择列“ date”作为x轴列,如图11所示。

    03堆积图

    图11.配置堆积面积图节点

  • 现在,打开“饼图/甜甜圈图”节点的配置对话框,并为饼图选择“国家”作为类别列,选择“总和”作为汇总方法,并选择“金额”作为频率列。这两个配置选项都如图12所示。

    03饼图

    图12.配置饼图/甜甜圈图节点

工作流程完成,下一步是执行它并查看输出。您可以通过单击图13所示工具栏中的“执行所有可执行节点”按钮来执行此操作……

03工具栏

图13.从工具栏执行所有可执行节点

…或通过选择工作流不同分支的最后一个节点,右键单击所选内容,然后在菜单中单击“执行”。

要检查基于JavaScript的节点的交互式输出视图:

  • 为未执行的节点选择“*执行并打开视图”*选项,如图14所示。

    03执行视图1

    图14.执行和打开交互式视图

  • 或者,一旦执行一个节点,右键单击该节点并选择*交互视图:...*相反,如图15

    03执行视图2

    图15.打开一个已执行节点的交互式视图

当前,饼图使用数据中不同国家/地区的默认颜色。使用“颜色管理器”节点,可以为国家/地区分配除图5中显示的默认颜色以外的其他颜色。在构建图形之前必须分配颜色,因此您必须在“颜色管理器”中间添加“颜色管理器”节点。工作流程。

添加颜色管理器节点:

  • 当连接变为红色时,通过从节点存储库中拖动节点并将其释放到工作流中的Row Filter节点和Pie Donut Chart节点之间的位置,如图16所示。红色连接意味着它已准备好接受释放鼠标时的新节点。

03更换

图16.在工作流的两个节点之间插入一个节点

# 工作流程示例

使用KNIME Hub上的示例工作流程快速开始分析。您可以直接在hub.knime.com (opens new window)上浏览,也可以通过KNIME Explorer中的EXAMPLES挂载点浏览示例工作流程。您可以将工作流程复制到本地工作空间,根据用例进行修改,或将其中的一部分复制到工作流程中。KNIME集线器上的工作流程也是了解KNIME Analytics Platform中不同用例的有用资源。

# 在KNIME Hub上访问示例工作流程

  • 前往KNIME集线器 (opens new window)

  • 接下来,在搜索字段中输入搜索词,如图17所示。

    04 knime枢纽

    图17.在KNIME Hub上搜索工作流程

  • 浏览搜索结果中的工作流程

  • 选择一个工作流程,然后单击右侧的“打开工作流程”按钮,如图18所示。

    04 knime枢纽2

    图18.从KNIME Hub打开工作流程

您也可以安装扩展并将节点或组件添加到工作流程中,只需将它们从KNIME Hub页面拖放到KNIME Workbench。

# 在KNIME Analytics Platform中访问示例工作流程:

  • 在KNIME Explorer中展开EXAMPLES挂载点
  • 接下来,双击以查看按类别排序的示例工作流,如图19所示。不需要凭据。

04示例服务器

图19.登录到示例挂载点

  • 在这些类别中,某些工作流组是按单个操作命名的,例如过滤
  • 其他工作流程组的名称涉及更广泛的主题,例如时间序列分析
  • “ 50_Applications”工作流组包含的工作流涵盖了整个用例,例如客户流失预测或欺诈检测

要下载示例工作流程:

  • 拖放
  • 或者,复制并粘贴

将工作流程导入本地工作空间。双击示例工作流程的下载副本,即可像其他任何工作流程一样打开和编辑它。

视频“示例服务器” (opens new window)提供了对“示例服务器”的更详细介绍。

# 扩展和集成

如果要向KNIME Analytics Platform添加功能,则可以安装扩展程序和集成。可用扩展包括KNIME提供的免费开源扩展和集成,以及社区和商业扩展提供的免费扩展,包括我们合作伙伴提供的新颖技术节点。

由KNIME开发和维护的KNIME扩展和集成包含Keras提供的深度学习算法,H2O提供的高性能机器学习,Apache Spark提供的大数据处理以及Python和R提供的脚本。

通过以下方式安装扩展程序:

  • 单击文件菜单栏上,然后安装KNIME扩展...。将打开图20中所示的对话框。
  • 选择您要安装的扩展
  • 单击*下一步,*然后按照说明进行操作
  • 重新启动KNIME Analytics Platform

05安装扩展

图20.安装扩展和集成

默认情况下,可通过其更新站点的URL使用KNIME扩展和受信任的社区扩展。其他扩展程序可以通过首先添加其更新站点来安装。

要添加更新站点:

  • 导航到文件首选项安装/更新可用软件站点
  • 点击添加...
  • 并通过在“*位置”*字段中提供URL来添加新的更新站点
  • 或者,通过存档提供包含本地更新站点的zip文件的文件路径*...*
  • 最后,给更新站点起一个有意义的名称,然后单击“确定”。

完成此操作后,可以按照上述说明安装扩展。

更新站点在《 安装指南》 (opens new window)中有更详细的说明。有关扩展的更多信息,请参见“扩展和集成指南” (opens new window)

通过以下方法更新到最新的KNIME版本:

  • 单击文件,然后*更新KNIME ......*以确保您使用KNIME软件的最新版本,并已安装的扩展
  • 在打开的窗口中,选择更新,接受条款和条件,等待更新完成,然后重新启动KNIME Analytics Platform

# 提示与技巧

  • 在KNIME论坛上获得帮助和讨论 登录到我们的KNIME社区论坛 (opens new window),并参加不同类别的讨论,范围从KNIME Analytics Platform,扩展和集成,特殊兴趣组以及KNIME开发。该论坛是一个活跃的社区,KNIME的工作人员以及其他经验丰富的KNIME用户可以在那里回答您的问题。

  • 进出口工作流程 要导入工作流程或工作流程组,在KNIME浏览器本地工作区右侧的任意位置单击,然后选择导入(Export)KNIME工作流程...,如图21

    04进口出口1

    图21.导入和导出工作流和工作流组

    然后,按照下面说明的步骤进行操作,如图22所示:

    • 要导出工作流程或工作流程组,请首先选择要导出的工作流程(或组)
    • 接下来,写入目标文件夹的路径和文件名。如果导出工作流程组,则可以从文件夹内部选择要导出的元素。

    04进口出口2

    图22.定义要导入或导出的文件的路径

  • 通过拖放数据文件导入数据通过将 数据文件从KNIME Explorer,Desktop或File Explorer拖放到工作流编辑器中,您可以从KNIME工作区或系统上的任何位置导入数据文件,如图23所示。方法自动创建正确的节点以读取文件类型,并通过使用相对于KNIME Explorer位置的文件路径URL填充文件路径设置来预配置该节点。

    04文件拖放

    图23.通过拖放读取数据文件

  • 替换工作流程中的节点 您可以通过以下方式替换工作流程中的节点:从存储库中拖动节点并将其放到现有节点的顶部,只要其中出现白色箭头和框,如图24所示。

    04替换节点

    图24.替换工作流中的节点

  • 展开节点搜索:模糊搜索和酥脆搜索 如果不确定要搜索的节点的名称,请通过单击搜索字段旁边的图标切换到节点存储库中的模糊搜索模式,如图25所示。现在,您的搜索结果将包括与搜索词相关的所有节点。在明快搜索模式下,搜索文本必须与节点名称本身完全匹配。通过更多的构建工作流的练习,您将记住越来越多的节点名称。一段时间后,您可能会切换回清晰的搜索模式以更快地找到您要查找的节点。

    04清晰模糊搜索

    图25.酥脆和模糊搜索模式

  • 监视节点的状态 如果要在工作流中查看中间输出表,可以将节点监视器面板添加到KNIME Workbench:

    • 单击视图→其他→KNIME视图→节点监视器,如图26所示。

      04添加节点监视器1

      图26.将节点监视器添加到KNIME工作台

    • 接下来,在Node Monitor的右上角的View菜单中选择Show Output Table,如图27所示。此面板现在显示您在工作流程中选择的节点的输出。

      04添加节点监视器2

      图27.在节点监视器中显示输出表

    除了输出表,您还可以使面板显示节点的执行时间。您也可以固定一个节点的输出。这意味着将独立于工作流编辑器中的选择显示当前所选节点的输出。