# 第3课。数据清理

KNIME-Data-Wranglers-L1-Lesson3

现在,您已经从一个或多个来源访问了数据,您可能需要稍微清理和转换它们。这些操作将数据转换为适当的形状,以准备数据进行进一步分析,更清晰地显示信息并存档数据。有用的操作包括行和列过滤,功能转换和标准化等。

本课程包括练习,数据文件,解决方案工作流以及预先建立的空练习工作流以及相关说明,可在[L1-DW KNIME数据牧马人分析平台-基础知识中找到。](https://hub.knime.com/maarit/spaces/Public/latest/E-Learning/L1-DW KNIME Analytics Platform for Data Wranglers - Basics/)电子学习中的 (opens new window)文件夹 KNIME集线器上的存储库。

跳到以下主要部分:

# 行和列过滤 (opens new window)

# 数据转换和标准化 (opens new window)

# 行和列过滤

一个好的开始是排除不必要的信息。可以删除行,例如,如果它们是重复项,缺少值或仅不属于感兴趣的子集。也可以删除无用或多余的列。

# 行过滤器

在这里,我们向您展示了一些用于过滤行的基本和高级选项:按字符串模式,数值范围,RowID,行号和缺少值的行。

#

#

参考工作*流行过滤器* (opens new window) *在KNIME Hub上可用。*

#

#

参考工作流程*高级行过滤* (opens new window) *在KNIME Hub上可用。*

练习:基本行过滤

解决方案:基本行过滤

练习:高级行过滤

解决方案:高级行过滤

# 列过滤器

您可以通过匹配列名称的字符串模式或数据类型来手动选择列。

参考工作流程列过滤器 (opens new window)工作流以显示列过滤器示例 (opens new window) 在KNIME Hub上可用。

练习:列过滤

解决方案:列过滤

# 数据转换和标准化

在继续分析或报告数据之前,您需要确保数据格式正确:数据类型正确,数据在必要时进行了归一化,字符串值被修整,数值被四舍五入以及生成了新功能从现有的有用的地方。

# 数据处理:数字,字符串和规则

当您应用数据转换操作时,这些非常通用的节点会派上用场:“字符串操作”,“数学公式”和“规则引擎”节点。下面的第一个视频显示了它们的异同。第二个视频显示了如何使用“列表达式”节点一次执行多个数据操作任务。

参考工作流程字符串处理,数学公式和规则引擎示例 (opens new window)列表达式以进行数据处理 (opens new window) 在KNIME Hub上可用。

练习:数据转换

解决方案:数据转换

# 数据处理:日期和时间值

日期和时间值具有其专用的数据类型“日期和时间”。日期和时间值可以使用特定的日期和时间操作节点进行过滤,聚合和操作。在下面的视频中,我们向您展示了其中的一些示例:如何将数据类型从字符串更改为专用数据类型Date&Time,如何从时间戳提取粒度到多个列以及如何修改时间戳以显示相关数字。

参考处理日期和时间值的 (opens new window)工作流程 在KNIME Hub上可用。

练习:日期和时间操纵

解决方案:日期和时间操作