Dataiku 提供强大的数据准备功能,帮助您将原始数据转化为可操作的见解,从无缝数据提取到高级特征工程。因此,当谈到我们认为人们应该了解的 Dataiku 中炫酷且被低估的数据准备功能时,我们不能只停留在一个列表上。
在这篇博客中,我们收集了更多数据准备的隐藏宝藏供您探索。让我们深入了解这些鲜为人知但功能强大的功能如何提升您的数据项目,这次重点介绍 Dataiku 如何帮助您验证数据。
预览:探索流程中的数据
您是否曾在 Dataiku 中启动过项目,并希望快速查看数据集?您可能不知道,从今年开始,您可以轻松做到这一点。使用预览选项,您可以查看输出示例并快速查看正在发生的事情,而无需离开流程。
图片 2-20-2024-11-48-27-4632-下午
在流程视图的右下角找到预览,查看前 50 行数据。
将此功能与数据沿袭等新功能配对,这样您就可以将数据集中的每一列追溯到其根源,从而可以进一步了解数据。数据沿袭可帮助您轻松追踪数据的来源,并了解沿途应用的转换。
比较行值:一眼就能识别差异
更深入地讲,处理详细数据集(例如 LLM 生成的输出数据集)通常需要清楚地了解 葡萄牙电话号码数据 据的差异。Dataiku 中的比较列值功能可并排比较列中的行,突出显示相应条目之间的差异。此工具对于验证数据完整性或调查差异特别有用,可让您精确定位需要进一步分析的确切区域。
图片6-11-20-2024-11-49-33-7588-下午
在数据集视图中,您现在可以并排比较行单元格。
AI 解释:快速汇总流程
流程可能会变得复杂,尤其是在查看您不熟悉的项目时。有时,弄清楚项目到底发生了什么可能会有点令人望而生畏。借助Dataiku 中的AI Explain(您应该查看的几款新 AI 助手之一),您可以借助生成式 AI快速了解流程中发生的事情。
图片5-11-20-2024-11-51-37-1719-下午
只需几次简单的点击即可轻松创建项目描述。
统计秘诀:释放 EDA 的力量
数据准备不仅仅是清理和转换——探索性数据分析 (EDA) 是解锁更深入见解的关键。您可能不知道 Dataiku 提供内置统计测试,使 EDA 比以往更快、更轻松。在流程中以配方的形式访问这些测试,只需单击几下,即可生成详细的分析和可视化效果,如直方图和箱线图。