在解决当今时代更复杂的业务问题时,数据挖掘作为解决这些复杂问题的工具无疑已经受到欢迎。数据挖掘不仅作为紧迫问题的解决者,还开辟了许多机会,因为它已被证明在许多领域有效且适用:银行、制造和生产、保险、医疗保健等。它揭示了以前未知的模式,使其成为可能对于商业优势很有用。通过对这些庞大而丰富的信息源应用数据挖掘工具(即 CRISP-DM、SEMMA 等),为他们提供见解有助于为预期的未来做好准备,为更好、更快的响应和管理创建整体视图。
作为数据挖掘的标准流程之
SAS Institute 的SEMMA指的是进行数据挖掘的中心流程。SEMMA 是样本、探索、修改、建模和评估的缩写,它从统计上具有代表性的数据样本开始。然后,它 越南 WhatsApp 号码数据 探 索性和可视化技术,然后修改变量表示、模型变量以预见结果,最后确认模型的精度。图 1 显示了有关 SEMMA 工作原理的数据挖掘过程,然后是每个阶段的更详细说明。
SEMMA 数据挖掘流程 资料来源
Sharda, R.、Delen, D.、Turban, E. (2018)。大数据智能、分析和数据科学:管理视角。04.培生教育。新泽西州。国际标准书号:9780134633282。 示例– 在此阶段生 电话列表 成数据是可选的。它涉及提取大型数据集,以便可以通过模式推断出重要的信息。作为优化成本和性能的一种方法,SAS 研究所应用完整详细信息源的可靠且具有统计代表性的样本,而不是挖掘整个数据量。