什么是數據挖掘?數字挖掘的概念是什么?數據挖掘一般要經歷哪些流程?下面是有關數字挖掘的介紹。
據了解,數據挖掘理論涉及到的面很廣,它實際上起源于多個學科,可以簡單的理解為從大量數據中提取或挖掘知識或者說是知識發現。
數據挖掘應用了眾多領域的思想,包括來自統計學的抽樣、估計和假設檢驗;來自人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論等。
數據挖掘一般經歷以下幾個流程:
1. 解讀需求
絕大多數的數據挖掘工程都是針對具體領域的,因此數據挖掘工作人員不應該沉浸在自己的世界里YY算法模型,而應該多和具體領域的專家交流合作以正確的解讀出項目需求。這種合作應當貫穿整個項目生命周期。
2. 搜集數據
在大型公司,數據搜集大都是從其他業務系統數據庫提取。很多時候我們是對數據進行抽樣,在這種情況下必須理解數據的抽樣過程是如何影響取樣分布,以確保評估模型環節中用于訓練(train)和檢驗(test)模型的數據來自同一個分布。
3. 預處理數據
預處理數據可主要分為數據準備和數據歸約兩部分。其中前者包含了缺失值處理、異常值處理、歸一化、平整化、時間序列加權等;而后者主要包含維度歸約、值歸約、以及案例歸約。后面兩篇博文將分別講解數據準備和數據歸約。
4. 評估模型
確切來說,這一步就是在不同的模型之間做出選擇,找到最優模型。很多人認為這一步是數據挖掘的全部,但顯然這是以偏概全的,甚至絕大多數情況下這一步耗費的時間和精力在整個流程里是最少的。
5. 解釋模型
數據挖掘模型在大多數情況下是用來輔助決策的,人們顯然不會根據"黑箱模型"來制定決策。如何針對具體環境對模型做出合理解釋也是一項非常重要的任務。
以上就是有關什么是數據挖掘?數字挖掘有哪些流程的介紹。