什么是數(shù)據(jù)挖掘?數(shù)字挖掘的概念是什么?數(shù)據(jù)挖掘一般要經(jīng)歷哪些流程?下面是有關(guān)數(shù)字挖掘的介紹。
據(jù)了解,數(shù)據(jù)挖掘理論涉及到的面很廣,它實(shí)際上起源于多個(gè)學(xué)科,可以簡(jiǎn)單的理解為從大量數(shù)據(jù)中提取或挖掘知識(shí)或者說是知識(shí)發(fā)現(xiàn)。
數(shù)據(jù)挖掘應(yīng)用了眾多領(lǐng)域的思想,包括來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn);來自人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論等。
數(shù)據(jù)挖掘一般經(jīng)歷以下幾個(gè)流程:
1. 解讀需求
絕大多數(shù)的數(shù)據(jù)挖掘工程都是針對(duì)具體領(lǐng)域的,因此數(shù)據(jù)挖掘工作人員不應(yīng)該沉浸在自己的世界里YY算法模型,而應(yīng)該多和具體領(lǐng)域的專家交流合作以正確的解讀出項(xiàng)目需求。這種合作應(yīng)當(dāng)貫穿整個(gè)項(xiàng)目生命周期。
2. 搜集數(shù)據(jù)
在大型公司,數(shù)據(jù)搜集大都是從其他業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)提取。很多時(shí)候我們是對(duì)數(shù)據(jù)進(jìn)行抽樣,在這種情況下必須理解數(shù)據(jù)的抽樣過程是如何影響取樣分布,以確保評(píng)估模型環(huán)節(jié)中用于訓(xùn)練(train)和檢驗(yàn)(test)模型的數(shù)據(jù)來自同一個(gè)分布。
3. 預(yù)處理數(shù)據(jù)
預(yù)處理數(shù)據(jù)可主要分為數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)歸約兩部分。其中前者包含了缺失值處理、異常值處理、歸一化、平整化、時(shí)間序列加權(quán)等;而后者主要包含維度歸約、值歸約、以及案例歸約。后面兩篇博文將分別講解數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)歸約。
4. 評(píng)估模型
確切來說,這一步就是在不同的模型之間做出選擇,找到最優(yōu)模型。很多人認(rèn)為這一步是數(shù)據(jù)挖掘的全部,但顯然這是以偏概全的,甚至絕大多數(shù)情況下這一步耗費(fèi)的時(shí)間和精力在整個(gè)流程里是最少的。
5. 解釋模型
數(shù)據(jù)挖掘模型在大多數(shù)情況下是用來輔助決策的,人們顯然不會(huì)根據(jù)"黑箱模型"來制定決策。如何針對(duì)具體環(huán)境對(duì)模型做出合理解釋也是一項(xiàng)非常重要的任務(wù)。
以上就是有關(guān)什么是數(shù)據(jù)挖掘?數(shù)字挖掘有哪些流程的介紹。