數據分析諸問題整理

2022.01.01

首先, 虎年快樂. 由於正巧在覆習階段, 為了數據科學二學位收官, 也是為了更好地迎接新的一年, 在這里趁熱打鐵對數據分析中必須學習和掌握的二十余個基礎概念相關問題作盡可能詳盡的整理, 希望能有更好的覆習鞏固效果, 也希望能夠給其他人些許微小的幫助. 所有問題均來自於數據分析課程教師的整理和提供, 由個人翻閱教材和相關資料整理, 如有疏漏或錯誤請以實際為準.

數據分析諸問題概覽

  • 什麼是有監督式學習?
  • 什麼是無監督式學習?
  • 大數據的定義及特性?
  • 什麼是數據挖掘?
  • 數據挖掘與數據統計之間的關系?
  • 什麼是機器學習?
  • 機器學習與概率統計之間的關系?
  • 什麼是分類?
  • 什麼是聚類?
  • 什麼是關聯?
  • 什麼是回歸?
  • 什麼是估計?
  • 什麼是預測?
  • 密度聚類中的核對象是什麼?
  • 核對象中的 Ε 鄰域是什麼?
  • 什麼是決策樹?
  • 什麼是分離點?
  • 什麼是熵的不純度? 什麼是 GINI 不純度?
  • 什麼是單層感知器?
  • 什麼是 SVM 支持向量機?
  • 什麼是 CART 分類回歸樹?

數據分析諸問題及參考說明

什麼是有監督式學習?

有監督式學習, 也被稱為有指導的學習, 是機器學習的一種方法. 目標是要透過部分目標已知的訓練數據完成由輸入對目標估計的任務, 並輸出相應算法, 也被稱為有指導的數據挖掘. 一個學習算法或 一個有監督式學習就是在某種最優準則下給出一個最優的函數, 該函數可以恰當地描述輸入與輸出之間的關系, 得到這個函數的過程就是訓練集學習一個算法, 它產生對預測規則的一個估計, 學習算法根據估計的規則和真實的規則之間的誤差來評價學習算法的優劣, 控制誤差使估計接近最優準則的要求. 值得一提的是, 這里根據目標定量是定性的還是定量的, 通常分為分類和回歸.

什麼是無監督式學習?

無監督式學習, 也被稱為無指導的學習, 是機器學習的一種方法. 無監督式學習可以在沒有給定事先標記過的訓練示例的場景下自動對輸入的資料進行分類或分群. 無監督式學習有兩個主要的作用: 一是在數據中探索尋找新的模式, 這些模式使我們更深入地理解數據; 二是歸納和總結數據. 它能提供數據中的結構性質關系.

大數據的定義及特性?

大數據是用經典方式難以在有限時間內處理的數據集的統稱. 其主要有四維特性: 速度(數據產生的速度快), 多樣(其包括數值, 文本, 圖像, 聲音等各種類型), 價值(數據價值密度普遍較低), 大量(體積規模大和結構覆雜性高).

什麼是數據挖掘?

數據挖掘通常指一個自動或半自動化地從大量數據中發現有效的, 有意義的, 有潛在作用的, 易於理解的數據模式的覆雜過程. 一般認為這一定義最早於 1995 年的 AAAI 上由 Fayyad 提出, 這一定義明確了數據挖掘是一種用於發現數據中存在的有價值的知識模式的學習機制.

數據挖掘與數據統計之間的關系?

首先, 數據挖掘並不專屬於某一個具體的學科門類, 而是多學科交叉. 其中, 數據挖掘與數據統計這兩門科學都致力於模式發現和預測, 而數據挖掘並不是為了替代傳統的統計分析技術, 相反, 數據挖掘是統計分析方法的延申和拓展, 其主要不同見下表:

特征 數據統計 數據挖掘
問題類型 結構化 非結構或半結構化
主要方法論 估計與假設檢驗 探索推斷與評價
數據來源 實驗數據或為實驗而設計的抽樣數據 大多為非實驗的觀察數據
數據 數據集較小, 有同質性, 靜態, 主觀性較強 數據集較大, 有異質性, 動態
方法和機理 推演理論支持 經驗歸納和系統分析結合
分析類型 確定 探索性分析
變量個數 很小 很大
信噪比

什麼是機器學習?

根據 Tom M. Mitchell 於 1997 年給出的定義, 機器學習是面向任務解決的基於經驗提煉模型事先最優解設計的計算機程序. 其研究的是由經驗學習規律的系統. 一個機器學習算法主要由 5 個方面構成:

  • 任務: 即算法的目標, 如分類, 聚類等等;
  • 模型: 或模式的結構, 如線性回歸模型, 高斯混合模型, 圖模型等等;
  • 得分函數: 得分函數指評價模型或算法優良性的函數, 如敏感度和 BIC 等等;
  • 途徑設計: 達到最優解的途徑設計也即達到方法最優的參數估計計算方法, 如最速下降和 MCMC 等等;
  • 管理技術: 主要包括數據的保存, 索引和提取, 展現數據的方式, 特別是數據量較大時的存儲設計等等.

機器學習與概率統計之間的關系?

機器學習的本質是使用實例數據或經驗來訓練模型, 而在訓練模型模型時, 其主要的理論依據便是統計學理論, 這是由於統計學的任務就是從部分數據中做出推理. 也即 概率統計是機器學習的理論依據且機器學習是概率統計的具體應用之一.

什麼是分類?

分類是機器學習中的典型問題, 是透過對構成不同概念的特征進行分析, 歸納出能夠用於區分不同概念的判別準則, 從而得以有效地應用規則將新的觀測對象分配到事先指定的類別中, 也被稱為概念學習. 分類問題是普遍存在的, 也是揭示事物本質的基本途徑.

什麼是聚類?

聚類即聚類分析, 是一種探索數據分組的統計方法, 具體而言是在沒有訓練目標的情況下將樣本規劃為若幹簇的方法. 其目的是建立一種歸類方法, 將一批樣本或變量按照它們在特征上的疏密程度進行分類, 使得組內樣品的相似度達到最大, 而組間的差異達到最大. 實際上, 聚類分析通常就是無監督是學習. 正如前文所述, 與分類學習相比聚類的樣本通常不作事先標記, 需要由聚類學習算法自動確定. 它是數據挖掘中的重要分析方法, 由於數據和問題的覆雜性, 數據挖掘對聚類方法有一些特殊的需要, 這些需要表現為:

  • 大規模數據中塊特征的認知需要;
  • 能夠處理不同屬性數據的聚組;
  • 適應不同形狀的聚類方法;
  • 具備強抗噪聲能力和較好的解釋性;
  • 不受輸入數據順序的影響;
  • 高維聚類以及能夠和具體的約束兼容等…

以上多種需要也造就了豐富的聚類分析方法, 使得聚類分析廣泛地應用於客戶細分, 文本歸類, 結構分組和行為跟蹤等問題中, 使其成為數據挖掘中發展很快且靈活變化豐富的一個分支.

什麼是關聯?

關聯即關聯規則, 用於解決實際中常常會遇到的大規模變量間關系的辨識問題. 主要是利用一些有趣性的量度來識別數據集中發現的強規則, 一些規則是常識性的規則, 另一些規則具有啟發性. 在這類問題中, 變量之間的組合關系和組合規則的分析潛力是首要被認識的, 如何從為數眾多的變量中快捷地選出關聯性最強的兩組或更多組變量是關聯規則算法的核心問題. 其主要包括:

  • 靜態關聯規則算法: Apriori
  • 動態關聯規則算法: Continuous Association Rule Mining Algorithm
  • 序列規則挖掘算法

什麼是回歸?

回歸即回歸分析, 是一種統計學上分析數據的方法. 其主要目的在於了解兩個或多個變量之間是否相關, 其相關方向和強度, 並建立數學模型以便觀察特定變量來預測研究者感興趣的變量. 具體來講, 回歸分析可以幫助我們了解在只有一個自變量變化時因變量的變化量. 通常, 我們可以透過回歸分析由給出的自變量來估計因變量的條件期望.

什麼是估計?

估計是求得近似值或估計值的過程, 盡管近似值或估計值可能由於有不確定性, 或輸入資料不足或其他原因而並不完全準確, 但依然是由已知咨詢獲得的最佳結果, 可以在實務中投入使用. 換言之:

using the value of a statistic derived from a sample to estimate the value of a corresponding population parameter. –Data Construction and Data Analysis for Survey Research (2001)

即由群體的樣本計算得一統計量, 再以此來估計群體對應的統計量. 根據樣本估計值的偏差, 估計也分為高估和低估.

什麼是預測?

預測即預測分析, 指透過預測模型來研究或預估當輸入改變後其輸出會有什麼樣的變化. 通常, 考核一個預測模型是否是最優模型主要以準確性和穩定性為指標. 準確性, 即預測模型的預估結果和真實發生的情況是否保持基本一致或其誤差是否在允許範圍內; 穩定性, 即其是否能夠在多組數據中進行驗證時依然達到一個相對的滿意度. 而生成這一預測模型的過程就是這一模型的訓練過程.

密度聚類中的核對象是什麼?

如果一個對象 Ε 鄰域內的樣本點數大於等於事先給定的最小樣本點數 MinPts 則稱該對象為核對象.

核對象中的 Ε 鄰域是什麼?

給定對象半徑為 Ε 內的區域稱為該對象的 Ε 鄰域.

什麼是決策樹?

決策樹是一種樹狀分類結構模型, 它是一種透過對變量值拆分建立分類規則, 又利用樹形圖分割形成概念路徑的數據分析技術. 決策樹的基本思想由兩個關鍵步驟組成: 第一步是對特征空間按變量對分類效果影響大小進行變量和變量值選擇; 第二步用選出的變量和變量值對數據區域進行矩形劃分, 在不同的劃分區間進行效果和模型覆雜性比較, 從而確定最合適的劃分, 分類結果由最終劃分區域優勢類確定. 決策樹主要用於分類, 也可用於回歸, 與分類的主要差異在於選擇變量的標準不是分類的效果, 而是預測誤差.

什麼是分離點?

分離點也被稱為異常點或離群點, 是指偏離預期或正常水平的預測. 廣泛應用於信用卡安全保護, 醫學檢測, 網絡安全檢測等領域.

什麼是熵的不純度? 什麼是 GINI 不純度?

二者都是衡量系統混亂程度的標準, 在數據分析中則用作衡量信息不確定性的標準. 都從不同的角度衡量了類別變量的不確定性程度. 當類別中的不確定性較大時意味著信息(用於減小或消除隨機不確定性)大, 需要對數據進行劃分, 而劃分後的信息應該顯著低於劃分前, 不確定性也應減弱, 確定性應增強. 其中, GINI 不純度通常展示一個隨機事件轉變為其對立事件的概率.

什麼是單層感知器?

單層感知器是一種有監督是學習, 被視為一種最簡單形式的前饋神經網絡, 是一種二元線性分類器. 其實際上是一種基於糾錯學習規劃, 采用疊代思想對連接權值和閾值進行不斷調整, 直到滿足結束條件為止的學習算法.

什麼是 SVM 支持向量機?

支持向量機是尋找穩健分類模型的一種代表性算法. 支持向量機的思想最早在 1936 年 Fisher 構造判別函數時就已經顯露了出來, Fisher 構造的兩組數據之間的判別模型是過兩個集合中心位置的中垂面, 中垂面體現的就是穩健模型的思想. 而到了 20 世紀 90 年代 Vladimir Vapnik 基於小樣本學習問題正式提出支持向量機的概念, 作為一種以結構風險最小化原理為基礎的新算法. 支持向量機具有其他以經驗風險最小化原理為基礎的算法難以比擬的優越性, 它可以轉化為求解一個凸二次優化算法, 能夠保證得到的極值解是全局最優解. 除此之外, 它透過平衡的函數設計將估計的目標直接對準所要估計關系的最穩健方向, 在該方向之下直接產生最優邊界估計, 而不必像傳統方法那樣先估計關系再估計邊界. 支持向量機的目的是尋找泛化能力好的決策函數, 即由有限樣本量的訓練樣本所得到的決策函數, 在對獨立的測試樣本做預測分類時, 仍然能夠保證較小的誤差.

什麼是 CART 分類回歸樹?

CART 算法又被稱為分類回歸樹, 當目標變量是分類變量時則為分類樹, 當目標變量是定量變量時則為回歸樹. 分類樹與回歸樹的區別主要在於樣本的輸出, 如果樣本輸出時離散值則為分類樹, 樣本輸出時連續值則為回歸樹. 並且, 分類樹的輸出是樣本的類別, 回歸樹的輸出是一個實數. 分類回歸樹以疊代的方式從樹根開始反覆建立二叉樹.

拓展距離問題

當我們假設待聚類的個體特征用 m 個變量表示, 如果這些變量的取值都是連續型的, 那麼每個樣品都可以看作是 m 維空間中的一個點, 於是個體與個體之間的距離就可以用 m 維空間中點與點的距離來體現.

點與點之間的距離

常用的點與點間距離有 1-範數距離, 2-範數距離, ∞-範數距離等, 其中 2-範數距離即 歐氏距離, 由於歐式距離是聚類分析中使用最多的一種距離度量, 因此常見的距離分析所使用的距離一般都是歐氏距離.

類與類之間的距離

類與類之間的距離可以轉化為點與點之間的距離, 包括最小距離, 最大距離, 重心距離等.

結語

實際上並不打算寫結語, 但由於這篇文章主要偏向於應試和入門級的基礎概念理解, 所以還是有必要作個簡要的說明. 文章中的問題均由指導教師給出, 個人翻閱教材和相關資料自行整理和總結, 如有錯漏以實際為準, 也歡迎聯系指正. 當然, 對於數據分析領域還是建議在有指導的情況下透過一些可靠的教材來學習, 本文僅供參考, 並不用作任何入門指引或權威定義, 特此說明.