西南財(cái)經(jīng)大學(xué)招收碩士生考試說(shuō)明及考試大綱
適用專業(yè):大數(shù)據(jù)管理
考試科目:《數(shù)據(jù)挖掘綜合》
第一部分:考試內(nèi)容及要求
一. 數(shù)據(jù)挖掘概述
考試內(nèi)容
數(shù)據(jù)挖掘的概念 知識(shí)發(fā)現(xiàn)過(guò)程 數(shù)據(jù)挖掘數(shù)據(jù)類型 數(shù)據(jù)挖掘功能和模式 數(shù)據(jù)挖掘可利用的技術(shù) 數(shù)據(jù)挖掘應(yīng)用 數(shù)據(jù)挖掘的主要問(wèn)題
考試要求
1.了解數(shù)據(jù)庫(kù)系統(tǒng)技術(shù)的演變過(guò)程;理解數(shù)據(jù)挖掘的概念;掌握知識(shí)發(fā)現(xiàn)過(guò)程的7個(gè)步驟。
2.掌握數(shù)據(jù)挖掘的數(shù)據(jù)類型;掌握數(shù)據(jù)挖掘功能和模式;理解數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)的聯(lián)系和區(qū)別;了解數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域;了解數(shù)據(jù)挖掘的主要問(wèn)題。
二. 數(shù)據(jù)預(yù)處理
考試內(nèi)容
數(shù)據(jù)屬性 數(shù)據(jù)基本描述統(tǒng)計(jì) 數(shù)據(jù)預(yù)處理概述 數(shù)據(jù)質(zhì)量 數(shù)據(jù)預(yù)處理的主要步驟 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)變換 數(shù)據(jù)規(guī)約 數(shù)據(jù)離散化
考試要求
1.了解數(shù)據(jù)對(duì)象與屬性類型。
2.理解數(shù)據(jù)的基本統(tǒng)計(jì)描述,掌握均值、中位數(shù)、眾數(shù)、極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差的概念和計(jì)算方法;了解數(shù)據(jù)基本統(tǒng)計(jì)描述的圖形顯示;了解度量數(shù)據(jù)的相似性和相異性。
3.了解進(jìn)行數(shù)據(jù)預(yù)處理的原因及其重要性;了解數(shù)據(jù)質(zhì)量涉及的因素;掌握數(shù)據(jù)預(yù)處理的主要步驟。
4.了解數(shù)據(jù)清理的概念;了解處理數(shù)據(jù)缺失值的方法;了解處理噪音數(shù)據(jù)的方法。
5.理解數(shù)據(jù)集成的概念;掌握冗余和相關(guān)性分析的方法(

6.了解數(shù)據(jù)變換的策略;掌握數(shù)據(jù)規(guī)范化的計(jì)算方法(最小-最大規(guī)范化、z分?jǐn)?shù)規(guī)范化、按小數(shù)定標(biāo)規(guī)范化)。
7.理解數(shù)據(jù)歸約的概念;了解數(shù)據(jù)歸約的策略;了解線性回歸、對(duì)數(shù)線性模型、直方圖、聚類、抽樣等數(shù)據(jù)歸約方法。
8.理解數(shù)據(jù)離散化和概念分層的概念;了解數(shù)據(jù)離散化的方法(分箱、直方圖分析、聚類分析、相關(guān)分析)。
三.數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理
考試內(nèi)容
數(shù)據(jù)倉(cāng)庫(kù)基本概念 OLTP和OLAP 數(shù)據(jù)立方體 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型 概念分層 典型的OLAP操作 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn) 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘
考試要求
1.理解數(shù)據(jù)倉(cāng)庫(kù)的概念和關(guān)鍵特征;了解OLTP和OLAP的概念和主要區(qū)別。
2.了解數(shù)據(jù)倉(cāng)庫(kù)模型的種類;了解元數(shù)據(jù)庫(kù)的概念以及與其他數(shù)據(jù)的區(qū)別。
3.理解數(shù)據(jù)立方體的概念;了解數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型(星型模式、雪花模式、事實(shí)星座模式);了解典型的OLAP操作方法。
4.了解數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖, 了解數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程和步驟;了解OLAP查詢處理的步驟。
5.了解三類數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用;了解多維數(shù)據(jù)挖掘的重要性。
四. 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
考試內(nèi)容
頻繁項(xiàng)集概念 頻繁項(xiàng)集挖掘方法 Apriori算法 FP-growth算法
考試要求
1.理解項(xiàng)集、閉項(xiàng)集、頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的概念 ;了解規(guī)則興趣度的兩種度量(支持度和置信度)。
2.了解關(guān)聯(lián)規(guī)則挖掘的步驟。
3.了解Apriori算法的步驟;了解FP-growth算法的步驟和優(yōu)缺點(diǎn);掌握相關(guān)性度量提升度(lift)的計(jì)算方法。
五. 分類和預(yù)測(cè)
考試內(nèi)容
數(shù)據(jù)分類和預(yù)測(cè)的概念 判定樹(shù)歸類算法 信息增益 樹(shù)剪枝 回歸分析 分類法的準(zhǔn)確性 組合分類器 類不平衡問(wèn)題
考試要求
1.理解數(shù)據(jù)分類的概念;了解分類的兩個(gè)過(guò)程;理解監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別;了解分類和預(yù)測(cè)的數(shù)據(jù)預(yù)處理方法;掌握評(píng)估分類和預(yù)測(cè)方法的標(biāo)準(zhǔn)。
2.了解決策樹(shù)的概念和優(yōu)缺點(diǎn);了解決策樹(shù)歸分類的主要步驟;了解常用的屬性選擇度量,掌握信息增益度量的求法;理解兩種常用的樹(shù)剪枝方法。
3.了解評(píng)估分類器性能的度量;了解評(píng)估分類和預(yù)測(cè)準(zhǔn)確率的方法(混淆矩陣、靈敏度和特小型、F度量)。
4.了解K-折交叉驗(yàn)證和自助法的基本思想;了解ROC曲線的概念和特點(diǎn)。
5.了解組合分類器的概念和常用的組合分類方法;了解裝袋和提升的基本思想以及兩者的區(qū)別;了解隨機(jī)森林的基本思想。
6.了解類不平衡問(wèn)題的概念;了解提高類不平衡數(shù)據(jù)分類準(zhǔn)確率的一般方法。
六. 聚類分析
考試內(nèi)容
聚類分析的概念 聚類方法的分類 算法方法的距離度量 劃分方法 層次方法 基于密度的方法 基于網(wǎng)格的方法 聚類評(píng)估
考試要求
1.理解聚類分析的概念;了解聚類分析的應(yīng)用領(lǐng)域;了解比較聚類方法的標(biāo)準(zhǔn);了解數(shù)據(jù)挖掘?qū)垲惖牡湫鸵螅涣私獗容^聚類方法的各個(gè)方面。
2.理解劃分方法的概念和一般特點(diǎn),以及典型算法;理解層次方法的概念和一般特點(diǎn),以及典型算法;理解基于密度的聚類方法的概念和一般特點(diǎn),以及典型算法;理解基于網(wǎng)格的聚類方法的概念和一般特點(diǎn),以及典型算法;
3.理解K-均值算法的步驟和優(yōu)缺點(diǎn);
4.了解算法方法的距離度量。
5.了解聚類評(píng)估概念和主要任務(wù);了解測(cè)定聚類質(zhì)量的方法。
第二部分:考試方法和考試時(shí)間
數(shù)據(jù)挖掘綜合考試采用閉卷、筆試形式,考試時(shí)間為180分鐘。
第三部分:試卷結(jié)構(gòu)及參考書目
(一)題分:試卷滿分為150分
(二)題型比例:
選擇題與判斷題 約40%
簡(jiǎn)答題和計(jì)算題 約60%
(三)參考書目:
《數(shù)據(jù)挖掘 概念與技術(shù)》(原書第3版),作者:Jiawei Han(韓家煒),出版社:機(jī)械工業(yè)出版社。
原文鏈接:http://yz.swufe.edu.cn/web/2020-09/16/202009161510146840.html
以上就是“2021考研大綱:西南財(cái)經(jīng)大學(xué)817數(shù)據(jù)挖掘綜合2021年碩士研究生入學(xué)考試自命題科目考試大綱及參考書目”的全部?jī)?nèi)容,更多考研大綱信息,請(qǐng)多多關(guān)注!