巨量資料分析實務Big data analysis in practice課程綱要

 

 


授課教師

黃冠華教授

辦公室:綜合一館423

電話:03-5131334

電子郵件:ghuang@stat.nctu.edu.tw

上課時間與地點

每星期五(下午)13:20-16:20於綜合一館406

課程網頁

http://ghuang.stat.nctu.edu.tw/course/bigdata14/

開課單位

統計碩

永久課號

IST5570

學分數

3

 

課程概述與目標

 

為培訓具備分析巨量資料能力的跨領域人才,統計所結合本校資訊學院,共同建立「巨量資料分析」學程(http://www.stat.nctu.edu.tw/data/super_pages.php?ID=data1)。為了充實「巨量資料分析學分學程」,我們開設一門新課程:「巨量資料分析實務」。

 

本課程將以實際的巨量資料為核心,讓學生接觸實際的巨量資料計畫,並學習相關的方法與技術。課程會就資料的背景、來源、要解決的問題及相關的domain knowledge做說明。接著,針對以下四個主題:1.資料搜集、儲存與整理;2.模型建立與分析方法;3.結果呈現、說明與視覺化;4.分析流程自動化軟體的製作,講述相關既存的概念、方法與實作工具,接著針對新穎方法進行討論。

 

上課方式,將包含課堂講解、演習課與專家演講。學期成績的評定,則依據繳交的作業與課程實作計劃報告。我們預計修課學生,將具有統計、資訊科學或其他知識領域的專業背景。我們將結合不同背景的學生組成課程實作計劃工作小組,每一工作小組將各自選定一巨量資料分析議題,針對特定的問題提出解決方案,實作整個巨量資料分析。 

 

課程組成部分

 

課堂講解

原則上,每星期五(下午)13:20-15:20,由授課教師或邀請講者,講解巨量資料分析相關的主題。上課內容,將廣泛包含所有相關知識,上課時側重講述這些知識的生成動機、基本觀念與模型解釋(如果需要時)。對於深入的理論與其餘詳細資訊,則僅作重點提示或提供參考文獻。期盼日後當學生獨立進行巨量資料分析時,這些廣泛的知識,能增廣他們思考問題的角度,並成為眾多他們可選擇的解決方案。若要進行更深入的模型研究與理論推導時,則知道要從何下手與到何處去找尋相關的輔助資訊。

 

演習課

原則上,每星期五(下午)15:30-16:20,由助教或邀請講者,就某一主題的上課內容,進行補充。演習課將著重於以實際的例子來補充上課內容,或討論相關分析方法的電腦軟體實作(例如R)。

 

課前、課後的自行閱讀、自行學習

課堂講解會廣泛包含所有相關主題,側重觀念的講述。補充與衍生內容,則會提供相關來源與網路連結,要求學生於課前或課後自行閱讀。又由於巨量資料分析領域的蓬勃發展,相關開放課程、分析方法、分析工具、成果應用、開放資料、…等遍佈於網路,因此同學們則常需要(或可以)自行學習新的軟體、工具,並吸收新的知識、應用。注意,許多網路連結與文件是以英文撰寫,英文閱讀的能力將會非常重要。

 

作業

作業會以實際的巨量資料分析為核心,練習資料的截取、清理、存取(資料爬梳);如何運用正確、新穎的統計方法;資料、結果的視覺化。作業的目的在學習實作巨量資料分析的技能,並且測試你對課堂內容的理解程度。把寫作業視為一個學習的機會,而不是為了要賺取分數。

 

你可與其他同學討論作業,以幫助理解所問的問題、釐清課程概念。但是你必須獨立完成所繳交的作業,作業中要求寫的電腦程式、跑的資料分析、解釋的分析結果,都不可與他人共同合作。

 

課程實作計劃

修課學生須完成一份巨量資料分析的計劃,其目的在讓你能就一個所關心或有興趣的議題,運用課堂上所學的方法與技術,從問題形成、資料來源確認、資料搜集、儲存與整理、模型建立與分析、結果呈現、說明與視覺化,實作整個巨量資料分析計畫,以一窺巨量資料分析的全貌。

 

每份計劃報告將由最多4修課同學共同完成,成員期盼能結合不同專業背景(統計、資工、其他專業知識領域)。每一報告工作小組,將各自選定一個所關心或有興趣的議題(非模型、方法、理論等技術性探討)。學期中,每個組員將先就計畫主題(包含:描述問題、預計如何回答),各自繳交一份書面報告。學期末,整個工作小組將就計劃的:問題(目的為何?想預測或估計什麼?)、資料(那裡來的?看起來像什麼?)、分析模型、結果(新發現、與聽眾溝通、視覺化),進行15分鐘的口頭報告,與繳交最終書面報告。

 

先修科目或先備能力

 

1.          有寫電腦程式的經驗

l   像:C, C++, Java, Python, R,

2.          修過基礎統計學

l   知道:隨機變數、信賴區間、假設檢定、…

3.          願意學習新的軟體、工具

l   常會非常花時間

l   要大量閱讀網路上的文件

l   閱讀許多英文文件

 

教科書與課程實作軟體

 

本門課並無指定的教科書,所有上課投影片與相關補充資料,將會公佈於課程網頁。

 

本門課將會以R程式軟體(http://www.r-project.org/),來當作巨量資料分析實作的工具。因此不論演習課助教講解與作業問題,皆會以R程式軟體的操作與撰寫為基礎。

 

學期成績評分方式

 

學期成績的計算方式為:

1.          作業:50%(根據個人繳交之作業)

2.          實作計劃期中報告:20%(根據個人繳交之書面報告)

3.          實作計劃期末報告:30%(根據整個工作小組的報告)