用 Python Jupyter notebook 處理 CSV 檔
今天要介紹 python jupyter notebook,顧名思義是一種像記事本的東西可以把程式和結果儲存起來。
1. 開始前要先安裝以下套件:
$ pip3 install --upgrade jupyter matplotlib numpy pandas scipy scikit-learn
2. 好了之後就可以在終端機輸入下面指令在瀏覽器建立 jupyter server:
$ jupyter notebook
這時候你的瀏覽器會在你終端機當前的路徑開啟 jupyter server
3.新增一個 ipython notebook
新增一個 ipython notebook,並選擇 python3。
4.重新命名 notebook:
點擊 Untitled 可以重新命名。
改成喜歡的名稱即可。
5.從資料庫下載 CSV 檔案:
Comma-separated values (CSV) 顧名思義是一堆用逗號分隔的資料,個人喜歡從 kaggle下載 CSV 檔案你也可以從其他資料庫下載資料。
今天要分析的是 Nutrition Facts for McDonald's Menu ,從 kaggle 可以初步檢視資料的內容:
下載完 CSV 把它放到 jupyterTest.ipynb 的資料夾底下,我們利用終端機來稍微看一下它的內容:
$ cat menu.csv | less
真的是一堆值用逗號分隔(汗)
6.用 Jupyter notebook 處理 CSV 檔案:
講了這麼多終於到了今天的主題了。在 Jupyter notebook 裡面有個 In[], In[] 的範圍我們稱之為 cell,可以在裡面輸入指令並執行單一 cell。
輸入些指令看看吧:
head 會列出資料的頂端列(資料類別)和前幾行資料。
我們在新的 cell 輸入下列指令來檢視這個表單的資訊:
info 會顯示資料的型別、數量和有無空值。
如果要對資料做個簡單的統計可以利用下面的指令:
value_counts 會統計某個行中出現元素的次數。
7.在 Jupyter notebook 裡畫圖:
除了基本的資料屬性外我們也可以利用 Jupyter notebook 快速繪製各種圖表。
搭配 matplotlib 我們可以對各個類別做 histogram。
隨意挑兩組資料觀察其相依關係:
alpha 是點組的透明度,當資料點很多時重複度較高的區域會有較深的顏色。
甚至可以畫出 4 維的圖表:
上圖中 c 是顏色代表飽和脂肪的比例,s 是大小 正比於反式脂肪的比例。
Reference
[1] Aurélien Géron, "Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems", O'Reilly Media (2017)
留言
張貼留言