用 Python Jupyter notebook 處理 CSV 檔

今天要介紹 python jupyter notebook,顧名思義是一種像記事本的東西可以把程式和結果儲存起來。

1. 開始前要先安裝以下套件:

$ pip3 install --upgrade jupyter matplotlib numpy pandas scipy scikit-learn

2. 好了之後就可以在終端機輸入下面指令在瀏覽器建立 jupyter server:

$ jupyter notebook

這時候你的瀏覽器會在你終端機當前的路徑開啟 jupyter server


3.新增一個 ipython notebook

新增一個 ipython notebook,並選擇 python3。



4.重新命名 notebook:

點擊 Untitled 可以重新命名。

改成喜歡的名稱即可。


5.從資料庫下載 CSV 檔案:

Comma-separated values (CSV) 顧名思義是一堆用逗號分隔的資料,個人喜歡從 kaggle下載 CSV 檔案你也可以從其他資料庫下載資料。


今天要分析的是 Nutrition Facts for McDonald's Menu ,從 kaggle 可以初步檢視資料的內容:

下載完 CSV 把它放到 jupyterTest.ipynb 的資料夾底下,我們利用終端機來稍微看一下它的內容:

$ cat menu.csv | less

真的是一堆值用逗號分隔(汗)


6.用 Jupyter notebook 處理 CSV 檔案:

講了這麼多終於到了今天的主題了。在 Jupyter notebook 裡面有個 In[], In[] 的範圍我們稱之為 cell,可以在裡面輸入指令並執行單一 cell。

輸入些指令看看吧:

head 會列出資料的頂端列(資料類別)和前幾行資料。

我們在新的 cell 輸入下列指令來檢視這個表單的資訊:

info 會顯示資料的型別、數量和有無空值。

如果要對資料做個簡單的統計可以利用下面的指令:

value_counts 會統計某個行中出現元素的次數。


7.在 Jupyter notebook 裡畫圖:

除了基本的資料屬性外我們也可以利用 Jupyter notebook 快速繪製各種圖表。

搭配 matplotlib 我們可以對各個類別做 histogram。


隨意挑兩組資料觀察其相依關係:

alpha 是點組的透明度,當資料點很多時重複度較高的區域會有較深的顏色。


甚至可以畫出 4 維的圖表:

上圖中 c 是顏色代表飽和脂肪的比例,s 是大小 正比於反式脂肪的比例。

Reference

[1] Aurélien Géron, "Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques to Build Intelligent Systems", O'Reilly Media (2017)

留言

熱門文章