15個節(jié)省時間的Jupyter技巧
作為數(shù)據(jù)科學家,從加載數(shù)據(jù)到創(chuàng)建和部署模型,我們幾乎每天都在使用Jupyter notebook。
Jupyter Notebooks使用非常簡單并且對于任何面向python的任務都可以非常方便的使用。只要它的內(nèi)核處于活動狀態(tài),就可以用數(shù)據(jù)子集運行和測試腳本,而不用每次重啟程序,這樣可以加快我們開發(fā)和測試的速度。
但是因為它太簡單了,所以我們經(jīng)常會犯一些錯誤,浪費我們的時間和計算成本。在這篇文章中,我們將討論一些可以節(jié)省時間,降低計算成本的技巧。
1、魔法命令
在Jupyter notebook中,“魔法命令”是特殊的命令,不是Python語言的一部分,但可以使您的生活更輕松。這些命令前面有%符號。
魔法命令很有用,可以直接嵌入到python代碼中,并解決常見問題,例如列出當前目錄中的所有文件或更改當前工作目錄。
下面是一些常見的魔術命令:
- %run:在當前內(nèi)核中運行Python腳本。
- %load:從腳本中加載代碼并在當前內(nèi)核中運行。
- %who:列出所有變量。
- %timeit:記錄一行代碼的執(zhí)行時間。
- %debug:在異常處輸入調(diào)試器。
- %matplotlib inline:在notebook中顯示圖形。
- %load_ext:加載擴展,例如IPython擴展。
- %pwd:打印當前工作目錄。
- %ls:顯示當前目錄中的所有文件。
我們可以運行%lsmagic來查看所有magic命令的列表。
要獲得有關特定魔術命令的更多信息,可以使用?操作符,例如%run?。
2、執(zhí)行另一個Jupyter notebook文件
可以使用魔術命令來做一些有趣的事情。例如,從py文件中執(zhí)行python代碼,或從ipynb文件中執(zhí)行jupyter notebook。
%run將執(zhí)行jupyter notebook并顯示輸出,這與導入python模塊不同。
我們可以運行two-histogram notebook并得到如下輸出:
3、查看文檔??
通過高亮顯示方法并按Shift + Tab鍵,可以輕松查看該方法的文檔。它將顯示編寫函數(shù)時編寫的文檔字符串。你也可以通過點擊右上角的+按鈕來打開模態(tài)框。
還可以通過突出顯示每個magic命令并按Shift + Tab鍵來獲得有關每個magic命令的更多信息。
4、添加多個游標??
如果你需要重命名寫在幾個地方的變量,或者在編輯代碼時,你希望你有多個光標。
在Jupyter notebooks中,可以使用多個光標同時編輯文本。如果你想一次對多行文本進行相同的更改,這可能很有用。
要在Jupyter notebook中使用多個游標,可以按住Alt鍵并單擊所需的位置。這將在每個點擊的位置創(chuàng)建一個游標。然后你可以像往常一樣進行編輯,更改將同時應用于所有位置。
Windows:按住alt +左鍵并拖動光標。Mac:按住option鍵+左鍵拖動光標。
你也可以使用Shift + Alt +上/下箭頭鍵組合來選擇多行文本,并在每一行的開頭創(chuàng)建一個光標。
記住,使用多個游標可能會產(chǎn)生問題,所以最好在使用這個功能之前保存好你的代碼,以防你做了任何意想不到的更改。
5、從另一個外部python腳本中插入代碼??
可以用外部python腳本替換單元格的內(nèi)容。你可以使用計算機上的任何python文件,也可以使用URL作為源。
在下一個單元格中可以使用:
6、運行CMD/Shell命令?
Jupyter notebook中使用!命令前的前綴可以運行操作系統(tǒng)的命令。例如,要列出當前目錄下的文件,可以使用ls命令:
你也可以通過在命令后面添加參數(shù)來傳遞參數(shù)。例如,要列出特定目錄下的文件,可以使用-l選項以長格式顯示文件,并將目錄路徑指定為參數(shù):
你也可以將命令的輸賦值給一個變量,并在代碼中使用它。例如:
上面代碼會把當前目錄中的文件列表分配給files變量,并打印出來。
你可以使用這種技術在Jupyter notebook中運行任何shell命令,只要該命令在運行notebook的系統(tǒng)中可用。
7、為程序完成設置鬧鐘?
當你的模型完成訓練或任何任務時,得到一個通知總是很有幫助的。
在windows 10中,我們可以使用win10toast模塊設置它。
然后使用這段代碼
我們在程序完成執(zhí)行時為我們進行提示。
Mac和Linux可以使用os模塊,使用afplay命令(在macOS上)或aplay命令(在Linux上)播放聲音。
可以將/path/to/sound.mp3替換為要播放的聲音文件的路徑。或者是afplay或aplay命令支持的任何音頻文件,如MP3、WAV或AIFF。
只有在運行Jupyter notebook的系統(tǒng)上有afplay或aplay命令時,此方法才有效。
在Mac中,還可以使用內(nèi)置命令say,在程序完成時說一些話。
8、顯示執(zhí)行時間
要在Jupyter notebook中測量單元格的執(zhí)行時間,可以使用%timeit魔法命令。此命令將執(zhí)行單個語句并返執(zhí)行時間。下面是如何使用%timeit的例子:
這將計算sum函數(shù)的執(zhí)行時間,并返回執(zhí)行該函數(shù)所需的平均時間。
還可以使用%%timeit來測量整個單元格的執(zhí)行時間:
可以看到上面的代碼與我們使用使用Python中的time模塊的結(jié)果類似
注意:這些方法只會測量單元格中代碼的執(zhí)行時間。如果計算單元依賴于其他計算單元或外部資源,則執(zhí)行時間將不包括執(zhí)行這些依賴項所需的時間。
9、在notebook之間傳遞變量
在Jupyter notebook中,%store魔法命令可以在notebook之間傳遞變量。
下面是一個使用它的例子:
在另外一個notebook中可以用下面命令獲得變量的值
%store魔法命令有以下幾個操作
- %store var1:存儲變量var1
- %store -r var1:檢索存儲的變量var1,并將其賦值給當前筆記本中同名的變量
- %store -d var1:刪除已存儲的變量var1
- %store -z:刪除所有已存儲的變量
你也可以使用一個%store命令存儲多個值,如
%store命令僅在相同的Jupyter會話中有效。
%store命令的值在內(nèi)核重啟后也是可以訪問的,看看下面這個例子。
10、列出所有鍵盤快捷鍵?
學習鍵盤快捷鍵將節(jié)省你大量的時間。我們可以在頂部菜單下:幫助>鍵盤快捷鍵檢查它們,或在命令模式下按H鍵來查看。以下是Jupyter notebook中一些常用的鍵盤快捷鍵列表:
- Enter:當前單元格進入編輯模式
- Esc:當前單元格進入命令模式
- Shift + Enter:運行當前單元格并移動到下一個單元格
- Ctrl + Enter:運行當前單元格
- Alt + Enter:運行當前單元格并在下面插入一個新單元格
- Shift + Tab:顯示當前函數(shù)或?qū)ο蟮奈臋n
- Ctrl + S:保存
- A:在當前單元格的上方插入一個新單元格(在命令模式下)
- B:在當前單元格下面插入一個新單元格(在命令模式下)
- M:將當前單元格更改為Markdown單元格(在命令模式下)
- Y:將當前單元格更改為代碼單元格(在命令模式下)
- D + D:刪除當前單元格(在命令模式下)
- Z:撤銷最后一次刪除單元格(在命令模式下)
- X:切割選定的單元格(在命令模式下)
- C:復制選中的單元格(在命令模式下)
- V:粘貼選中的單元格(在命令模式下)
- Ctrl + Shift + -將當前單元格從光標所在的位置拆分成兩個。(在命令模式下)
- Esc + F:找到并替換你的代碼,但不替換輸出。(在命令模式下)
- Esc + O:切換單元格輸出(在命令模式下)
選擇多個單元格:
- Shift + Down選擇向下方向的下一個單元格。
- Shift + Up選擇向上方向的下一個單元格。(在命令模式下)
- Shift + M:合并多個選定單元格。(在命令模式下)
還可以使用%shortcuts魔術命令查看當前單元格輸出區(qū)域的鍵盤快捷鍵列表:
這將顯示所有快捷鍵及其相應操作的列表。
11、隱藏不必要的輸出
當你從Jupyter notebook創(chuàng)建報告時,看到不必要的內(nèi)存代碼或?qū)ο骾d是很煩人的。要將這些不必要的輸出隱藏在起來可以使用 分號 ;
看看下面代碼:
如果想屏蔽matplotlib的輸出,看看下面代碼,注意后面的分號:
12、使用python以外的其他語言編寫函數(shù)
如果你正在處理大量的大型數(shù)據(jù)集,并且numpy的速度不夠快,那么你可以直接在python代碼中直接編寫一些c或fortran代碼。
如果你想開始用c編寫函數(shù),那么你將需要cython庫。
加載和使用:
要編寫fortran函數(shù),則需要另一個庫fortrain-magic。
代碼如下:
13、擴展pandas輸出中的列數(shù)和行數(shù)
默認情況下,panda的dataframe只能顯示有限數(shù)量的行和列。有幾種方法可以擴展Jupyter Notebook中pandas DataFrame中顯示的行和列的數(shù)量。
方法1:使用pd.options.display.max_rows和pd.options.display.max_columns選項。
例如要顯示最多100行50列,可以使用以下代碼:
方法2:使用pd.set_option函數(shù)設置這些選項。例如:
或者可以使用head和tail方法來顯示DataFrame的前幾行或后幾行。例如:
方法3:使用IPython中的IPython.display模塊控制顯示。例如:
這將顯示100行50列的DataFrame。
14、提取輸入和輸出單元數(shù)據(jù)
當你執(zhí)行完一個單元格時,你意識到忘記給一個變量賦值,那怎么辦呢?
我們在jupyter notebook中執(zhí)行單元格時,它將分配一個行號為ln:
當單元格完成執(zhí)行時,我們會得到一個輸出并且可以通過傳遞執(zhí)行編號作為索引來訪問它
Out是一個python字典,存儲單元格的所有輸出。我們可以使用編號作為索引來訪問輸出。
15、導出單元格的內(nèi)容
當完成jupyter的測試我們可能會想將jupyter單元中內(nèi)容導出到python文件中。最簡單的辦法是創(chuàng)建一個py文件并復制粘貼代碼,但這很明顯不是最好的方法。
%%writefile是一個Jupyter Notebook魔法命令,可以將單元格的內(nèi)容保存為Python文件。例如在單元格中有以下代碼:
你可以運行單元格后將在Jupyter Notebook所在的目錄中創(chuàng)建一個名為example.py的文件,文件內(nèi)容就是單元格內(nèi)的python代碼
%pycat是另外一個Jupyter Notebook魔法命令,它在Notebook的單元格中顯示Python文件的內(nèi)容。如果在單元格中有以下代碼:
它將在單元格的輸出中顯示example.py文件的內(nèi)容。這對于快速查看Python文件的內(nèi)容非常有用。
總結(jié)
以上就是我們總結(jié)的一些技巧,希望對你有所幫助。