[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集
爬蟲經典package還是requests的呼叫功能,目前在各大網站上去請求資料回傳速度是最快的,如果網站有做一些反爬蟲的方法,可以使用header中User-Agent去訪問請求資料回來。如果需要破解驗證碼的話,可以採用selenium來仿真人去瀏覽器獲得資料,接下來部分我會手把手教你如何在網路世界中,抓取你想得到的資訊 (切記勿盜取商業資料或是做違法行為) 。
(圖為google網路上抓取)
基本上通過以上擷取方式可以解析資料
(圖為google網路上抓取) (如果有擋爬蟲可以採用selenium抓取)
這邊可以先安裝 python 分析專用編輯器 https://huijou.com/python/
這邊附上 pip 安裝網址給大家去安裝
request : https://pypi.org/project/requests/
selenium : https://pypi.org/project/selenium/
官網上可以下載任何 package
這邊示範為 個股日成交資訊
證交所在政府開放資料平台上提供了一個資料集個股日成交資訊,這裡面的資料會每日更新,並且只保留最新的資料。
第一步抓取 台灣證券交易所資料
開啟 python – jupyter 請求api的網址去呼叫對方,傳送data回來
抓下後就可以看到 1127列 10行 的 datafrme 型式資料
程式碼雙手奉上
#載入 package
import requests
import pandas as pd
# 透過證交所API抓取資料
url = 'http://www.twse.com.tw/exchangeReport/STOCK_DAY_ALL?response=open_dat'
tt = requests.get(link)
df_data = pd.DataFrame(tt.json()['data'])
# 修改欄位名稱
df_data.columns = ['SECURITY_CODE', 'NAME', 'VOLUME', 'AMOUNT', 'OPEN','HIGH', 'LOW', 'CLOSE', 'PRICE_CHANGE', 'TRANSACTION']
接下來就可以隨心所欲的使用它溜 !!
下篇會教導 selenium 進階篇 反爬蟲處理
One thought on “[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集”