[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集

[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集

爬蟲經典package還是requests的呼叫功能,目前在各大網站上去請求資料回傳速度是最快的,如果網站有做一些反爬蟲的方法,可以使用header中User-Agent去訪問請求資料回來。如果需要破解驗證碼的話,可以採用selenium來仿真人去瀏覽器獲得資料,接下來部分我會手把手教你如何在網路世界中,抓取你想得到的資訊 (切記勿盜取商業資料或是做違法行為) 。

(圖為google網路上抓取)

基本上通過以上擷取方式可以解析資料

(圖為google網路上抓取)  (如果有擋爬蟲可以採用selenium抓取)

這邊可以先安裝 python 分析專用編輯器  https://huijou.com/python/

這邊附上 pip 安裝網址給大家去安裝

request : https://pypi.org/project/requests/

selenium : https://pypi.org/project/selenium/

官網上可以下載任何 package 

這邊示範為  個股日成交資訊

證交所在政府開放資料平台上提供了一個資料集個股日成交資訊,這裡面的資料會每日更新,並且只保留最新的資料。

第一步抓取 台灣證券交易所資料

開啟 python – jupyter 請求api的網址去呼叫對方,傳送data回來

抓下後就可以看到 1127列 10行 的 datafrme 型式資料

程式碼雙手奉上 

#載入 package
import requests
import pandas as pd

# 透過證交所API抓取資料
url = 'http://www.twse.com.tw/exchangeReport/STOCK_DAY_ALL?response=open_dat'
tt = requests.get(link)
df_data = pd.DataFrame(tt.json()['data'])

# 修改欄位名稱
df_data.columns = ['SECURITY_CODE', 'NAME', 'VOLUME', 'AMOUNT', 'OPEN','HIGH', 'LOW', 'CLOSE', 'PRICE_CHANGE', 'TRANSACTION']

接下來就可以隨心所欲的使用它溜 !!

下篇會教導 selenium 進階篇 反爬蟲處理 

喜歡我的文章可以點擊這觀看更多

One thought on “[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集

發表迴響