[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集

04/15/2021 troy801125 Comments 1 comment

爬蟲經典package還是requests的呼叫功能，目前在各大網站上去請求資料回傳速度是最快的，如果網站有做一些反爬蟲的方法，可以使用header中User-Agent去訪問請求資料回來。如果需要破解驗證碼的話，可以採用selenium來仿真人去瀏覽器獲得資料，接下來部分我會手把手教你如何在網路世界中，抓取你想得到的資訊 (切記勿盜取商業資料或是做違法行為) 。

(圖為google網路上抓取)

基本上通過以上擷取方式可以解析資料

(圖為google網路上抓取) (如果有擋爬蟲可以採用selenium抓取)

這邊可以先安裝 python 分析專用編輯器 https://huijou.com/python/

這邊附上 pip 安裝網址給大家去安裝

request : https://pypi.org/project/requests/

selenium : https://pypi.org/project/selenium/

官網上可以下載任何 package

這邊示範為 個股日成交資訊

證交所在政府開放資料平台上提供了一個資料集個股日成交資訊，這裡面的資料會每日更新，並且只保留最新的資料。

第一步抓取台灣證券交易所資料

開啟 python – jupyter 請求api的網址去呼叫對方，傳送data回來

抓下後就可以看到 1127列 10行的 datafrme 型式資料

程式碼雙手奉上

#載入 package
import requests
import pandas as pd

# 透過證交所API抓取資料
url = 'http://www.twse.com.tw/exchangeReport/STOCK_DAY_ALL?response=open_dat'
tt = requests.get(link)
df_data = pd.DataFrame(tt.json()['data'])

# 修改欄位名稱
df_data.columns = ['SECURITY_CODE', 'NAME', 'VOLUME', 'AMOUNT', 'OPEN','HIGH', 'LOW', 'CLOSE', 'PRICE_CHANGE', 'TRANSACTION']

接下來就可以隨心所欲的使用它溜 !!

下篇會教導 selenium 進階篇反爬蟲處理

喜歡我的文章可以點擊這觀看更多

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

HJs 找樂趣

HJs 紀錄美好生活,一群有著同樣興趣志向的夥伴們成立的夢想空間,分享你我生活中會遇見的人事物,共享旅遊、美食、科技資源,同步最新大數據訊息！

[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集

04/15/2021 troy801125 Comments 1 comment

One thought on “[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集”

發佈留言取消回覆

One thought on “[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集”

發佈留言 取消回覆

發佈留言取消回覆