Contents ...
udn網路城邦
爬蟲初體驗
2022/09/15 00:32
瀏覽327
迴響1
推薦11
引用0

豆瓣電影TOP250,顧名思義,就是把評分最高的250部電影,依照評分降序排列出來。(下圖)

一頁25個電影,所以共有10頁。(下圖)

項目目標 -- 我們要捕獲的對象為每一個電影的鏈接、照片的鏈接、中文命、外文名、導演等電影背景資料、評分、評分人數、梗概。(下圖)

所謂“爬取”,就是從頁面的源代碼中獲取到我們要的資料。(下圖)

EXCEL版 -- 爬蟲抓好的資料存入EXCEL.(下圖)

成功爬取250個電影。(下圖)

關於這個項目:

1. 內容是根據李巍老師手把手的教程。意思就是,代碼是老師寫的。

2. 老師說,現階段的目標,是能自己寫出學會的代碼 -- 就是自己從頭寫一遍。重點是記住邏輯思考。

有誰推薦more
你可能會有興趣的文章:

限會員,要發表迴響,請先登入
迴響(1) :
1樓. MayMay
2022/09/15 01:34
爬蟲能做什麼?

現在的信息都在網上,要從網上的信息中提取出並記錄下來我們需要的資料,就必須使用爬蟲技術。


要使用爬蟲技術,必須掌握幾個最最最基本的技術:

1.一個電腦語言。

2.HTTP, html, css 

3.excel, sql


以上是最基本的要求,能做到靜態頁面資料的提取。


爬蟲遠遠不是只抓靜態頁面的資料,而是要獲取實時資料(動態資料),進而分析,協助我們做預測與判斷。所以啊,跟著老師們的教導,我還有一段苦日子要過。