京客隆店鋪分佈
2022/09/28 13:37
瀏覽398
迴響1
推薦10
引用0
項目目標:將京客隆超市集團在北京所有小區的店鋪爬取出來,放入EXCEL表格
達成目標:將每個小區第一頁的店鋪爬取完畢。
下個目標:將每個小區所有頁面的店鋪完整爬取。



學習小結:
1. 蘇興華老師的課程,太棒了。跟李巍老師的課程相比,輕鬆很多。主要是兩位老師使用的工具完全不同。李巍老師使用的是程序開發人員專業的工具,而蘇興華老師使用的是非程序開發人員使用的工具。
李巍老師 蘇興華老師
urllib request
BS4, BeautifulSoup lxml, etree
RE xPath
xlwt Pandas
2. 蘇老師課堂用encoding=’ANSI’成功,但我跑出來是亂碼。
嘗試encoding=’utf-8’也不成功。
上網查找,得知必須用encoding=’utf-8-sig’才能讀取BOM。我個人覺得蘇老師在演示時說“有中文內容,encoding要設置,否則會出錯”這句話的重點會有歧義 -- 重點應該是讀取BOM時的encoding設置。因為encoding設置成’utf-8’是可以滿足程序對中文的讀寫 -- 哦哦,我想,應該改成“對本地中文”的讀寫。而讀取瀏覽器文件時,必須用”utf-8-sig”
你可能會有興趣的文章:
限會員,要發表迴響,請先登入














