資訊內(nèi)容
介紹python 數(shù)據(jù)抓取三種方法

免費(fèi)學(xué)習(xí)推薦:python視頻教程u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
三種數(shù)據(jù)抓取的方法u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
正則表達(dá)式(re庫)BeautifulSoup(bs4)lxml*利用之前構(gòu)建的下載網(wǎng)頁函數(shù),獲取目標(biāo)網(wǎng)頁的html,我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例,獲取html。u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
*假設(shè)我們需要爬取該網(wǎng)頁中的國家名稱和概況,我們依次使用這三種數(shù)據(jù)抓取的方法實(shí)現(xiàn)數(shù)據(jù)抓取。
1.正則表達(dá)式u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
2.BeautifulSoup(bs4)u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
from get_html import downloadfrom bs4 import BeautifulSoup url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'html = download(url)#創(chuàng)建 beautifulsoup 對象soup = BeautifulSoup(html,"html.parser")#搜索country = soup.find(attrs={'class':'h2dabiaoti'}).text survey_info = soup.find(attrs={'id':'wzneirong'}).textprint(country,survey_info)3.lxmlu9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
from get_html import downloadfrom lxml import etree #解析樹url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)selector = etree.HTML(page_content)#可進(jìn)行xpath解析country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表for country in country_select: print(country.text)survey_select = selector.xpath('//*[@id="wzneirong"]/p')for survey_content in survey_select: print(survey_content.text,end='')運(yùn)行結(jié)果:
**后,引用《用python寫網(wǎng)絡(luò)爬蟲》中對三種方法的性能對比,如下圖:
僅供參考。u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
相關(guān)免費(fèi)學(xué)習(xí)推薦:python教程(視頻)u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺
以上就是介紹python 數(shù)據(jù)抓取三種方法的詳細(xì)內(nèi)容,更多請關(guān)注少兒編程網(wǎng)其它相關(guān)文章!u9d少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺

- 上一篇
pycharm怎么設(shè)置背景顏色
簡介pycharm設(shè)置背景顏色的方法:1、打開pycharm,點(diǎn)擊【file】、【settings】;2、找到【editor】,選擇【colorscheme】;3、根據(jù)需要選擇合適的背景顏色即可。本文操作環(huán)境:windows10系統(tǒng)、pycharmcommunity2020.3、宏基S40-51電腦。具
- 下一篇
Python簡單地實(shí)現(xiàn)一鍵提取陰陽師原畫方法
簡介免費(fèi)學(xué)習(xí)推薦:python視頻教程xpath–簡單的爬蟲實(shí)例–提取陰陽師原畫壁紙文章目錄一、前言二、需要用到的庫三、實(shí)現(xiàn)過程1、分析網(wǎng)頁2、完整代碼實(shí)現(xiàn)四、合成視頻一、前言很多人都玩過陰陽師吧,別的不談,陰陽師的原畫制作的那是相當(dāng)?shù)鼐?xì),閑暇之余,用幾行簡單的代碼爬取下來,豈不美哉?二、需要用到的庫