資訊內容
介紹python 數據抓取三種方法

免費學習推薦:python視頻教程u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
三種數據抓取的方法u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
正則表達式(re庫)BeautifulSoup(bs4)lxml*利用之前構建的下載網頁函數,獲取目標網頁的html,我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例,獲取html。u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
*假設我們需要爬取該網頁中的國家名稱和概況,我們依次使用這三種數據抓取的方法實現數據抓取。
1.正則表達式u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
2.BeautifulSoup(bs4)u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
from get_html import downloadfrom bs4 import BeautifulSoup url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'html = download(url)#創建 beautifulsoup 對象soup = BeautifulSoup(html,"html.parser")#搜索country = soup.find(attrs={'class':'h2dabiaoti'}).text survey_info = soup.find(attrs={'id':'wzneirong'}).textprint(country,survey_info)3.lxmlu9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
from get_html import downloadfrom lxml import etree #解析樹url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)selector = etree.HTML(page_content)#可進行xpath解析country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表for country in country_select: print(country.text)survey_select = selector.xpath('//*[@id="wzneirong"]/p')for survey_content in survey_select: print(survey_content.text,end='')運行結果:
**后,引用《用python寫網絡爬蟲》中對三種方法的性能對比,如下圖:
僅供參考。u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
相關免費學習推薦:python教程(視頻)u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
以上就是介紹python 數據抓取三種方法的詳細內容,更多請關注少兒編程網其它相關文章!u9d少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

- 上一篇
pycharm怎么設置背景顏色
簡介pycharm設置背景顏色的方法:1、打開pycharm,點擊【file】、【settings】;2、找到【editor】,選擇【colorscheme】;3、根據需要選擇合適的背景顏色即可。本文操作環境:windows10系統、pycharmcommunity2020.3、宏基S40-51電腦。具
- 下一篇
Python簡單地實現一鍵提取陰陽師原畫方法
簡介免費學習推薦:python視頻教程xpath–簡單的爬蟲實例–提取陰陽師原畫壁紙文章目錄一、前言二、需要用到的庫三、實現過程1、分析網頁2、完整代碼實現四、合成視頻一、前言很多人都玩過陰陽師吧,別的不談,陰陽師的原畫制作的那是相當地精細,閑暇之余,用幾行簡單的代碼爬取下來,豈不美哉?二、需要用到的庫