web爬虫,web爬虫可以用来下载并存储网页

2023-06-10 09:21:01 views

RoboBrowser是一个简洁的Python库,用以在沒有单独Web电脑浏览器的情形下访问Web。RoboBrowser可以获取网页页面,点击连接和按键,随后填好并提交表单。假如您必须与沒有API的Web服务开展互动,RoboBrowser可以带来不错的协助。

下面看一个事例,应用前必须pip install robobrowser安装这一库:

import refrom robobrowser import RoboBrowser#建立RoboBrowserbr = RoboBrowser()#开启datacoup登录详细地址br.open("https://datacoup.com/signin")#获取登录的表单form = br.get_form()#填好表单中的油箱和登陆密码form['email'] = "FILL_USERNAME_IN"form['password'] = "FILL_PASSWORD_IN"#提交表单br.submit_form(form)#获取登录后的网页页面结论回到信息src = str(br.parsed())#配对开始与结束的部位htmlstart = 'Earned: 'end = ''#应用正则表达式开展配对 回到结论result = re.search('%s(.*)%s' % (start, end), src).group(1)print(result)

第二个事例,浏览一个音乐平台,仿真模拟查看歌曲信息:

import refrom robobrowser import RoboBrowser#访问Rap Genius网址browser = RoboBrowser(history=True)browser.open('http://rapgenius.com/')#获取表单form = browser.get_form(action='/search')print(form) # #键入查看关键字queen 提交表单form['q'].value = 'queen'browser.submit_form(form)#查看第一首歌曲songs = browser.select('.song_name')#浏览歌曲联接详细地址browser.follow_link(songs[0])#搜索款式lyrics的文字信息lyrics = browser.select('.lyrics')print(lyrics[0].text) # [Intro]Is this the real life...#回到查询记录网页页面browser.back()# 查看我最喜欢的歌曲browser.follow_link('death on two legs')# 还可以应用正则表达式开展搜索lyrics = browser.find(class_=re.compile(r'\blyrics\b'))lyrics.text

今日的RoboBrowser学习培训到这儿,一二节见!

下边的就是我的公众号二维码照片,热烈欢迎