老师我这里在爬取了两页之后会提示说编码错误,麻烦老师帮我看下
from urllib.request import Request,urlopen from fake_useragent import UserAgent def get_html(url): headers = {"User-Agent": UserAgent().chrome} request = Request(url,headers=headers) response = urlopen(request) return response.read().decode() def save_html(html,filename): with open(filename,'w',encoding='utf-8') as f: f.write(html) def main(): for i in range(1,4): url = 'https://www.qiushibaike.com/8hr/page/{}/'.format(i) html = get_html(url) filename = '《糗事百科》第'+str(i)+'页.html' save_html(html,filename) if __name__ == "__main__": main()
老师你好!我这个好像有些许不同。是什么原因,版本不一样吗?
老师,我有一个疑问,这种携带登录信息,账号名密码的访问url,如果被发现是爬虫在访问了,不是直接就获取到我们的账号和密码了嘛
老师,请问,这个External Libraries是放什么的哦,为什么查看源码从这里面找,找的又是谁的源码呢,在视频第19分钟
就是运行不出来
import requests login ='http://www.chaojiying.com/user/login/' img ="http://www.chaojiying.com/public/default/images/content_login/img_login.jpg" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36" } #创建session对象 session =requests.session() #第一次获取登陆页面 resp = session.get(login,headers=headers) #获取验证码 img_resp=session.get(img,headers=headers) #保存验证码 with open("code.jpg","wb") as f: f.write(img_resp.content) code=input("输入:") date={ 'user': 'jingrunping', 'pass': '456363', 'imgtxt':code, 'act': '1' } #登陆操作 login_resp=session.post(login,headers=headers,date=date) print(login_resp.text)
老师,昨天还能运行,今天怎么运行不出来,怎么回事
老师,能把能用正则把图片中标记字体匹配一下
火狐就是运行不出来。老师
from selenium import webdriver # 构造浏览器 fire = webdriver.Firefox() # 发送请求,访问url url = 'http://www.baidu.com' fire.get(url)
老师
1、selenium的获取URL方法
from time import sleep from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() driver.maximize_window() driver.get('http://www.baidu.com') sleep(2) try: driver.find_element_by_id('kw').send_keys('汽车之家') driver.find_element_by_id('su').click() '''延时操作,访问页面''' driver.implicitly_wait(10) # WebDriverWait(driver,10).until(EC.presence_of_element_located((By.XPATH,'//div[@id="1"]/h3/a'))).send_keys(Keys.ENTER) driver.find_element_by_xpath('//div[@id="1"]/h3/a').send_keys(Keys.ENTER) # 或者 Keys.RETURN '''页面相关操作''' driver.implicitly_wait(10) a = driver.current_url print(a) except Exception as e: print(e) finally: sleep(10) driver.quit()
这个方法为什么获取不到当前访问页面的URL?比如这里成功通过百度,跳转到了汽车之家的官网,调用这个方法打印的是百度搜索页面的URL,还是说这个方法本来就是这样?如何获取到当前页面的url呢?
2、selenium获取页面源代码
获取源代码应该也是根据他当前获取的URL的源代码吧,比如这里只能获取百度搜索页面的的URL,所以打印的也是百度搜索页面的源码
我不用cookie也直接能登入啊,啥情况
urllib.request Requesturlopen fake_useragent UserAgent url = headers = {: UserAgent().random} req = Request(url=headers) reps = urlopen(req) (reps.read().decode())
image.zip
老师,麻烦帮我看看我的代码为什么出现图中的bug,这样的bug应该怎么解决?
windows中splash无法渲染怎么搞?下载splash源码改完怎么做啊
问题1:
第一个红框是我写的1080P的图片选项,第二个红框是老师那种直接显示的960x600的图片,为什么我的就会出现
错误?通过我的1080p链接直接就能访问到图片:http://desk.zol.com.cn/showpic/1920x1080_115443_131.html
问题2:
最后一页的链接是:javascript:;,不是一个链接所以会报这个Missing错误,那是不是应该自己写个判断了,比如html结尾
老师,是不是请求的网址不能访问了,直接通过链接和python写的请求都不能访问,返回404
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637