老师,请问,这里把HTTPHandler()这个对象传入,有什么作用呢
老师,请问,我想复制部分内容自己做笔记,但是给的资料中pdf中的文字,为什么复制到wps中变成这种,字体有大有小,重新设置都没有用,然后网页的页字不见了,查找网页两个字,又是两个框框
老师,请问,https://www.taobao.com/robots.txt ,课堂上老师讲的这个网站是做什么用哦
老师,请问,将Proxy-SwitchyOmega_v2.3.16.crx这个文件,拖拽上来写的程序包无效,是需要重新下载一个安装包吗
from urllib.request import urlopen,Request from urllib.parse import quote arg = "尚学堂" # print(quote(arg)) url = "https://www.baidu.com/s?wd={}".format(quote(arg)) #设置UA变量 headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) 123456" } #封装request对象 req = Request(url,headers=headers) #发送请求 response = urlopen(req) #打印内容 print(response.read().decode())
老师,我的data里还有一个参数,我用同样的方法增加参数传进去,执行没报错,但好像也没登录成功字样。另外,地址栏输入的网址和Requset URL的地址完全不一样,如下图
地址栏的是http://IP地址/webpages/login.html
老师,我们的课程有讲xml方面的知识吗????
selenium webdriver time requests re lxml etree fake_useragent UserAgent url = header = {: UserAgent().chrome} opt = webdriver.ChromeOptions() driver = webdriver.Chrome(=opt) driver.get(url) time.sleep() content = driver.find_element_by_xpath() content.click() contents = driver.find_element_by_xpath() (contents.text)
我用了selenium的click方法,该网址的url点击该xpath是不变的,但是我重新拿到的HTML还是没有点击过之前的
//td[@class="date bold center"]/text()'
我用xpath读取了class的text,但是text为空的怎么能拿到,不然我拿到的数据不对称
老师,我想问一下,像零基础的人学习哪一块更容易找到这方面的工作,课程太多,短时间内可能没法学完,想尽快学习完好换工作,可以推荐一下主要先学哪几章节吗,谢谢
import requests import re url = 'http://xiaohua.zol.com.cn/lengxiaohua/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0' } a = requests.get(url, headers=headers) out = re.findall(r'<div class="summary-text">\s*(<p>)*\s*(.*)',a.text) # out1 = re.split('<br>',out) a.encoding='gbk' for i in out: print(i)
网页上面显示所有的文本信息都在summary-text里面,但是只搜索summary-text,出现的结果是目录,每一个text找不到下一级的文本信息。里面有很多<p>不知道怎么处理,尝试下改的代码只能提取出每一个故事的第一行
print(response1.read())
为什么在在后面加入decode(),报出错误
print(response1.read().decode())
noval.zip
老师帮我看下,为什么我的代码同一篇文章会输出两次
from fake_useragent import UserAgent import requests import parsel #确定url url ='https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&keyword=%E6%B7%98%E5%AE%9D&clk1=336e7eebf578863c3d669b4cd1020b7d&upsid=336e7eebf578863c3d669b4cd1020b7d' headers = { 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36" } response = requests.get(url,headers = headers) print(response.text) html_data = parsel.Selector(response.text) name=html_data.xpath('//div[@class="pc-items-item-title pc-items-item-title-row2"]/span[@class="title-text"]/text()').get() dollars=html_data.xpath('//div[@class="price-con"]/span[3]/text()').get() print(name) print(dollars)无法提取网页的内容
老师~~~
我用xpath插件可以找到电影名字,但是复制到python里返回的就是空列表了,这是为什么呀
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import urlencode # type_name和type24要符合豆瓣的既有组合,否则显示的电影类型会有问题 args = { 'type_name': '喜剧', 'type':'24' } url = "https://movie.douban.com/typerank?{0}&interval_id=100:90&action=".format(urlencode(args)) print(url) headers={"User-Agent":UserAgent().random} proxies = {"http": "http://111.206.37.161:80"} resp=requests.get(url,headers=headers,proxies=proxies,timeout=1) e=etree.HTML(resp.text) print(e) movie=e.xpath('//div[@class="movie-name"]/span[@class="movie-name-text"]/a/text()') print(movie)
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637