老师,我们的课程有讲xml方面的知识吗????
selenium webdriver time requests re lxml etree fake_useragent UserAgent url = header = {: UserAgent().chrome} opt = webdriver.ChromeOptions() driver = webdriver.Chrome(=opt) driver.get(url) time.sleep() content = driver.find_element_by_xpath() content.click() contents = driver.find_element_by_xpath() (contents.text)
我用了selenium的click方法,该网址的url点击该xpath是不变的,但是我重新拿到的HTML还是没有点击过之前的
//td[@class="date bold center"]/text()'
我用xpath读取了class的text,但是text为空的怎么能拿到,不然我拿到的数据不对称
老师,我想问一下,像零基础的人学习哪一块更容易找到这方面的工作,课程太多,短时间内可能没法学完,想尽快学习完好换工作,可以推荐一下主要先学哪几章节吗,谢谢
import requests import re url = 'http://xiaohua.zol.com.cn/lengxiaohua/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0' } a = requests.get(url, headers=headers) out = re.findall(r'<div class="summary-text">\s*(<p>)*\s*(.*)',a.text) # out1 = re.split('<br>',out) a.encoding='gbk' for i in out: print(i)
网页上面显示所有的文本信息都在summary-text里面,但是只搜索summary-text,出现的结果是目录,每一个text找不到下一级的文本信息。里面有很多<p>不知道怎么处理,尝试下改的代码只能提取出每一个故事的第一行
print(response1.read())
为什么在在后面加入decode(),报出错误
print(response1.read().decode())
noval.zip
老师帮我看下,为什么我的代码同一篇文章会输出两次
from fake_useragent import UserAgent import requests import parsel #确定url url ='https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&keyword=%E6%B7%98%E5%AE%9D&clk1=336e7eebf578863c3d669b4cd1020b7d&upsid=336e7eebf578863c3d669b4cd1020b7d' headers = { 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36" } response = requests.get(url,headers = headers) print(response.text) html_data = parsel.Selector(response.text) name=html_data.xpath('//div[@class="pc-items-item-title pc-items-item-title-row2"]/span[@class="title-text"]/text()').get() dollars=html_data.xpath('//div[@class="price-con"]/span[3]/text()').get() print(name) print(dollars)无法提取网页的内容
老师~~~
我用xpath插件可以找到电影名字,但是复制到python里返回的就是空列表了,这是为什么呀
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import urlencode # type_name和type24要符合豆瓣的既有组合,否则显示的电影类型会有问题 args = { 'type_name': '喜剧', 'type':'24' } url = "https://movie.douban.com/typerank?{0}&interval_id=100:90&action=".format(urlencode(args)) print(url) headers={"User-Agent":UserAgent().random} proxies = {"http": "http://111.206.37.161:80"} resp=requests.get(url,headers=headers,proxies=proxies,timeout=1) e=etree.HTML(resp.text) print(e) movie=e.xpath('//div[@class="movie-name"]/span[@class="movie-name-text"]/a/text()') print(movie)
老师,
节日快乐~
请问课件上用的etree.parse 和代码实例里的etree.HTML的应用场景有什么区别呢?
我自己随便找了个网页爬取数据parse和html方法都无法使用,请问问题出在哪里呢?
import requests from fake_useragent import UserAgent from lxml import etree url='http://lishishangdejintian.51240.com/' headers={'User-Agent':UserAgent().random} proxies={ "http":"http://61.135.186.80:80" } resp=requests.get(url,headers=headers,proxies=proxies,timeout=1) # resp.encoding='utf-8' print(resp.text) e = etree.HTML(resp) # print(e) # test = e.xpath('//ul[@class="list"]') # print(test)
meta是什么意思 作用是什么 怎么用 每次遇到这种类型的东西 也不介绍 不说 直接用 我们又不会 不知道 不应该说清楚嘛?
我的显示没有pil 这个也没见过啊
。
老师,我的splash输入域名跳转之后一直是图片中的状况,怎么解决啊?
老师,如图这种弹窗的登录方式,好像没有找到对应请求的地址啊?
老师,我有2个问题,麻烦帮忙解答,谢谢!
如何实现爬虫过程中将数据从redis中保存到mongo中,或者自动实现爬取结束后数据从redis中转移到mongo中,而不是再手动运行一个.py文件从redis中导出数据到mongo中
如何将数据从redis或mongo中导出到本地文件。
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637