安装到最后的两个步骤了,结果在pip3 intsall scrapy出现了问题,老师该如何解决
里边的换行符可以去掉吗 我用的中文办法,但是去不掉换行符,视频方法也不行
老师这个是为什么啊?我重装了lxml也没有解决
为啥我的显示process.argv is not a function node也装了啊 是自定义的方法吗
老师,我为什么按照你的代码敲只爬取一章啊
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html><head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <!--[if lt IE 9]><script r='m'>document.createElement("section")</script><![endif]--></head> <body> <input type="hidden" id="__onload__" name="X4MUECfS5nm7ZcYH.jY1sVsEfS5H8oe5iInBytSD.PZakcfoSqgSDonoUQm7Uch1Z3LwAYnIRqg58T9E0dsu0G" value="ZY3u8CPnbz8y5BVlg4Tdqa#"> <div id="3jeALeSsa6"><embed id="4rJFe6jNL52p" height="6" width="1" type="application/x-shockwave-flash" src="/b3c79ec/f890b6f5917/4rJFe6jNL52p"></div></body></html>
老师,我的func3()不像视频里那样有文字信息,
老师是不是动态用jsonpath,静态用xpath
老师。用谷歌免安装版问题大吗
老师,我在调试控制台输入:
regx = f'<li><a target="_blank" href="https://new.qq.com/omn/20220621/20220621A03VKD00.html" class="" dt-imp-once="true" dt-eid="em_item_article" dt-params="article_id=20220621A03VKD00&article_type=0&article_url=https://new.qq.com/omn/20220621/20220621A03VKD00.html&dt_element_path=['em_item_article','em_content_card']">世界羽联公布2022年名人堂名单 赵芸蕾上榜</a></li>'
报错了,为什么啊?
import requests from fake_useragent import UserAgent url = 'https://www.baidu.com/s?' args = { 'wd': '快代理' } resp = requests.get(url, params=args, headers={"User-Agent": UserAgent().random}) resp.encoding = 'utf-8' print(resp.text)
老师,请问出现这种报错要怎么解决,在网上查的方法是
但试过之后还是没用
from urllib.request import Request,urlopen # import ssl url="https://www.12306.cn/index/" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67" } # context=ssl.create_default_context() request=Request(url,headers=headers) response=urlopen(request) print(response.read().decode()) 老师,我这里无论用不用ssl他都可以直接访问12306的网站啊,请问这是我UA的问题嘛还是什么?
啥也没有:
老师我在做课后作业:爬取拉勾网职位信息,响应回来的信息提示我需要验证,我加了cookies上去也没用,我该怎么处理啊?
import requests from fake_useragent import UserAgent from lxml import etree headers = {'User-Agent':UserAgent().chrome} args = { 'user':'18825710688', 'password':'ljj20020722' } url = 'https://www.lagou.com/jobs/list_python%E5%B7%A5%E7%A8%8B%E5%B8%88/p-city_0?&cl=false&fromSearch=true&labelWords=sug&suginput=pytho' response = requests.post(url,headers=headers,data=args) print(response.text) # e = etree.HTML(response.text) # names = e.xpath('//h3/text()') # details = e.xpath('//span[@class="add"]/em/text()') # price = e.xpath('//div/span[@class="money"]/text()') # for name,detail,price in zip(names,details,price): # print(name,':',detail,':',price)
有一个问题,就是如果遇到这种网站的话,登录后,再用爬虫爬取其他页面的话,是需要使用到splash控制浏览器到相应界面,还是在下面直接跟页面链接就行。希望出一个爬去验证过后,浏览器里面其他的页面操作
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637