可以换一个网站吗 笔趣阁倒辣
老师好,请问这个b具体表示什么意思?是按照什么方式编码呢?在python里面是b,是不是意味着不同语言爬取的html文本的编码方式也不同呢?
class ZolSpider(scrapy.Spider): name = 'zol' allowed_domains = ['faloo.com'] start_urls = ['https://b.faloo.com/1216400_1.html'] def parse(self, response): name = response.xpath('//h1/text()').extract_first() content = response.xpath('//div[@class="noveContent"]/p/text()').extract() next_url = response.xpath('//*[@id="next_page"]/@href').get() yield { 'name':name, 'content':content } yield scrapy.Request('https:'+next_url,callback=self.parse)
老师我有两个问题 parse这个方法是只要有url无限传递 那他就会无限爬取吗 类似于爬虫加个for循环
这样只有在没有url了以后才会停止爬取 那要是想控制爬取的次数 或者说达到一定条件停止爬取 那这样应该怎么控制呢 yield有能像for循环那样能跳出语句的操作吗
老师我有两个问题 parse这个方法是只要有url无限传递 那他就会无限爬取吗 类似于爬虫加个for循环吗
老师好,打开夜神模拟器的“打开安卓文件夹”选项,夜神模拟器里面就变成了黑屏,这个怎么处理呢
老师这里协程的作用没听明白 这里是实现了在本条协程爬虫爬取数据过程中如果网络堵塞,爬虫的代码可以搁置,然后去执行另一条协程爬虫的代码吗
视频中讲解的是
scrapy crawl douban2 -o douban2.json
可以生成json文件
而我自己的必须是
scrapy crawl douban -o douban2.json
才可以生成json文件
老师这种情况是 猫眼的反爬吗 爬了个空页面
为啥打不开网页?
PS D:\PROJECT_python_project\python01\反爬\proxy_sys> uvicorn proxy_api:app --reload
uvicorn : 无法将“uvicorn”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的
拼写,如果包括路径,请确保路径正确,然后再试一次。
所在位置 行:1 字符: 1
+ uvicorn proxy_api:app --reload
+ ~~~~~~~
+ CategoryInfo : ObjectNotFound: (uvicorn:String) [], CommandNotFoundExceptio
n
+ FullyQualifiedErrorId : CommandNotFoundException
def dai_li_66(page):
web = WebRequest()
for i in range(1,page+1):
url = f"http://www.66ip.cn/{i}.html"
web.get(url=url)
e = web.get_tree()
# 解析数据
ips = e.xpath('//*[@id="main"]/div[1]/div[2]/div[1]/table/tbody/tr/td[1]/text()')
ports = e.xpath('//*[@id="main"]/div[1]/div[2]/div[1]/table/tbody/tr/td[2]/text()')
print(ips)
for i_,p in zip(ips,ports):
print({'ip':i_,'port':p,"_type":'http'})
sleep(3)
为啥返回的是一个空列表呢?
爬虫错误1.png
老师,我想请问一下我这个是什么情况呢
这个报错是什么原因?
import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup def bs4_test(): url='https://www.maoyan.com/films?showType=3' headers={'User-Agennt':UserAgent().chrome} resp = requests.get(url,headers=headers) soup = BeautifulSoup(resp.text,'lxml') names = [div.text.strip('\n') for div in soup.select('div.channel-detail.movie-item-title')] # sorces = [div.text.strip('') for div in soup.select('div.channel-detail.channel-detail-orange')] # for n,s in zip(names,sorces): # print(f'名称:{n} 评分:{s}') print(names) print(resp.text) if __name__ == '__main__': bs4_test()
测试后返回这个错误是什么原因?
我开启断点启用调试模式后,结果就直接运行出来了,在变量区域看不到变量,该怎么设置呢?
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637