from urllib.request import Request, urlopen from urllib.parse import quote def get_html(ur1): headers = { "User_agent":"Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TheWorld)" } request = Request(ur1, headers = headers) response = urlopen(request) return response.read().decode() def save_html(html,filename): with open(filename, 'w', encoding='utf-8') as f: f.write(html) def main(): ur1 = 'https://tieba.baidu.com/f/search/res?ie=utf-8&qw=%E5%88%BA%E5%AE%A2%E4%BF%A1%E6%9D%A1&red_tag=3423937163' html = get_html(ur1) save_html(html, filename) if __name__ == '__main__': main()
老师这个怎么解决呢
from urllib.request import Request, urlopen from urllib.parse import quote def get_html(ur1): headers = { "User_agent":"Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TheWorld)" } request = Request(ur1, headers = headers) response = urlopen(request) return response.read().decode() def save_html(html,filename): with open(filename, 'w', encoding='utf-8') as f: f.write(html) def main(): ur1 = 'https://tieba.baidu.com/f/search/res?ie=utf-8&qw=%E5%88%BA%E5%AE%A2%E4%BF%A1%E6%9D%A1&red_tag=3423937163' html = get_html(ur1) save_html(html, filename) if __name__=='__main__': main()
老师,我想问一下这个错误是什么原因?
存在两个疑惑,希望老师可以答疑:
1、scrapy 是否可以理解为已经写好的框架类设计,而前面学习的动态UA,会话cookie在这里依旧有效(实现同样的功能,只是可能表现的方法不同)
2、对于选择器的概念还不是很明白,有没有更浅显直白的相关扩展资料来参考下
老师,我在分布式里面加入了splash。然后在windows上抓取没问题,但是在linux上跑就出现这个问题,这是为什么啊?
d_xiaoshuo.zip
老师我的title返回来是空值,nonetype,内容是好着的,但是目前只有第一章的
import json strList = [1, 2, 3, 4] strDict = '{"city": "北京", "name": "小明"}' # lt = json.loads(strList) # [1, 2, 3, 4] dt = json.loads(strDict) json.dumps(strList, ensure_ascii=False) json.dumps(dt) print(dt) print(type(dt)) print(strList, type(strList))
为什么我的dumps没有转换成功,明明是按照视频中的写的啊 ,我用的是Python3.9
game.zip
老师 这个文件不生成 txt文件 是什么原因?
老师,视频中三分二十五秒创建的zongheng文件,我创建之后zongheng文件在book目录外面,这有影响吗
老师,这里应该改成什么
老师,获取这个有ajax请求的网页,视频介绍的是找到URL,但是如果URL没有规律怎么搞
老师 ,我按着 scrapy crawl zongheng -o book.json 的形式运行,最后只得出一个数据,是什么原因?
老师,已导入好UserAgent, 但为什么总是报错呢
老师,你好!安装docker 报错提示 虚拟化没打开 可是事实是开着的 电脑重启/软件重装都不好使,有什么办法解决吗?麻烦帮忙看下,谢谢!
老师您好我这里的bug不知道出什么问题了。。。。
setting文件
BOT_NAME = 'splash_demo' SPIDER_MODULES = ['splash_demo.spiders'] NEWSPIDER_MODULE = 'splash_demo.spiders' # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'splash_demo (+http://www.yourdomain.com)' # Obey robots.txt rules ROBOTSTXT_OBEY = False SPLASH_URL = 'http://192.168.99.100:8050/' DOWNLOADER_MIDDLEWARES = { 'scrapy splash.SplashCookiesMiddleware': 723, 'scrapy splash.SplashCookiesware': 725, 'scrapy。downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810 } DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter' HTTPCACHE_STORAGE = 'SCRAPY_SPLASH.SplashAwareFSCacheStorage'
spider 文件
import scrapy from scrapy_splash import SplashRequest class Guazi1Spider(scrapy.Spider): name = 'guazi1' allowed_domains = ['guazi.com'] start_urls = ['http://guazi.com/'] def start_requests(self): url = 'https://www.baidu.com/' yield SplashRequest(url, callback=self.parse) def parse(self, response): print(response.text)
老师,你好!请问一下在xshell里面怎么实现爬虫程序暂停/继续功能? 我按下CTRL+z 停止程序后,不懂怎么恢复继续了
当我重新输入 scrapy runspider xxx.py ,提示被过滤掉了
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637