1.
2.打开开发者模式,把它拖到谷歌浏览器的程序拓展里
3.就出现这种情况
4.放到搜狗浏览器可以使用,把打开方式改成谷歌也没用
start.py 位置的问题,放到spider目录下了。就不会爬取到内容
如图所示,log日志没有报错,也显示出来抓取到的内容,但没有文件生成是什么情况?
把Proxy-SwitchyOmega_v2.3.16文件拖到Google扩展程序的时候显示程序包无效。然后网上找方法又变成扩展程序又变成这样,打不开扩展文件的这个选项页面。
使用selenium如何访问,需要登录后才能访问的url
一、问题描述如下:
第一种登录方法
header信息内包含cookie信息,然后进行登录已经学会了。
第二种登录方法
首先爬虫登录,然后再进入用户界面。这个方法不会!
登录部分的爬虫,登录不成功,老师您帮忙解决下啊?
二、以下自己写的登录的爬虫代码:
from fake_useragent import UserAgent import requests login_url = "https://www.xiami.com/api/passport/login?_s=5f6dc7cd6de10b55330ddb181589a6bb&_xm_cf_=Dm7tbk5qvorx05qWM87w--zx" headers = { "User-Agent": UserAgent().random } form_data = { "account":"18233301608", "ncoSessionid":"01TYfee2_GraAMkskrBwFyr5N7Hv36ALHbgXhvniqZTFsla5-L3b7D7lHGFGTpBVKZD9bU_PCl1vapuvprHnGq5uy5tCnEO9h2-vlgYxj5u3kjftngikzTT5sGq4pMdRq_YjfjlKJ8sNRNxP0SdMi4Mn1uWsoswSwPHIca11tLxwc", "ncoSign":"05zCa5bJg-baNHof555vbNZh-c4S-6BY4BY4oXagczXJ6s4Zn5_UziyXeRCV6VTqDs3pl74vefKQJO1qRNtp3kWGyOunuJCMzvoZ8LCn4K7TmnETjhCtS2bqSoecARmW8A0vkKi9EXfHhYqQbQe4fZn9zdhIyz8AtvGLOoXsgWLLT-3SMVKvtgjWnUdFluC-EDnTMba0kZB5uk-lwptZzKDfJ2_J7undVWJgij0UvgjeFuJLXENJ4nh0_zZihR6GiYaPxXA0g109iuZuxKA_vhQJ-J0LlTG3BLKmOIybjsfjEyJcPJNqY-sE0xcOYoQrLlYPyk687rhKB-gEBCdjZyquhjg7OLw1QvNS1gEqvH2R5kmlQd5pmnin3iI8mucMm3pmQvOFg1n_tYHxBng4JfqQ", "ncoToken":"web_login_1564504886255_0.08087377440410681", "password":"e10adc3949ba59abbe56e057f20f883e" } resp = requests.post(login_url,headers=headers,data=form_data) print(resp.text)
三、以下是如何抓取登录的url,跟用户的账号密码等信息信息。
url
url.png
用户信息
用户信息.png
如果以上操作不正确,还请老师您给改正!
1、老师,这种滑块的验证如何登陆啊?
2、老师您帮忙看看我的这个代码是不是没有进入用户登录啊?
from fake_useragent import UserAgent import requests login_url = ""https://www.xiami.com/api/passport/login?_s=1c4b8c7df073c5f5d87c8c3d53696a80&_xm_cf_=8AbWYVbpKjqiKTOieajzdtRP"" headers = {"user-agent": UserAgent().random} form_data ={ "account":"18233301608", "ncoSessionid":"01l226v1bCklKZGaS4pM-XkexAHIXQJKMkheIWOYlE-tp_FJVxBE0fkn51blEkQ8qSFiRJRrODbFWU2wA-FVg4l6_ijMiHM99ATKr2LD2tbEEoswFpbuRk3JI-nSWcLf2TONkhHRXe2HqoHRrsLwwAbGyPlBJUEqctiaTooWaXr7I", "ncoSign":"05hsU0UmHVD-ozk047zGZbWfzLuhtVMjb_10CvaRGXwXl10MXSzcF_9bE2GGvgVMDdifepMAnw6Rn_2tZT3WyrGLbBKxgl_0DDEi7N56zYCUKS7gg10a799K-ucg9hOXJiiTxxvDz1Ns8gQI1KNIiNJv-VYFHHErD-4gmlRFljyr-5T5579_esKza3q0GSpobljee0w8cxy3tEkSiNuHss76-tYYvMzxGJ8sWhufa08AGlyrW3-ss0BQaY8rOV2-hO7M2RN7TqY7ZdyATDqxDvVrLFKnJHrkyqMPlCArpTVwisPzBSv0cO0KaYvsX8NsDgl8IFdMjyllNGeqO6_D5seeQrUv7a3LC_fnQlND7tPqWpOWDjUdnNbDHrufWtFPWq2PeK_y1yCIpd2N2lT0RgHg", "ncoToken":"web_login_1564373329605_0.958661482699025", "password":"e10adc3949ba59abbe56e057f20f883e" } session = requests.Session() resp = session.post(login_url,data=form_data,headers=headers) resp.encoding = 'utf-8' print(resp.text)
怎么样修改下代码才可以正确用户登录呢?
3、
虾米音乐登录URL地址.png
是这样获取,登录时的的URL吗?
self.new_url = set() 这行代码时什么意思不懂。
set()方法 没有封装怎么可以直接用呢?这个set()方法是什么意思啊?
我通过
pip3 install fake-useragent
下载fake-useragent库的时候一直提示我:error: could not create 'c:\program files\python37\Lib\site-packages\fake_useragent': 拒绝访问。
对于像虎牙这种直播网,点击下一页后,url不变,多线程爬取又该如何实现呢???
我为什么把SwitchyOmega一拖进来就提示程序包无效
老师您好,请教几个个非技术性问题:
(1)就是爬虫学到哪了程度了可以尝试去找工作?是否需要比较精才可以?
简单介绍一下自己的情况,现在已经学完了爬虫课程,可以登录一些网站爬取信息(主要用的还是cookies登录,验证码登录时而成功时而失败)并保存,scrapy基本操作会了,但真正编写爬虫的时候需要时不时翻阅资料。
简单概括就是,基本会登录网站爬取数据简单处理之后报存在数据库。
(2)另外还想问一下,企业爬虫一般用那种登录方式比较多,个人感觉是cookies,不知道是否正确?
(3)我个人是想往爬虫方向发展的,网络编程基础只学了html、css、javascript,没学框架,这样学习是否合理?
(4)除了尚学堂的课程,请老师推荐精通爬虫的书籍。
期待回复,谢谢。
无法安装xpath,将文件拖动到开发者工具界面,显示程序包无效,网上搜的几种方式也尝试了,没反应
1561858412(1).jpg
我这个"origin": "180.110.24.124, 180.110.24.124",为什么会有两个一样的ip打印出来?会对高匿有影响么?
from urllib.request import Request,build_opener from fake_useragent import UserAgent from urllib.request import ProxyHandler url = 'http://httpbin.org/get' headers = {'User-Agent':UserAgent().chrome} req = Request(url,headers=headers) handler = ProxyHandler({"http":"180.110.24.124:3456"}) opener = build_opener(handler) resp = opener.open(req) print(resp.read().decode())
cookie一定要有该网站的账号和密码后,才能获得吗?
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637