会员可以在此提问,百战程序员老师有问必答
对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题,会帮你学得更全面
截止目前,同学们一共提了 132358个问题
Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础(旧) 841楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础 843楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬- 844楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬- 845楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础 846楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬- 848楼
Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用 849楼

一、问题描述如下:

第一种登录方法

    header信息内包含cookie信息,然后进行登录已经学会了。

第二种登录方法

    首先爬虫登录,然后再进入用户界面。这个方法不会!

    登录部分的爬虫,登录不成功,老师您帮忙解决下啊?

二、以下自己写的登录的爬虫代码:

from fake_useragent import UserAgent
import requests

login_url = "https://www.xiami.com/api/passport/login?_s=5f6dc7cd6de10b55330ddb181589a6bb&_xm_cf_=Dm7tbk5qvorx05qWM87w--zx"
headers = {
    "User-Agent": UserAgent().random
}
form_data = {
    "account":"18233301608",
    "ncoSessionid":"01TYfee2_GraAMkskrBwFyr5N7Hv36ALHbgXhvniqZTFsla5-L3b7D7lHGFGTpBVKZD9bU_PCl1vapuvprHnGq5uy5tCnEO9h2-vlgYxj5u3kjftngikzTT5sGq4pMdRq_YjfjlKJ8sNRNxP0SdMi4Mn1uWsoswSwPHIca11tLxwc",
    "ncoSign":"05zCa5bJg-baNHof555vbNZh-c4S-6BY4BY4oXagczXJ6s4Zn5_UziyXeRCV6VTqDs3pl74vefKQJO1qRNtp3kWGyOunuJCMzvoZ8LCn4K7TmnETjhCtS2bqSoecARmW8A0vkKi9EXfHhYqQbQe4fZn9zdhIyz8AtvGLOoXsgWLLT-3SMVKvtgjWnUdFluC-EDnTMba0kZB5uk-lwptZzKDfJ2_J7undVWJgij0UvgjeFuJLXENJ4nh0_zZihR6GiYaPxXA0g109iuZuxKA_vhQJ-J0LlTG3BLKmOIybjsfjEyJcPJNqY-sE0xcOYoQrLlYPyk687rhKB-gEBCdjZyquhjg7OLw1QvNS1gEqvH2R5kmlQd5pmnin3iI8mucMm3pmQvOFg1n_tYHxBng4JfqQ",
    "ncoToken":"web_login_1564504886255_0.08087377440410681",
    "password":"e10adc3949ba59abbe56e057f20f883e"
}
resp = requests.post(login_url,headers=headers,data=form_data)
print(resp.text)

三、以下是如何抓取登录的url,跟用户的账号密码等信息信息。

    url

url.png

    用户信息

用户信息.png

  如果以上操作不正确,还请老师您给改正!

Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用(旧) 850楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础(旧) 851楼
Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用 853楼

老师,我这个打印不出来内容是为啥,看下面的评论说没联网,可是我网络也没问题啊

image.png代码:

from fake_useragent import UserAgent
import requests
from lxml import etree
from time import sleep


def get_html(url):
    '''
    :param url: 要爬取的地址
    :return: 返回html
    '''
    headers = {"User-Agent": UserAgent().chrome}
    resp = requests.get(url, headers=headers)
    # sleep(2)
    if resp.status_code == 200:
        resp.encoding = 'utf-8'
        return resp.text
    else:
        return None


def parse_list(html):
    '''
    :param html: 传递进来一个有电影列表的html
    :return: 返回一个电影列表的url
    '''

    e = etree.HTML(html)
    list_url = ['http://maoyan.com{}'.format(url) for url in e.xpath('//dd/div[@class="movie-item film-channel"]/a/@href')]
    return list_url


def pares_index(html):
    '''
    :param html: 传递进来一个有电影信息的html
    :return: 已经提取好的电影信息
    '''
    e = etree.HTML(html)
    name = e.xpath('//div/h1/text()')[0]
    type = e.xpath('//div/ul/li[@class="ellipsis"]/a/text()')[0]
    actors = e.xpath('//div[@class="celebrity-group"][2]/ul[@class="celebrity-list clearfix"]/li/div/a/text()')
    actors = format_data(actors)
    return {"name": name, "type": type, "actors": actors}


def format_data(actors):
    actor_set = set()
    for actor in actors:
        actor_set.add(actor.strip())
    return actor_set


def main():
    num = int(input('请输要获取多少页:'))
    for page in range(num):
        url = "https://maoyan.com/films?showType=3&offset={}".format(page*30)
        list_html = get_html(url)
        list_url = parse_list(list_html)
        for url in list_url:
            info_html = get_html(url)
            movie = pares_index(info_html)
            print(movie)


if __name__ == '__main__':
    main()


Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬- 854楼

课程分类

百战程序员微信公众号

百战程序员微信小程序

©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637