有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

老师我的代码是按照视频里面敲的，但是运行的时候就会出错，只可以爬取几条数据，麻烦老师帮我看下子

from selenium import webdriver
from time import sleep
from lxml import etree

# 构造浏览器
chrome = webdriver.Chrome()
# 发送请求
url = 'https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&wq=%E7%AC%94%E8%AE%B0%E6%9C%AC&pvid=ce58b28b72ae48c190c8451125b8f894'
chrome.get(url)

# 拉动滚动条到底部，注意的是代码应该写在获取网页源码之前
js = 'document.documentElement.scrollTop=100000'
chrome.execute_script(js)
sleep(3)

html = chrome.page_source
e = etree.HTML(html)
# titles = e.xpath('//div[@class="p-name p-name-type-2"]/a/em/text()')
titles = e.xpath('//div[@id="J_goodsList"]//div[@class="p-name p-name-type-2"]/a/@title')
prices = e.xpath('//div[@id="J_goodsList"]//div[@class="p-price"]/strong/i/text()')

for title,price in zip(titles,prices):
    print(title,':',price)
print(len(price))
chrome.quit()

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 856楼

老师，请问，我第一次爬取的时候，数据库中只有一页的内容，但是我把close_spider这个函数注释掉或者加个等待，就可以爬取3页的数据，这种情况是不是在数据还没有保存完，连接就关闭了

Python 全系列/第十六阶段：Python 爬虫开发/爬虫数据存储 857楼

老师麻烦帮我看下代码，我的ip好像是不是被封了？响应回来的html好像是要我验证

import requests
from fake_useragent import UserAgent
from lxml import etree

def get_html(url):
    '''传入要爬取的地址，返回html'''
    headers = {"User-Agent": UserAgent().chrome}
    response = requests.get(url,headers)
    if response.status_code == 200:
        response.encoding = 'utf-8'
        print(response.text)
        return response.text
    else:
        return None         

def parse_list(html):
    '''传入含有电影信息的html，返回电影列表的每个电影的html'''
    e = etree.HTML(html)
    list_url = ['https://maoyan.com/{}'.format(url) for url in e.xpath('//div[@class="movie-item film-channel"]/a/@href')]
    # print(list_url)
    return list_url

def parse_index(html):
    '''传入有电影信息的html，返回提取到的电影信息'''
    e = etree.HTML(html)
    name = e.xpath('//h1[@class="name"]/text()') 
    type = e.xpath('//li[@class="ellipsis"][1]/a/text()')
    actor = e.xpath('//div[@class="celebrity-group"][2]/ul[@class="celebrity-list clearfix"]/li/div/a/text()')
    actors = format_data(actor)
    return {'name':name,'type':type,'actor':actors}

def format_data(actors):
    actor_set = set()
    for actor in actors:
        actor_set.add(actor)
    return actor_set

def main():
    num = int(input('请输入要获取的页数：'))
    for page in range(num):
        url = 'https://maoyan.com/films?showType=3&offset={}'.format(page*30)
        list_html = get_html(url)
        list_url = parse_list(list_html)
        print(list_url)
        # for url in list_url:
        #     info_html = get_html(url)
        #     movie = parse_index(info_html)
        #     print(movie)


if __name__ == "__main__":
    main()

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 858楼

老师，请问，我这里直接pip，为什么没有自动给我安装到这个项目的site-packages中呢，下图是自动安装的路径，是不对的

Python 全系列/第十六阶段：Python 爬虫开发/爬虫数据存储 859楼

老师我这里在爬取了两页之后会提示说编码错误，麻烦老师帮我看下

from urllib.request import Request,urlopen
from fake_useragent import UserAgent

def get_html(url):
    headers = {"User-Agent": UserAgent().chrome}
    request = Request(url,headers=headers)
    response = urlopen(request)
    return response.read().decode()

def save_html(html,filename):
    with open(filename,'w',encoding='utf-8') as f:
        f.write(html)

def main(): 
    for i in range(1,4):
        url = 'https://www.qiushibaike.com/8hr/page/{}/'.format(i)
        html = get_html(url)
        filename = '《糗事百科》第'+str(i)+'页.html'
        save_html(html,filename)
        
if __name__ == "__main__":
    main()

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 860楼

老师你好！我这个好像有些许不同。是什么原因，版本不一样吗？

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 861楼

老师，我有一个疑问，这种携带登录信息，账号名密码的访问url，如果被发现是爬虫在访问了，不是直接就获取到我们的账号和密码了嘛

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 862楼

老师，请问，这个External Libraries是放什么的哦，为什么查看源码从这里面找，找的又是谁的源码呢，在视频第19分钟

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 863楼

就是运行不出来

import requests
login ='http://www.chaojiying.com/user/login/'
img ="http://www.chaojiying.com/public/default/images/content_login/img_login.jpg"
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
}

#创建session对象
session =requests.session()
#第一次获取登陆页面
resp = session.get(login,headers=headers)
#获取验证码
img_resp=session.get(img,headers=headers)

#保存验证码
with open("code.jpg","wb") as f:
    f.write(img_resp.content)

code=input("输入：")
date={
'user': 'jingrunping',
'pass': '456363',
'imgtxt':code,
'act': '1'
}
#登陆操作
login_resp=session.post(login,headers=headers,date=date)
print(login_resp.text)

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 864楼

老师，昨天还能运行，今天怎么运行不出来，怎么回事

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 865楼

老师，昨天还能运行，今天怎么运行不出来，怎么回事

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 866楼

老师，能把能用正则把图片中标记字体匹配一下

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 867楼

火狐就是运行不出来。老师

from selenium import webdriver

# 构造浏览器
fire = webdriver.Firefox()
# 发送请求，访问url
url = 'http://www.baidu.com'
fire.get(url)

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 868楼

老师

1、selenium的获取URL方法

from time import sleep
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.maximize_window()

driver.get('http://www.baidu.com')
sleep(2)
try:
    driver.find_element_by_id('kw').send_keys('汽车之家')
    driver.find_element_by_id('su').click()
    '''延时操作，访问页面'''
    driver.implicitly_wait(10)
    # WebDriverWait(driver,10).until(EC.presence_of_element_located((By.XPATH,'//div[@id="1"]/h3/a'))).send_keys(Keys.ENTER)
    driver.find_element_by_xpath('//div[@id="1"]/h3/a').send_keys(Keys.ENTER)    # 或者 Keys.RETURN
    '''页面相关操作'''
    driver.implicitly_wait(10)
    a = driver.current_url
    print(a)

except Exception as e:
    print(e)

finally:
    sleep(10)
    driver.quit()

这个方法为什么获取不到当前访问页面的URL？比如这里成功通过百度，跳转到了汽车之家的官网，调用这个方法打印的是百度搜索页面的URL，还是说这个方法本来就是这样？如何获取到当前页面的url呢？

2、selenium获取页面源代码

获取源代码应该也是根据他当前获取的URL的源代码吧，比如这里只能获取百度搜索页面的的URL，所以打印的也是百度搜索页面的源码

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 869楼

我不用cookie也直接能登入啊，啥情况

urllib.request Requesturlopen
fake_useragent UserAgent

url = headers = {: UserAgent().random}
req = Request(url=headers)
reps = urlopen(req)
(reps.read().decode())

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 870楼

同学您好