有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

老师，本节中，爬取小说，其实小说网址已经换了，里面的标签内容也和视频中不一样，我的思路是，先爬取首页，从首页中提取所有小说章节中的url，然后重新yield Request（url）中（按顺序添加的）让他重新爬取与重新解析，但是爬下来的小说章节保存在文件中都是乱

scrapy爬取小说.zip

序的，求解！

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 556楼

from fake_useragent import UserAgent
import re
import requests
from bs4 import BeautifulSoup
from time import sleep

def get_html(url):
    '''
    :param url: 要爬取的地址
    :return: 返回html
    '''
    headers = {"User_Agent": UserAgent().random}
    resp = requests.get(url,headers=headers)

    #status_code   返回状态码
    if resp.status_code == 200:
        resp.encoding='utf-8'
        return resp.text
    else:
        return None

def parse_list(html):
    '''
    :param html: 传递进来有一个电影列表的的html
    :return: 返回一个电影的url
    '''

    soup = BeautifulSoup(html,'lxml')
    a_list = soup.select(".book-img-box > a")
    list_url = []
    for a in a_list:
        list_url.append(a.get('href'))
    # 解决验证CA
    # ssl._create_default_https_context = ssl._create_unverified_context
    list_url = ['https:{}'.format(url)for url in list_url]
    return list_url

def parse_index(html):
    '''
    :param html: 传递一个有电影信息的html
    :return: 已经提取好的电影信息
    '''
    soup = BeautifulSoup(html,'lxml')
    name = soup.find('h1','em')
    book = soup.find_all("a", class_="writer")[0].text
    return {'作者':name,'书名':book}

def main():
    num = int(input("请输入要获取多少页："))
    for page in range(num):
        url = 'https://www.qidian.com/all?&page={}'.format(page+1)
        list_html = get_html(url)
        list_url = parse_list(list_html)
        for url in list_url:
            info_html = get_html(url)
            move = parse_index(info_html)
            print(move)

if __name__ == '__main__':
    main()

老师，我这个匹配到h1下面的em标签啊，我网上也查了，也用calss匹配过。最后返回要么空，要么是错误的。

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 557楼

老师我安装python执行export PATH=$PATH:/usr/local/python3/bin/命令怎么没有反应呢？接下里如何配置，如何创建python虚拟机？

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 558楼

这里__name__=='__main__'是什么意思呀

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 559楼

为什么运行后打印的是空啊

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 560楼

我的天，下载这，下载那，安装什么配件都是国外的，以后不能用怎么办？

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 561楼

import requests
from fake_useragent import UserAgent
import re
url='http://toutiao.sogou.com/mil.html'
headers={
    'User-Agent':UserAgent().chrome
}
resp=requests.get(url,headers=headers)
# print(resp.text)
pattern=r'<li><a target="_blank" pbtag="0b656ba00776b52db08559461e34ebe6.mil2" href="https://junshi.china.com/qd/sgnr/top/">中华网军事</a></li>'

result=re.findall(pattern,resp.text)
print(result)

爬取出来的是空的，为什么？？？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 562楼

老师为什么我直接安装scrapy 显示安装成功了

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 563楼

谷歌浏览器在国内很多情况都访问不了怎么解决么

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 564楼

老师您好，我现在导入ssl模块里面的ssl._create_unverified_dontext()函数，但是提示我没有这个模块。还是说python3.7版本以后取消了，并且我直接能抓取到12306的网址信息

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 565楼

老师这个章节没画面啊黑屏了

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 566楼

老师，导出csv是这样的格式，有什么办法导成正常的表格样式吗，就是把‘name’放在第一行去

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 567楼

老师这个下载插件这里进不去

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 568楼

求教啊，老师，解压软件也换了好几个，网上搜索的资源下载下来的也不能用。

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 569楼

//td[@class="date bold center"]/text()'

我用xpath读取了class的text，但是text为空的怎么能拿到，不然我拿到的数据不对称

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 570楼

同学您好