会员可以在此提问,百战程序员老师有问必答
对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题,会帮你学得更全面
截止目前,同学们一共提了 132885个问题

之前用request爬取猫眼电影时,

由于猫眼把电影信息变成了动态获取,因此无法直接用源代码爬取。

现在通过selenium直接点进电影信息时发现,

即使首页面加了防检测,但只能在当前页面生效,打开的新页面window.navigator.wevdrive===True,依旧无法获取电影信息,因此仍无法用selenium获取多条电影信息。

因此通过request爬取电影目录,selenium爬取电影信息,总算是成功爬取了电影信息,目前猫眼评分转了码问题仍未解决

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from time import sleep
import requests
from fake_useragent import UserAgent
from lxml import etree
from queue import Queue
from threading import Thread


def get_film_list(page):
    film_list = []
    for i in range(page):
        url = f'https://www.maoyan.com/films/?showType=3&offset={30*i}'
        headers = {'User-Agent': UserAgent().chrome}
        resp = requests.get(url, headers = headers)
        html = etree.HTML(resp.text)
        films = html.xpath('//dd/div[@title]/a/@href')
        for film in films:
            film_list.append(film)
        sleep(1)
    return film_list


def get_film_data(film):
    url = f'https://www.maoyan.com{film}'
    options = webdriver.ChromeOptions()
    # 设置无头
    options.add_argument('--headless')
    # 防检测1
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    options.add_experimental_option('useAutomationExtension', False)

    service = Service(executable_path='./tools/chromedriver')
    chrome = webdriver.Chrome(service=service, options=options)
    chrome.implicitly_wait(2)

    # 防检测2
    chrome.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
            Object.defineProperty(navigator, 'webdriver', {
              get: () => false
            })
          """
    })

    chrome.get(url)
    name = chrome.find_element(By.XPATH, '//h1[@class="name"]').text
    type_ = [i.text for i in chrome.find_elements(By.XPATH, '//a[@class="text-link"]')]
    chrome.find_element(By.XPATH, '//div[@class="tab-title "]').click()
    actors = []
    for i in chrome.find_elements(By.XPATH, '//li[@class="celebrity actor"]/div/a'):
        if i.text and i.text not in actors:
            actors.append(i.text.strip())

    info = {'电影名': name, '类型': type_, '主演': actors}
    return info


def create_quere(list):
    q = Queue()
    for i in list:
        q.put(i)
    return q


class MyThread(Thread):
    def __init__(self, q):
        Thread.__init__(self)
        self.__q = q

    def run(self) -> None:
        while not self.__q.empty():
            film = self.__q.get()
            film_info = get_film_data(film)
            print(film_info)


if __name__ == '__main__':
    film_list = get_film_list(1)
    q = create_quere(film_list)
    for i in range(3):
        t = MyThread(q)
        t.start()


Python 全系列/第十四阶段:Python 爬虫开发/爬虫基础(旧) 9706楼
Python 全系列/第十四阶段:Python 爬虫开发/爬虫基础(旧) 9707楼
JAVA 全系列/第一阶段:JAVA 快速入门/JAVA入门和背景知识 9708楼
WEB前端全系列/第五阶段:前后端交互/网络请求AJAX 9709楼

飞机大战.zip

为什么我的炮弹它不动。。。。。


JAVA 全系列/第一阶段:JAVA 快速入门/飞机大战小项目训练 9710楼
JAVA 全系列/第三阶段:数据库编程/JDBC技术 9711楼
Python 全系列/下架-第十二阶段:Python_大型电商项目(5天后下架)/Django项目阶段-电商项目 9712楼
人工智能/第四阶段:人工智能基础-高等数学知识强化/线性代数高级 9715楼
人工智能/第四阶段:人工智能基础-高等数学知识强化/线性代数高级 9716楼
WEB前端全系列/第十九阶段:Vue2知识体系(旧)/Vue路由 9717楼
Python 全系列/第二阶段:Python 深入与提高/GUI编程(隐藏) 9718楼
JAVA 全系列/预科阶段:职业规划/学习方法/程序员的基本素养和职业规划 9719楼

import sun.dc.pr.PRError;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.ServerSocket;
import java.net.Socket;
import java.util.Scanner;

/**
 * 发送消息
 */
class Send1 extends Thread{
    private Scanner scanner;
    private Socket socket;
    public Send1(Socket socket,Scanner scanner){
        this.socket=socket;
        this.scanner=scanner;
    }

    @Override
    public void run() {
        this.Send1Msg();
    }
    public void Send1Msg(){
        try (PrintWriter pw=new PrintWriter(socket.getOutputStream());){
            while (true){
                String msg=scanner.nextLine();
                pw.println(msg);
                pw.flush();
            }
        }catch (Exception e){
            e.printStackTrace();
        }
    }
}

/**
 * 接收消息的线程
 */
class Receive1 extends Thread{
    private Socket socket;
    public  Receive1(Socket socket){
        this.socket=socket;
    }

    @Override
    public void run() {
        this.ReceiveMsg();
    }
    public void ReceiveMsg(){
        try (BufferedReader br=new BufferedReader(new InputStreamReader(socket.getInputStream()));){
            String msg=br.readLine();
            System.out.println("他说:"+msg);

        }catch (Exception e){
            e.printStackTrace();
        }
    }
}
public class GoodTCP {
    public static void main(String[] args) {
        ServerSocket serverSocket=null;
        Socket socket=null;
        try {
            Scanner scanner=new Scanner(System.in);
            System.out.println("请输入:server,<port> 或者:<ip>,<port>");
            String str=scanner.nextLine();
            String[] arr=str.split(",");
            //启动服务器
            if ("server".equals(arr[0])){
                System.out.println("TCP Server Listen at "+arr[1]+".......");
                serverSocket=new ServerSocket(Integer.parseInt(arr[1]));
                socket=serverSocket.accept();
            }else {//启动客户端
                socket=new Socket(arr[0],Integer.parseInt(arr[1]));
                System.out.println("连接成功");
            }
            //启动发送消息的线程
            new Send1(socket,scanner).start();
            //启动接收消息的线程
            new Receive1(socket).start();
        }catch (Exception e){
            e.printStackTrace();
        }finally {
            if (serverSocket !=null){
                try {
                    serverSocket.close();
                }catch (IOException e){
                    e.printStackTrace();
                }
            }
        }
    }
}

为什么我的只能一次,而且另外一个也会运行回答null呢。


image.pngimage.png

JAVA 全系列/第二阶段:JAVA 基础深化和提高/网络编程 9720楼

课程分类

百战程序员微信公众号

百战程序员微信小程序

©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637