Python + Chrome抓取AJAX动态数据的两种方法

2025-04-16 09:36 开发作者：小白学大数据

前言

在现代 Web 开发中，AJAX（Asynchronous JavaScript and XML） 技术被广泛应用于动态加载数据，使得网页能够在不刷新的情况下更新内容。然而，这也给传统爬虫带来了挑战——使用 <font style="color:rgb(64, 64, 64);">requests</font> + <font style="color:rgb(64, 64, 64);">BeautifulSoup</font> 只能获取初始 html，而无法捕获 AJAX 返回的动态数据。

解决方案：

Selenium + ChromeDriver：模拟浏览器行为，等待 AJAX 数据加载完成后再抓取。
直接分析 AJAX 请求：通过 Chrome DevTools 捕获 API 接口，用 requests 直接请求数据（更高效）。

本文将详细介绍 Python + Chrome 如何抓取 AJAX 动态数据，并提供两种方法的完整实现代码。

1. 理解 AJAX 动态加载

1.1 AJAX 工作原理

用户访问网页 → 浏览器加载初始 HTML。
javascript 发起 AJAX 请求（通常是 fetch 或 XMLHttpRequest）。
服务器返回 jsON/XML 数据 → 前端动态渲染到页面。

1.2 传统爬虫的问题

import requests
from bs4 import BeautifulSoup

response = requests.get("https://example.com")
soup = BeautifulSoup(response.text, "html.parser")
# 只能获取初始 HTML，无法得到 AJAX 数据！
编程

2编程客栈. 方法 1：使用 Selenium + Chrome 模拟浏览器

2.1 环境准备

安装必要的库

2.2 示例：爬取动态加载的新闻列表

假设目标网站（如新浪新闻）通过 AJAX 加载更多新闻。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time

# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 配置 Chrome 代理
chrome_options = Options()
chrome_options.add_argument(f"--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}")

# 启动 Chrome
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
driver.get("https://news.sina.com.cn/")

# 等待 AJAX 内容加载（假设新闻列表通过 AJAX 渲染）
try:
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.css_SELECTOR, ".news-itemafpDlQ"))
    )
except:
    print("超时，未找到新闻列表")

# 提取新闻标题和链接
news_items = driver.find_elements(By.CSS_SELECTOR, ".news-item")
for item in news_items:
    title = item.find_element(By.CSS_SELECTOR, "a").text
    link = item.find_element(By.CSS_SELECTOR, "a").get_attribute("href")
    print(f"标题: {title}\n链接: {link}\n")

# 关闭浏览器
driver.quit()

2.3 关键点说明

WebDriverWait：显式等待 AJAX 数据渲染完成。
EC.presence_of_element_located：检查目标元素是否已加载。
find_elements + CSS/XPath：定位动态生成的内容。

3. 方法 2：直接抓取 AJAX API 数据（更高效）

3.1 分析 AJAX 请求

打开 Chrome → F12（http://www.devze.com开发者工具） → Network（网络）标签页。
刷新页面，筛选 XHR/fetch 请求。
找到返回目标数据的 API 接口（通常是 json 格式）。

3.2 示例：爬取豆瓣电影 AJAX 数据

豆瓣电影首页通过 AJAX 加载热门电影列表。

步骤 1：分析 API

打开 https://movie.douban.com → F12 → Network → 筛选 XHR。
发现 API：https://movie.douban.com/j/search_subjects?...

步骤 2：用 Python 直接请求 API

import requests
import json

# 豆瓣电影 AJAX API
url = "https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response = requests.get(url, headers=headers)
data = response.json()  # 直接解析 JSON

# 提取电影信息
for movie in data["subjects"]:
    print(f"电影名: {movie['title']}")
    print(f"评分: {movie['rate']}")
    print(f"链接: {movie['url']}\n")

3.3 优势与限制

优势：速度快，无需加载完整页面。
限制：需手动分析 API，部分javascript接口可能有加密或鉴权。

4. 总结

方法	适用场景	优点	缺点
Selenium	复杂动态渲染页面	能模拟完整浏览器行为	速度慢，资源占用高
直接请求 API	结构化数据（如 JSON）	高效，速度快	需手动分析接口，可能受限

最佳实践建议

优先分析 AJAX API：如果目标网站有清晰的接口，直接请求更高效。
Selenium 备用：适用于无法直接获取 API 或需要交互的页面。
遵守 Robots.txt：避免高频请求，防止被封禁。

到此这篇关于Python + Chrome抓取AJAX动态数据的两种方法的文章就介绍到这了,更多相关Python Chrome抓取AJAX数据内容请搜索编程客栈(www.devze.com)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程客栈(www.devze.com)！

继续阅读：Python AJAX Python AJAX动态数据抓取 Python Chrome Python Chrome抓取AJAX数据

Python + Chrome抓取AJAX动态数据的两种方法

目录

前言

1. 理解 AJAX 动态加载

1.1 AJAX 工作原理

1.2 传统爬虫的问题

2编程客栈. 方法 1：使用 Selenium + Chrome 模拟浏览器

2.1 环境准备

2.2 示例：爬取动态加载的新闻列表

2.3 关键点说明

3. 方法 2：直接抓取 AJAX API 数据（更高效）

3.1 分析 AJAX 请求

3.2 示例：爬取豆瓣电影 AJAX 数据

步骤 1：分析 API

步骤 2：用 Python 直接请求 API

3.3 优势与限制

4. 总结

最佳实践建议

更多精彩内容

精彩评论

最新开发

C语言文件随机读写的完全指南

.NET中利用C#实现Excel条件格式的自动化设置

使用C#将Excel导出为DataTable的实战指南

Spring创建Bean的多种方式对比与最佳实践

IDEA使用Git对分支进行开发合并的全过程

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）