使用浏览器开发者工具(最常用、最推荐)
这是最直接、最简单的方法,适用于几乎所有现代浏览器(如 Chrome, Firefox, Edge, Safari),它能让你实时查看和编辑网页的HTML结构和CSS样式。

(图片来源网络,侵删)
步骤 1: 打开目标网页
在浏览器中打开你想要分析的网页。
步骤 2: 打开开发者工具
- 快捷键:按
F12键。 - 右键菜单:在页面上任意位置点击鼠标右键,选择“检查”(Inspect)。
步骤 3: 查看和提取 HTML
开发者工具通常会默认显示“元素”(Elements)面板,这里就是网页的HTML结构。
- 定位元素:将鼠标悬停在HTML代码的某一行上,网页上对应的元素会高亮显示,点击某一行HTML代码,可以精确选中该元素。
- 复制HTML:
- 复制单个元素:右键点击你想要复制的HTML标签行,选择“复制”(Copy) -> “复制元素”(Copy element)。
- 复制外层HTML:右键点击,选择“复制” -> “复制外部HTML”(Copy outerHTML),这会包含当前元素及其所有子元素。
- 复制父级HTML:右键点击,选择“复制” -> “复制父级HTML”(Copy innerHTML),这只会复制当前元素内部的子元素。
步骤 4: 查看和提取 CSS
在“元素”面板中,选中你感兴趣的HTML元素后,右侧会显示“计算样式”(Computed)和“样式”(Styles)面板。
- 查看样式:“样式”面板列出了应用于当前元素的所有CSS规则,包括浏览器默认样式、外部CSS文件引入的样式以及
<style>标签内嵌的样式。 - 复制CSS:
- 复制单个CSS规则:在“样式”面板中,找到你想要的CSS规则(
.my-class { ... }),右键点击该规则,选择“复制”(Copy) -> “复制声明”(Copy declaration)或“复制规则”(Copy rule)。- 复制声明:只复制
color: red;这样的属性。 - 复制规则:复制
.my-class { color: red; }这样的完整规则。
- 复制声明:只复制
- 复制所有样式:如果你想复制一个元素的所有计算后的最终样式,可以在“计算样式”面板中,右键点击任何一个样式属性,选择“复制所有声明”(Copy all declarations)。
- 复制单个CSS规则:在“样式”面板中,找到你想要的CSS规则(
查看网页源代码(获取原始HTML)
这个方法可以获取到未经浏览器处理的、最原始的HTML代码,但无法直接看到关联的CSS文件(除非CSS是内嵌在HTML中的)。

(图片来源网络,侵删)
- 快捷键:在网页上按
Ctrl + U(Windows/Linux) 或Cmd + Option + U(Mac)。 - 菜单:浏览器菜单 -> “查看” -> “页面源代码”。
你会得到一个包含所有HTML、内联<style>和<script>标签的文本文件,外部CSS和JS文件只会显示为<link>或<script>标签的引用,你需要手动复制这些链接去下载对应的文件。
使用在线工具(快速下载)
有很多在线工具可以一键下载整个网站(包括HTML、CSS、图片等),非常适合离线分析。
- 下载网页所有资源:
- 访问 https://download-website.com/ 或类似网站。
- 输入目标网址,工具会帮你打包下载所有文件。
- 提取CSS/JS链接:
- 使用像 FindCSS 这样的工具,输入网址,它会帮你找出所有外部CSS和JS文件的链接。
使用编程方式抓取(高级/自动化)
如果你需要批量处理或自动化提取,可以使用 Python 等编程语言,最常用的库是 requests (获取HTML) 和 BeautifulSoup (解析HTML)。
示例:使用 Python 提取HTML和CSS链接
import requests
from bs4 import BeautifulSoup
import os
# 目标网址
url = 'https://example.com' # 替换成你想抓取的网站
# 1. 获取HTML内容
try:
response = requests.get(url, headers={'User-Agent': 'My-Bot/1.0'})
response.raise_for_status() # 如果请求失败,则抛出异常
html_content = response.text
except requests.RequestException as e:
print(f"请求失败: {e}")
exit()
# 2. 解析HTML并提取所有CSS链接
soup = BeautifulSoup(html_content, 'html.parser')
# 创建一个目录来保存文件
output_dir = 'extracted_assets'
os.makedirs(output_dir, exist_ok=True)
# 提取并下载外部CSS文件
css_links = []
for link in soup.find_all('link', rel='stylesheet'):
css_url = link.get('href')
if css_url and css_url.startswith('http'): # 确保是完整的URL
css_links.append(css_url)
print(f"找到CSS文件: {css_url}")
try:
css_response = requests.get(css_url)
css_response.raise_for_status()
# 保存CSS文件
file_name = os.path.join(output_dir, os.path.basename(css_url))
with open(file_name, 'w', encoding='utf-8') as f:
f.write(css_response.text)
print(f"已保存CSS到: {file_name}")
except requests.RequestException as e:
print(f"下载CSS失败 {css_url}: {e}")
# 3. 提取内联的<style>标签内容
for style_tag in soup.find_all('style'):
inline_css = style_tag.string
if inline_css:
print("找到内联CSS:")
print(inline_css)
# 可以将内联CSS也保存到一个文件里
with open(os.path.join(output_dir, 'inline_styles.css'), 'a', encoding='utf-8') as f:
f.write(f"/* 来自内联样式 */\n{inline_css}\n\n")
# 4. 保存完整的HTML文件
with open(os.path.join(output_dir, 'original_page.html'), 'w', encoding='utf-8') as f:
f.write(soup.prettify())
print("\n提取完成!")
如何运行:
- 确保你安装了 Python。
- 安装必要的库:
pip install requests beautifulsoup4 - 将上面的代码保存为
.py文件,并运行。
⚠️ 重要注意事项(法律与道德)
在抓取任何网站之前,请务必遵守以下原则:
- 查看
robots.txt:大多数网站根目录下都有一个robots.txt文件(https://example.com/robots.txt),它规定了哪些页面不允许爬虫访问,请遵守这些规则。 - 检查服务条款:查看网站的使用条款,看是否明确禁止了数据抓取。
- 尊重版权:提取的代码和内容受版权法保护。仅用于个人学习、研究或参考目的。不要直接复制用于商业用途或发布到自己的网站上,这构成侵权。
- 不要过度请求:如果你的脚本会频繁访问服务器,请设置合理的请求间隔(
time.sleep(1)),避免对服务器造成过大压力,否则你的IP可能会被封锁。 - 数据敏感性:不要抓取或存储用户的个人隐私数据。
| 方法 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 浏览器开发者工具 | 实时交互,直观,能查看计算后的最终样式 | 无法直接下载外部文件 | 学习、调试、快速查看单个元素 |
| 查看网页源代码 | 获取最原始的HTML | 无法直接看到CSS,需手动追踪链接 | 分析页面基本结构,查找内联样式 |
| 在线工具 | 一键下载所有资源,方便快捷 | 可能有隐私风险,功能受限 | 快速离线备份整个网站 |
| 编程抓取 | 功能强大,可自动化,可批量处理 | 需要编程知识,配置较复杂 | 自动化任务、数据分析、大规模抓取 |
对于大多数用户来说,方法一(浏览器开发者工具) 是最常用和最强大的起点。
