怎么用Python爬取股票数据

用Python高效、合规地爬取股票数据：从入门到实践指南（含代码与避坑指南）

在量化投资、金融分析与个人理财日益普及的今天，获取实时、准确、结构化的股票数据已成为开发者和投资者的基本需求。然而，面对海量金融数据源，如何用Python安全、稳定、合法地获取所需信息？本文将系统讲解股票数据爬取的核心方法、主流工具、关键注意事项及完整实战示例，帮助读者建立扎实、可持续的数据获取能力。

一、明确目标与合规前提：爬什么？能不能爬？

在动手编码前，必须厘清两个根本问题：

数据需求界定：是获取A股日线行情（开盘价、收盘价、成交量）、港股通资金流向、龙虎榜异动、还是上市公司财报摘要？不同需求对应不同数据源与技术路径；
法律与平台规则红线：根据《中华人民共和国证券投资基金法》《网络信息内容生态治理规定》及各交易所/平台《用户协议》，未经许可高频抓取、绕过反爬机制、批量下载受版权保护的实时行情或未公开财务数据均存在法律风险。尤其需警惕：

上交所/深交所官网仅开放历史行情CSV下载（非API接口），禁止自动化抓取；
同花顺、东方财富等商业平台明确禁止爬虫，其Robots.txt文件通常拒绝所有爬虫访问；
证监会指定信息披露网站（如巨潮资讯网）虽允许合理访问，但要求低频、带真实User-Agent、遵守爬取间隔。

✅ 正确姿势：优先选用官方授权或开源合规渠道，将爬虫作为“补充手段”，而非唯一依赖。

二、推荐四大合规数据获取路径（附Python实现）

路径1：使用专业金融API（首选推荐）
yfinance（雅虎财经开源库）——免费、稳定、覆盖全球市场

import yfinance as yf
import pandas as pd

# 获取贵州茅台(600519.SS)近3年日线数据（注意后缀：.SS=上交所，.SZ=深交所）
stock = yf.Ticker(\"600519.SS\")
df = stock.history(period=\"3y\", interval=\"1d\")
print(df[[\'Open\', \'High\', \'Low\', \'Close\', \'Volume\']].tail())

# 获取公司基本信息
print(f\"公司名称：{stock.info.get(\'longName\')}\")
print(f\"市盈率：{stock.info.get(\'trailingPE\')}\")

优势：无需注册、无调用频率限制（内部已做请求节流）、数据经清洗、支持复权处理；
局限：部分A股代码需手动映射（如600519→600519.SS），不提供Level-2行情。

路径2：调用国家/交易所开放数据平台（权威可靠）
中国证监会“资本市场电子化信息披露平台”（http://eid.csrc.gov.cn）提供PDF年报原始文件，可结合requests+PyPDF2解析关键财务指标：

import requests
from PyPDF2 import PdfReader
from io import BytesIO

# 示例：下载某公司2023年年报（需先通过巨潮资讯网获取PDF链接）
url = \"http://static.cninfo.com.cn/finalpage/2024-04-27/1219782345.PDF\"
headers = {\"User-Agent\": \"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36\"}
resp = requests.get(url, headers=headers, timeout=30)
pdf = PdfReader(BytesIO(resp.content))
# 提取第10页文本（假设利润表在此页）
text = pdf.pages[9].extract_text()
# 使用正则匹配\"归属于母公司股东的净利润\"数值
import re
profit_match = re.search(r\"归属于母公司股东的净利润.*?([\\d,\\.]+)万元\", text)
if profit_match:
    print(\"2023年净利润：\", profit_match.group(1))

路径3：封装Web API（需注册认证）
聚宽（JoinQuant）、Tushare Pro提供高质量A股数据（需手机号注册，免费版有调用次数限制）：

import tushare as ts
ts.set_token(\'your_token_here\')  # 在tushare官网申请
pro = ts.pro_api()

# 获取2024年一季度全部A股财务数据
df = pro.fina_indicator(ts_code=\'\', period=\'20240331\', fields=\'ts_code,ann_date,end_date,roe\')
print(df.head())

路径4：谨慎使用网页爬虫（仅限静态、低频、非核心数据）
以新浪财经个股新闻列表为例（需严格遵守robots.txt且添加延迟）：

import requests
from bs4 import BeautifulSoup
import time
import random

def fetch_stock_news(stock_code=\"600519\"):
    url = f\"https://finance.sina.com.cn/realstock/company/{stock_code}/news.shtml\"
    headers = {
        \"User-Agent\": \"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36\"
    }
    try:
        resp = requests.get(url, headers=headers, timeout=10)
        resp.raise_for_status()
        soup = BeautifulSoup(resp.text, \'html.parser\')
        news_list = []
        for item in soup.select(\'.listitem h2 a\')[:5]:  # 只取前5条
            news_list.append({
                \"title\": item.get_text(strip=True),
                \"link\": item.get(\"href\")
            })
        return news_list
    except Exception as e:
        print(f\"获取失败：{e}\")
        return []

# 遵守礼貌原则：每次请求间隔1~3秒
time.sleep(random.uniform(1.5, 2.5))
news = fetch_stock_news()
for n in news:
    print(n[\"title\"])

三、关键避坑指南（血泪经验总结）

⚠️ 反爬陷阱：

头部平台普遍采用动态JS渲染（如东方财富股吧），需改用Selenium或Playwright，但务必设置headless=False并模拟滚动行为；
IP被封？立即停止！切勿暴力重试，应启用代理池（推荐免费方案：Scrapy-rotating-proxies）；
Cookie/Token失效？定期检查登录态，避免硬编码敏感凭证。

⚠️ 数据质量陷阱：

复权处理缺失导致K线断裂（yfinance默认adj_close为复权价，务必用它计算收益率）；
时间戳时区混乱（国内数据多为东八区，pandas读取时需显式指定tz=‘Asia/Shanghai’）；
缺失值处理：用ffill()向前填充停牌日数据，而非简单dropna()。

四、结语：技术向善，数据向实

Python爬虫不是万能钥匙，而是一把需要敬畏与智慧的工具。真正专业的金融数据工作，永远建立在合规框架、多源交叉验证与领域知识之上。建议初学者从yfinance起步，进阶者学习Tushare Pro，研究者深入巨潮资讯原始公告。记住：稳定的数据管道，远比一次性的“爬到即止”更有价值。

（全文共计1280字）
附：延伸学习资源

官方文档：yfinance.readthedocs.io｜tushare.pro/docs
开源项目：akshare（全中文金融数据接口）｜baostock（免费A股API）
法律指引：《证券期货业网络信息安全管理办法》（证监会令第218号）

让代码服务于理性，让数据沉淀为洞见——这才是金融科技的本真之道。

怎么用Python爬取股票数据

相关文章