用Python爬取GitHub Trending，一张词云看透技术风向标

与其被动接收碎片信息，不如用数据主动洞察趋势

近日在浏览技术社区时，我发现了一个有趣的现象：许多开发者都在讨论“现在应该学什么技术”“市场需要什么技能”，但大多基于个人感受或零散信息。作为程序员，其实我们有一个绝佳的实时数据源——GitHub Trending。

这张词云清晰展示了近期GitHub Trending项目中技术栈的热度分布。本文将带你一步步实现从数据爬取到可视化分析的全过程，不再凭感觉而是凭数据判断技术趋势。

一、GitHub Trending：程序员的“技术新闻联播”

GitHub Trending页面每日更新，汇总了GitHub上增长最快的开源项目。这不仅仅是项目列表，更是技术世界的“风向标”。

手动浏览 Trending 页面时，我发现几个痛点：

信息过载：每日几十个项目，每个项目涉及多种技术，难以整体把握
主观偏差：容易只关注自己熟悉的领域，错过其他方向的新兴技术
难以量化：无法准确判断某项技术的“热度程度”

这正是数据分析可以解决的问题。通过自动爬取 Trending 数据，我们可以：

识别新兴技术框架和工具
发现社区活跃的技术领域
追踪技术趋势的演变过程

二、环境搭建：简单三步准备工具

开始前，只需准备好以下环境：

# 所需库安装
# pip install requests beautifulsoup4 pandas wordcloud matplotlib jieba

三个核心工具：

requests + BeautifulSoup：网页爬取与解析
jieba：中文文本分词
wordcloud：词云生成

三、数据爬取：获取Trending项目信息

GitHub Trending页面根据语言和时间范围分类。我们先从“今日热门”开始：

import requests
from bs4 import BeautifulSoup
import pandas as pd

def fetch_github_trending(language="", since="daily"):
    """
    爬取GitHub Trending数据
    :param language: 编程语言过滤，如"python"、"javascript"
    :param since: 时间范围，"daily"、"weekly"、"monthly"
    :return: 包含项目信息的列表
    """
    url = f"https://github.com/trending/{language}?since={since}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    }
    
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")
    
    projects = []
    articles = soup.find_all("article", class_="Box-row")
    
    for article in articles:
        # 提取项目基本信息
        title_elem = article.find("h2", class_="h3")
        if not title_elem:
            continue
            
        title_link = title_elem.find("a")
        repo_name = title_link.get("href").strip("/")
        
        # 提取项目描述
        desc_elem = article.find("p", class_="col-9")
        description = desc_elem.text.strip() if desc_elem else ""
        
        # 提取编程语言
        lang_elem = article.find("span", itemprop="programmingLanguage")
        language = lang_elem.text.strip() if lang_elem else "Not Specified"
        
        # 提取星标数
        stars_elem = article.find("a", href=f"/{repo_name}/stargazers")
        stars = stars_elem.text.strip().replace(",", "") if stars_elem else "0"
        
        projects.append({
            "repository": repo_name,
            "description": description,
            "language": language,
            "stars": int(stars) if stars.isdigit() else 0
        })
    
    return pd.DataFrame(projects)

# 获取今日热门Python项目
python_projects = fetch_github_trending("python", "daily")
print(f"获取到 {len(python_projects)} 个Python热门项目")

四、数据清洗：提取技术关键词

项目描述中包含大量技术术语，我们需要从中提取关键信息：

import re
import jieba
from collections import Counter

def extract_tech_keywords(descriptions):
    """
    从项目描述中提取技术关键词
    """
    # 自定义技术词典，提高分词准确性
    tech_words = [
        "PyTorch", "TensorFlow", "React", "Vue", "Next.js", "FastAPI", "Django",
        "TypeScript", "Rust", "Go", "Kubernetes", "Docker", "PostgreSQL", "MongoDB",
        "机器学习", "深度学习", "人工智能", "AI", "LLM", "大模型", "API", "框架",
        "库", "工具包", "可视化", "爬虫", "自动化", "微服务", "服务器"
    ]
    
    for word in tech_words:
        jieba.add_word(word)
    
    all_text = " ".join(descriptions)
    
    # 清理文本
    all_text = re.sub(r'[^\w\s]', ' ', all_text)  # 移除非字母数字字符
    all_text = re.sub(r'\d+', '', all_text)  # 移除数字
    
    # 中文分词
    words = jieba.lcut(all_text)
    
    # 过滤和计数
    filtered_words = []
    for word in words:
        word = word.strip()
        if len(word) > 1 and not word.isspace():
            # 只保留技术相关词汇
            if any(tech in word for tech in tech_words) or word in tech_words:
                filtered_words.append(word)
    
    return Counter(filtered_words)

# 从项目描述中提取关键词
descriptions = python_projects["description"].tolist()
keyword_counter = extract_tech_keywords(descriptions)

print("出现频率最高的10个技术关键词：")
for word, count in keyword_counter.most_common(10):
    print(f"{word}: {count}次")

五、可视化：生成技术栈词云

词云让数据“自己说话”，直观展示技术热度：

from wordcloud import WordCloud
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np

def generate_tech_wordcloud(keyword_counter, output_path="tech_trend.png"):
    """
    生成技术关键词词云
    """
    # 创建词频字典
    word_freq = dict(keyword_counter)
    
    # 自定义形状（可选）
    mask = None  # 可使用自定义形状，如Python logo
    
    # 创建词云对象
    wc = WordCloud(
        font_path="simhei.ttf",  # 中文字体路径
        width=1200,
        height=800,
        background_color="white",
        max_words=100,
        max_font_size=150,
        min_font_size=10,
        random_state=42,
        mask=mask,
        colormap="viridis"  # 配色方案
    )
    
    # 生成词云
    wordcloud = wc.generate_from_frequencies(word_freq)
    
    # 显示和保存
    plt.figure(figsize=(15, 10))
    plt.imshow(wordcloud, interpolation="bilinear")
    plt.axis("off")
    plt.title("GitHub Trending 技术栈热度分布", fontsize=20, pad=20)
    plt.tight_layout()
    plt.savefig(output_path, dpi=300, bbox_inches="tight")
    plt.show()
    
    return wordcloud

# 生成词云
wordcloud = generate_tech_wordcloud(keyword_counter)

词云生成后，你将得到一张直观的技术热度图。较大的词汇表示在 Trending 项目中出现的频率更高，这直接反映了当前开发者社区的关注焦点。

六、深度分析：从词云中读取技术趋势

生成的词云不仅是可视化结果，更是数据分析的起点。以下是我从最近一次爬取分析中观察到的趋势：

1. AI/机器学习占据主导

PyTorch、TensorFlow 等框架频繁出现
“大模型”、“LLM”、“AI应用”成为高频词
这表明AI开源项目正处在爆发期

2. 全栈开发工具多样化

前端框架中 React 和 Vue 并驾齐驱
Next.js 作为全栈框架热度上升
后端框架 FastAPI 因简洁性受到关注

3. 基础设施即代码趋势明显

Docker、Kubernetes 持续热门
云原生、微服务相关项目增多

4. 新兴语言生态活跃

Rust、Go 在系统工具和网络服务领域频繁出现
TypeScript 在前端和全栈项目中几乎成为标配

七、进阶：构建技术趋势追踪系统

单次分析只能反映静态状况，真正有价值的是趋势变化。我们可以扩展这个项目：

import schedule
import time
from datetime import datetime

class TechTrendTracker:
    def __init__(self):
        self.history_data = []
    
    def daily_collection(self):
        """每日自动收集Trending数据"""
        date_str = datetime.now().strftime("%Y-%m-%d")
        
        for lang in ["", "python", "javascript", "go", "rust"]:
            projects = fetch_github_trending(language=lang, since="daily")
            
            # 分析关键词
            descriptions = projects["description"].tolist()
            keywords = extract_tech_keywords(descriptions)
            
            self.history_data.append({
                "date": date_str,
                "language": lang if lang else "all",
                "top_keywords": dict(keywords.most_common(20))
            })
            
            print(f"{date_str} {lang} 数据收集完成")
    
    def analyze_trend(self, keyword):
        """追踪特定关键词的热度变化"""
        trend_data = []
        for record in self.history_data:
            count = record["top_keywords"].get(keyword, 0)
            trend_data.append({
                "date": record["date"],
                "count": count
            })
        
        # 绘制趋势图...
        return trend_data

# 创建追踪器实例
tracker = TechTrendTracker()

# 设置每日自动执行（示例）
# schedule.every().day.at("09:00").do(tracker.daily_collection)

八、避开爬虫的“坑”：实战建议

在实现过程中，需要注意几个关键点：

遵守robots.txt：GitHub允许合理的爬取，但不要过于频繁请求
设置合理延迟：在请求间添加 time.sleep(2) 避免被封IP
处理异常情况：网络错误、页面结构变化等需要有容错机制
数据缓存：避免重复请求相同内容，可本地缓存数据

# 添加延迟和错误处理的示例
def safe_fetch(url, max_retries=3):
    for attempt in range(max_retries):
        try:
            time.sleep(2)  # 2秒延迟
            response = requests.get(url, timeout=10)
            response.raise_for_status()
            return response
        except requests.exceptions.RequestException as e:
            print(f"请求失败 (尝试 {attempt+1}/{max_retries}): {e}")
            if attempt == max_retries - 1:
                raise
            time.sleep(5)  # 失败后等待更长时间

九、数据驱动你的技术学习路线

通过这个项目，我们不仅掌握了爬虫和可视化技术，更重要的是获得了一种数据驱动的技术决策能力。下次当你纠结该学什么技术时，不妨运行一下这个脚本，让数据告诉你答案。

以下是基于多次分析后给开发者的建议：

关注持续出现的词汇：长期热门的技术比短期爆火的更值得投入
结合自身需求：词云显示的是整体趋势，选择与你职业规划匹配的技术
尝试交叉验证：将GitHub数据与其他来源（如招聘网站、技术社区）结合分析

十、结语：从消费者到分析者

很多开发者每天刷GitHub Trending却只停留在“看看有什么新项目”，而工具的意义在于将被动消费转为主动分析。一张词云的背后，是技术趋势的量化表达，是社区智慧的集体呈现。

掌握这种数据分析能力，你不仅能看清现在的技术热点，更能预测未来的趋势走向。在快速变化的技术世界中，这或许是你最值得投资的一项技能。

技术世界从不缺少数据，缺少的是从数据中提取洞察的眼睛。下次当你打开GitHub Trending时，看到的将不再是一个个项目列表，而是一幅动态演变的技术生态图景。

用Python爬取GitHub Trending，一张词云看透技术风向标

用Python爬取GitHub Trending，一张词云看透技术风向标

一、GitHub Trending：程序员的“技术新闻联播”

二、环境搭建：简单三步准备工具

三、数据爬取：获取Trending项目信息

四、数据清洗：提取技术关键词

五、可视化：生成技术栈词云

六、深度分析：从词云中读取技术趋势

1. AI/机器学习占据主导

2. 全栈开发工具多样化

3. 基础设施即代码趋势明显

4. 新兴语言生态活跃

七、进阶：构建技术趋势追踪系统

八、避开爬虫的“坑”：实战建议

九、数据驱动你的技术学习路线

十、结语：从消费者到分析者

分享文章