Python调用本地大模型实现Excel表格数据匹配与填充

2025-05-13 09:33 开发作者：玩人工智能的辣条哥

环境

python3.10

ollama v0.6.1

问题描述

怎么使用python+本地大模型，根据tx.xlsx表格中B列学校对应J列院校性质、K列院校类型 L列院校特色，去xz.xlsx表格A列判断并找到对应A列院校性质、B列院校类型 C列院校特色数据填入tx.xlsx表格中J、K、L单元格，示例：北京大学 J列院校性质是公办 K列院校类型综合类 L列院校特色985.

Python调用本地大模型实现Excel表格数据匹配与填充

解决方案

利用本地部署的 Ollama 和 72B Qwen 大模型 这种方法可以通过自然语言处理（NLP）技术，动态分析学校名称并推断其属性，从而解决手动匹配和动态规则覆盖不全的问题。

以下是实现方法和代码：

实现思路

Ollama 和 Qwen 模型：

确保已经在本地部署了 Ollama，并加载了 72B Qwen 大模型。

使用 Qwen 模型的文本生成能力，根据学校名称推断其属性。

调用模型：

通过 API 或命令行调用 Ollama 的 Qwen 模型，输入学校名称，获取模型生成的属性描述。

解析模型输出，提取院校性质、院校类型和院校特色。

填充表格：

将模型推断的结果填入 tx.xlsx 的 J、K、L 列。

缓存机制：

为了提高效率，可以将已经匹配的学校名称和属性缓存起来，避免重复调用模型。

实现代码

以下是完整的 Python 脚本：

import pandas as pd
import requests
import json

# Ollama API 地址
OLLAMA_API_URL = "http://192.168.208.123:11434/api/generate"

# 缓存已匹配的学校名称和属性
school_cache = {}

# 调用 Ollama API 推断学校属性
def infer_school_properties(school_name):
    if school_name in school_cache:
        return school_cache[school_name]
    
    # 构造提示词
    prompt = f"根据学校名称推断其属性。学校名称：{school_name}。请返回以下属性：院校性质（公办/民办/不限）、院校类型（综合/理工/师范/财经/医药/不限）、院校特色（985/211/双一流/不限）。"
    
    # 调用 Ollama API
    try:
        print(f"正在调用 Ollama API，学校名称：{school_name}")
        response = requests.post(
            OLLAMA_API_URL,
            json={
                "model": "qwen2.5:72b",
                "prompt": prompt,
                "stream": False
            },
            timeout=10
        )
        response.raise_for_status()
        output = response.jshDPPXopCmon()["response"].strip()
        print(f"API 返回结果：{output}")
    except Exception as e:
        print(f"调用 Ollama API 失败：{e}")
        return {"院校性质": "不限", "院校类型": "不限", "院校特色": "不限"}
    
    # 解析模型输出
    properties = {"院校性质": "不限", "院校类型": "不限", "院校特色": "不限"}
    if "公办" in output:
        properties["院校性质"] = "公办"
    elif "民办" in output:
        properties["院校性质"] = "民办"
    
    if "综合" in output:
        properties["院校类型"] = "综合"
    elif "理工" in output:
        properties["院校类型"] = "理工"
    elif "师范" in output:
        properties["院校类型"] = "师范"
    elif "财经" in output:
        properties["院校类型"] = "财经"
    elif "医药" in output:
        properties["院校类型"] = "医药"
    
    if "985" in output:
        properties["院校特色"] = "985"
    elif "211" in output:
        properties["院校特色"] = "211"
    elif "双一流" in output:
        properties["院校特色"] = "双一流"
    
    # 缓存结果
    school_cache[school_name] = properties
    return properties

# 读取 tx.xlsx 文件
try:
    print("正在读取 tx.xlsx 文件")
    tx_df = pd.read_excel('tx.xlsx')
    print("成功读取 tx.xlsx 文件")
    print("列名：", tx_df.columns)  # 打印列名
    print(tx_df.head())  # 打印前几行数据
except Exception as e:
    print(f"读取 tx.xlsx 文件失败：{e}")
    exit()

# 遍历每一行，根据学校名称填充属性
for index, row in tx_df.iterrows():
    school_name = row['学校']  # 使用实际的列名
    print(f"正在处理学校：{school_name}")
    properties = infer_school_properties(school_name)
    tx_df.at[index, '院校性质'] = properties["院校性质"]
    tx_df.at[index, '院校类型'] = properties["院校类型"]
    tx_df.at[index, '院校特色'] = properties["院校特色"]

# 保存修改后的 tx.xlsx 文件
try:
    print("正在保存文件")
    tx_df.to_excel('tx_updated.xlsx', index=False)
    print("数据处理完成，结果已保存到 tx_updated.xlsx")
except Exception as e:
    print(f"保存文件失败：{e}")

示例

输入 tx.xlsx

A	B	C	…
1	北京大学	…	…
2	清华大学	…	…
3	未知学校	…	…

输出 tx_updated.xlsx

A	B	C	…	J	K	L
1	北京大学	…	…	公办	综合	985
2	清华大学	…	…	公办	理工	985
3	未知学校	…	…	不限	不限	不限

优化后脚本：

import pandas as pd
import requests
import json
import os
import re

# 先安装 debugpy：pip install debugpy
import debugpy

# 监听 5678 端口，等待IDE连接
#print("等待调试器 attach ...")
#debugpy.listen(("0.0.0.0", 5678))
#debugpy.wait_for_client()
#print("调试器已连接，可以执行远程命令")

# Ollama API 地址
OLLAMA_API_URL = "http://192.168.编程2.103:11434/api/generate"

# 缓存已匹配的学校名称和属性
school_cache = {}

# 断点保存文件
CHECKPOINT_FILE = "checkpoint.json"

# 调用 Ollama API 推断学校属性
def infer_school_properties(school_name):
    if school_name in school_cache:
        return school_cache[school_name]
    
    # 构造提示词
    prompt = (
        f"根据学校名称推断其属性。学校名称：{school_name}。"
        "请仅返回以下属性（用中文逗号分隔）："
        "院校性质（不限、公办、民办、中外、港澳合作院校、新增院校、非新增院校），"
        "院校类型（不限、综合、理工、农林、医药、师范、语言、财经、政法、体育、艺术、民族、军事、其他），"
        "院校特色（不限、985、211、双一流、强基院校、101计划、研究生院、保研资格、国重点、省重点、部委院校、省属、省部共建、CE国防七子、五院四系、两电一邮、八大美院、双高计划、高水平学校建设单位、高水平专业群建设单位、国家级示范、国家级骨干、现代学徒制试点学院、香港高财通）。"
        "例如返回格式：公办, 理工, 985"
    )
    
    # 调用 Ollama API
    try:
        print(f"正在调用 Ollama API，学校名称：{school_name}")
        response = requests.post(
            OLLAMA_API_URL,
            json={
                "model": "qwen2.5:72b",
                "prompt": prompt,
                "stream": False
            },
            timeout=10
        )
        response.raise_for_status()
        output = response.json()["response"].strip()
        print(f"API 返回结果：{output}")
    except Exception as e:
        print(f"调用 Ollama API 失败：{e}")
        return {"院校性质": "不限", "院校类型": "不限", "院校特色": "不限"}
    
    # 初始化默认值
    properties = {"院校性质": "不限", "院校类型": "不限", "院校特色": "不限"}
    
    # 定义所有可能的选项
    院校性质列表 = ["不限", "公办", "民办", "中外", "港澳合作院校", "新增院校", "非新增院校"]
    院校类型列表 = ["不限", "综合", "理工", "农林", "医药", "师范", "语言", "财经", "政法", "体育",
                 "艺术", "民族", "军事", "其他"]
    院校特色列表 = ["不限", "985", "211", "双一流", "强基院校", "101计划", "研究生院", "保研资格",
                 "国重点", "省重点", "部委院校", "省属", "省部共建", "CE国hDPPXopCm防七子", "五院四系", "两电一邮",
                 "八大美院", "双高计划", "高水平学校建设单位", "高水平专业群建设单位", "国家级示范",
                 "国家级骨干", "现代学徒制试点学院", "香港高财通"]
    
    # 拆分输出（按逗号或顿号或空格分割）
    parts = re.split(r'[，,、\s]+', output)
    parts = [p.strip() for p in parts if p.strip()]
    
    # 尝试匹配每个属性
    for p in parts:
        if p in 院校性质列表 and properties["院校性质"] == "不限":
            properties["院校性质"] = p
        elif p in 院校类型列表 and properties["院校类型"] == "不限":
            properties["院校类型"] = p
        elif p in 院校特色列表 and properties["院校特色"] == "不限":
            properties["院校特色"] = p
    
    # 缓存结果
    school_cache[school_name] = properties
    return properties

# 保存断点
def save_checkpoint(index, df):
    checkpoint = {
        "last_index": index,
        "data": df.to_dict(orient="records")
    }
    with open(CHECKPOINT_FILE, "w", encoding="utf-8") as f:
        json.dump(checkpoint, f, ensure_ascii=False, indent=2)
    print(f"已保存断点，最后处理的行索引：{index}")

# 加载断点
def load_checkpoint():
    if os.path.exists(CHECKPOINT_FILE):
        with open(CHECKPOINT_FILE, "r", encoding="utf-8") as f:
            checkpoint = json.load(f)
        return checkpoint["last_index"], pd.DataFrame(checkpoint["data"])
    return 0, None

# 读取 tx.xlsx 文件
try:
    print("正在读取 tx.xlsx 文件")
    tx_df = pd.read_excel('tx.xlsx')
    print("成功读取 tx.xlsx 文件")
    print("列名：", tx_df.columns)  # 打印列名
    print(tx_df.head())  # 打印前几行数据
except Exception as e:
    print(f"读取 tx.xlsx 文件失败：{e}")
    exit()

# 加载断点
start_index, checkpoint_df = load_checkpoint()
if checkpoint_df is not None:
    tx_df = checkpoint_df
    print(f"从断点继续执行，最后处理的行索引：{start_index}")

# 遍历每一行，根据学校名称填充属性
for index, row in tx_df.iterrows():
    if index < start_index:
        continue  # 跳过已处理的行
    
    school_name = row['学校']  # 使用实际的列名
    print(f"正在处理学校：{school_name}")
    properties = infer_school_properties(school_name)
    tx_df.at[inphpdex, '院校性质'] = properties["院校性质"]
    tx_df.at[index, '院校类型'] = properties["院校类型"]
    tx_df.at[index, '院校特色'] = properties["院校特色"]

    # 每处理 50 条保存一次
    if (index + 1) % 50 == 0:
        save_checkpoint(index, tx_df)

# 保存最终结果
try:
    print("正在保存文件")
    tx_df.to_excel('tx_updated.xlsx', index=jsFalse)
    print("数据处理完成，结果已保存到 tx_updated.xlsx")
    # 删除断点文件
    if os.path.exists(CHECKPOINT_FILE):
        os.remove(CHECKPOINT_FILE)
        print("断点文件已删除")
except Exception as e:
    print(f"保存文件失败：{e}")

运行脚本

确保已安装 pandas 库，并正确部署了 Ollama 和 Qwen 模型。

将脚本保存为 update_excel_with_ollama.py，并确保 tx.xlsx 文件与脚本在同一目录下。

运行脚本：

python update_excel_with_ollama.py

处理结果将保存到 tx_updated.xlsx 文件中。

Python调用本地大模型实现Excel表格数据匹配与填充

用时1小时多完成3138条数据匹对

Python调用本地大模型实现Excel表格数据匹配与填充

注意事项

模型调用速度：

调用本地模型可能需要一定时间，建议对大量数据时优化调用逻辑或使用缓存机制。

模型输出解析：

需要根据模型的实际输出调整解析逻辑，确保提取的属性准确。

错误处理：

如果模型调用失败或输出不符合预期，可以捕获异常并填入默认值。

到此这篇关于Python调用本地大模型实现Excel表格数据匹配与填充的文章就介绍到这了,更多相关Python Excel数据匹配与填充内容请搜索编程客栈(www.devze.com)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程客栈(www.devze.com)！

继续阅读：python excel数据匹配 python excel数据填充 python调用本地大模型

Python调用本地大模型实现Excel表格数据匹配与填充

目录

环境

问题描述

解决方案

实现思路

实现代码

示例

注意事项

更多精彩内容

精彩评论

最新开发

基于WinForm实现通用自动更新系统的完整流程

C#程序实现将MySQL的存储过程转换成Oracle的存储过程

SpringBoot打包为外部配置包的技巧分享

SpringBoot外部化配置的最佳实践指南

使用Python将CSV文件转换为PDF的实践指南

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）