Python实现将xml转换成xlsx的方法详解

原创 2025-06-21 10:52:11编程技术

744

在数据处理和转换场景中，将XML格式数据转换为Excel（XLSX）格式是常见需求。本文ZHANID工具网将详细介绍使用Python实现这一转换的多种方法，涵盖基础实现、高级功能及性能优化技巧。

一、基础方法：使用xml.etree.ElementTree和openpyxl

（一）核心原理

使用xml.etree.ElementTree解析XML文件
提取节点数据并组织成二维表格结构
使用openpyxl库创建Excel工作簿并写入数据

（二）完整代码实现

import xml.etree.ElementTree as ET
from openpyxl import Workbook

def xml_to_xlsx_basic(xml_file, xlsx_file):
    # 解析XML文件
    tree = ET.parse(xml_file)
    root = tree.getroot()
    
    # 创建Excel工作簿
    wb = Workbook()
    ws = wb.active
    ws.title = "Data"
    
    # 假设XML结构为：<root><record><field1>...</field1>...</record>...</root>
    # 1. 提取表头（假设第一个record包含所有字段）
    headers = []
    first_record = root.find('record')  # 假设每个record是子节点
    if first_record is not None:
        headers = [child.tag for child in first_record]
        ws.append(headers)  # 写入表头
        
        # 2. 写入数据行
        for record in root.findall('record'):
            row_data = []
            for header in headers:
                # 查找对应字段的值
                field = record.find(header)
                row_data.append(field.text if field is not None else '')
            ws.append(row_data)
    
    # 保存Excel文件
    wb.save(xlsx_file)
    print(f"转换完成，结果已保存到 {xlsx_file}")

# 使用示例
xml_to_xlsx_basic('input.xml', 'output_basic.xlsx')

（三）关键点说明

XML解析：使用ElementTree的find()和findall()方法定位节点
动态表头：自动从第一个record节点提取所有字段作为表头
空值处理：对缺失字段使用空字符串填充

二、进阶方法：处理复杂XML结构

（一）嵌套XML处理

def xml_to_xlsx_nested(xml_file, xlsx_file):
    tree = ET.parse(xml_file)
    root = tree.getroot()
    
    wb = Workbook()
    ws = wb.active
    
    # 处理嵌套结构示例：<person><name>...</name><address><city>...</city></address></person>
    headers = ["Name", "City"]  # 预定义表头
    ws.append(headers)
    
    for person in root.findall('person'):
        name = person.find('name').text if person.find('name') is not None else ''
        city = person.find('address/city').text if person.find('address') is not None and person.find('address').find('city') is not None else ''
        ws.append([name, city])
    
    wb.save(xlsx_file)
    print(f"嵌套结构转换完成，结果已保存到 {xlsx_file}")

# 使用示例
xml_to_xlsx_nested('nested_input.xml', 'output_nested.xlsx')

（二）属性值提取

def xml_to_xlsx_with_attributes(xml_file, xlsx_file):
    tree = ET.parse(xml_file)
    root = tree.getroot()
    
    wb = Workbook()
    ws = wb.active
    
    # 处理带属性的XML：<product id="1001"><name>Laptop</name><price currency="USD">999.99</price></product>
    headers = ["Product ID", "Name", "Price", "Currency"]
    ws.append(headers)
    
    for product in root.findall('product'):
        product_id = product.get('id')  # 提取属性
        name = product.find('name').text if product.find('name') is not None else ''
        price = product.find('price').text if product.find('price') is not None else ''
        currency = product.find('price').get('currency') if product.find('price') is not None else ''
        ws.append([product_id, name, price, currency])
    
    wb.save(xlsx_file)
    print(f"带属性XML转换完成，结果已保存到 {xlsx_file}")

# 使用示例
xml_to_xlsx_with_attributes('attributes_input.xml', 'output_attributes.xlsx')

三、高级方法：使用lxml和pandas优化

（一）lxml库的优势

支持XPath查询，更灵活的节点定位
更好的性能表现
支持XML Schema验证

（二）pandas集成方案

from lxml import etree
import pandas as pd

def xml_to_xlsx_advanced(xml_file, xlsx_file):
    # 使用lxml解析XML
    parser = etree.XMLParser(remove_blank_text=True)
    tree = etree.parse(xml_file, parser)
    root = tree.getroot()
    
    # 使用XPath提取数据
    # 假设XML结构：<orders><order><id>1</id><customer>John</customer><amount>100.50</amount></order>...</orders>
    data = []
    for order in root.xpath('//order'):
        row = {
            'Order ID': order.xpath('id/text()')[0] if order.xpath('id/text()') else '',
            'Customer': order.xpath('customer/text()')[0] if order.xpath('customer/text()') else '',
            'Amount': float(order.xpath('amount/text()')[0]) if order.xpath('amount/text()') else 0.0
        }
        data.append(row)
    
    # 转换为DataFrame并导出
    df = pd.DataFrame(data)
    df.to_excel(xlsx_file, index=False)
    print(f"高级转换完成，结果已保存到 {xlsx_file}")

# 使用示例
xml_to_xlsx_advanced('advanced_input.xml', 'output_advanced.xlsx')

（三）性能对比

方法	解析速度	内存占用	灵活性	适用场景
ElementTree	中等	低	中等	简单XML结构
lxml + XPath	快	中等	高	复杂XML查询
pandas集成	快	高	高	需要数据分析的场景

四、实际应用案例

（一）财务数据转换

def convert_financial_xml(xml_file, xlsx_file):
    tree = ET.parse(xml_file)
    root = tree.getroot()
    
    wb = Workbook()
    ws = wb.active
    
    # 处理财务XML示例：<transactions><transaction><date>2023-01-01</date><type>debit</type><amount>100.00</amount></transaction>...</transactions>
    headers = ["Date", "Transaction Type", "Amount", "Category"]
    ws.append(headers)
    
    for trans in root.findall('transaction'):
        date = trans.find('date').text if trans.find('date') is not None else ''
        trans_type = trans.find('type').text if trans.find('type') is not None else ''
        amount = float(trans.find('amount').text) if trans.find('amount') is not None else 0.0
        category = trans.get('category') if trans.get('category') is not None else 'Uncategorized'
        ws.append([date, trans_type, amount, category])
    
    # 添加格式化
    for col in ['C']:  # 金额列
        for cell in ws[col]:
            cell.number_format = '#,##0.00'
    
    wb.save(xlsx_file)
    print(f"财务数据转换完成，结果已保存到 {xlsx_file}")

# 使用示例
convert_financial_xml('financial.xml', 'financial_report.xlsx')

（二）多工作表导出

def xml_to_multi_sheet_xlsx(xml_file, xlsx_file):
    tree = ET.parse(xml_file)
    root = tree.getroot()
    
    wb = Workbook()
    # 删除默认创建的工作表
    if 'Sheet' in wb.sheetnames:
        del wb['Sheet']
    
    # 按部门创建工作表
    departments = {}
    for employee in root.findall('employee'):
        dept = employee.get('department')
        if dept not in departments:
            ws = wb.create_sheet(title=dept[:31])  # 工作表名最多31字符
            departments[dept] = {'ws': ws, 'headers': ['Name', 'Position', 'Salary']}
            ws.append(departments[dept]['headers'])
        
        row = [
            employee.find('name').text if employee.find('name') is not None else '',
            employee.find('position').text if employee.find('position') is not None else '',
            float(employee.find('salary').text) if employee.find('salary') is not None else 0.0
        ]
        departments[dept]['ws'].append(row)
    
    wb.save(xlsx_file)
    print(f"多工作表转换完成，结果已保存到 {xlsx_file}")

# 使用示例
xml_to_multi_sheet_xlsx('employees.xml', 'employees_report.xlsx')

五、性能优化技巧

（一）大文件处理优化

import xml.etree.ElementTree as ET
from openpyxl import Workbook
from openpyxl.utils import get_column_letter

def process_large_xml(xml_file, xlsx_file, chunk_size=1000):
    context = ET.iterparse(xml_file, events=('start', 'end'))
    context = iter(context)
    _, root = next(context)  # 获取根元素
    
    wb = Workbook()
    ws = wb.active
    ws.title = "Data"
    
    headers = None
    row_count = 0
    
    for event, elem in context:
        if event == 'end' and elem.tag == 'record':  # 假设record是数据节点
            if headers is None:
                headers = [child.tag for child in elem]
                ws.append(headers)
            
            row_data = []
            for header in headers:
                field = elem.find(header)
                row_data.append(field.text if field is not None else '')
            ws.append(row_data)
            row_count += 1
            
            # 定期保存以减少内存占用
            if row_count % chunk_size == 0:
                wb.save(f"temp_{row_count//chunk_size}.xlsx")
                wb = Workbook()
                ws = wb.active
                ws.title = "Data"
                ws.append(headers)  # 重新写入表头
            
            elem.clear()  # 清理已处理元素
    
    # 保存最终结果
    if row_count > 0:
        # 合并临时文件或直接保存最终文件
        # 这里简化处理，实际应用中可能需要合并逻辑
        wb.save(xlsx_file)
    
    root.clear()  # 清理根元素
    print(f"大文件处理完成，共处理 {row_count} 条记录")

# 使用示例
process_large_xml('large_input.xml', 'large_output.xlsx', chunk_size=5000)

（二）内存管理技巧

使用iterparse()代替parse()处理大文件
及时调用elem.clear()释放内存
分块保存数据

六、错误处理与日志记录

（一）完整错误处理

import logging
from xml.etree.ElementTree import ParseError

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

def safe_xml_to_xlsx(xml_file, xlsx_file):
    try:
        tree = ET.parse(xml_file)
        root = tree.getroot()
        
        wb = Workbook()
        ws = wb.active
        
        # 示例：简单转换逻辑
        headers = []
        if len(root) > 0:
            headers = [child.tag for child in root[0]]
            ws.append(headers)
            
            for record in root:
                row = []
                for header in headers:
                    field = record.find(header)
                    row.append(field.text if field is not None else '')
                ws.append(row)
        
        wb.save(xlsx_file)
        logging.info(f"成功转换文件: {xml_file} -> {xlsx_file}")
        
    except ParseError as e:
        logging.error(f"XML解析错误: {str(e)}")
    except Exception as e:
        logging.error(f"转换过程中发生错误: {str(e)}")

# 使用示例
safe_xml_to_xlsx('problematic.xml', 'output_safe.xlsx')