解決python將xml格式文件轉換成txt文件的問題(xml.etree方法)

概述

先來介紹一下xml格式的文件,從數據分析的角度去看xml格式的數據集,具有以下的優點開放性(能在任何平臺上讀取和處理數據,允許通過一些網絡協議交換xml數據)、簡單性(純文本,能在不同的系統之間交換數據)、結構和內容分離(不同於HTML,數據的顯示和數據本身是分開的)、可擴展性(派生出其他標記語言)

問題描述

那麼我們在進行數據分析的時候,如何運用xml裡面的數據呢?
我們就需要將這類文件轉化成其他類型的文件。
(其實我認為說成提取xml的數據組成新的類型文件比較好一點)
就我個人的觀點,處理這方面的問題有點類似於網絡爬蟲,但不同於爬蟲的是不需要考慮IP代理地址的問題(反爬確實是一個很難處理的問題)

問題解決方案

xml格式文件顯示內容大致如下:

在這裡插入圖片描述

import os
import sys
import xml.etree.ElementTree as ET
import glob

def xml_to_txt(indir, outdir):
    os.chdir(indir) # indir為xml文件來源的文件夾,outdir為轉換的txt文件存儲路徑
    annotated = os.listdir('.') # 返回包含目錄中文件名稱的列表
    print(annotated)
    
    for i, file in enumerate(annotated):
        file_save = file.split('.')[0] + '.txt' #split將文件名與後綴名劃分開來
        file_txt = outdir + "\\"+file_save
        f_w = open(file_txt, 'w')
        
        in_file = open(file,encoding='UTF-8')
        tree = ET.parse(in_file)
        root = tree.getroot()
        # 以下代碼可忽略,你要在xml數據集上找到自己所需要數據對應的標簽,想辦法將其賦予一個變量,再將其寫入新文件裡就ok瞭
        for value in root.iter('xxx'):
            value = value.text
            f_w.write(value)
            f_w.write('\n\n')

還有我要說幾句這個方法還是挺好用的,在你處理一個包含很多.xml文件夾的時候,能夠直接讀取所有xml文件,這樣處理起來也比較方便。

到此這篇關於python將xml格式文件轉換成txt文件的問題及解決方法(xml.etree方法)的文章就介紹到這瞭,更多相關python xml轉換成txt文件內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: