提取中英文是我們?cè)谧鰯?shù)據(jù)處理時(shí)候經(jīng)常使用的,最高效的做法就是通過(guò)正則判斷了,下面是我寫(xiě)的筆記,希望對(duì)你有用
使用Python 的re模塊,re模塊提供了re.sub用于替換字符串中的匹配項(xiàng)。
re.sub(pattern, repl, string, count=0)
參數(shù)說(shuō)明:
1.1 提取中文
可以這樣想:我們可以通過(guò)將不是中文的字符替換為空不就可以了
例如
import re str = "重出江湖hello的地H方。。的,world" str = re.sub("[A-Za-z0-9\,\。]", "", str) print(str) 輸出:神的孩子在唱歌
1.2 提取英文
import re str = "重123出江湖hello的地H方。。的,world" str = re.sub("[\u4e00-\u9fa5\0-9\,\。]", "", str) print(str) 輸出:helloHworld
1.3 提取數(shù)字
import re str = "重123出江湖hello的地H方。。的,world" str = re.sub("[A-Za-z\u4e00-\u9fa5\,\。]", "", str) print(str) 輸出:123
在字符串中找到正則表達(dá)式所匹配的所有子串,并返回一個(gè)列表,如果沒(méi)有找到匹配的,則返回空列表。
語(yǔ)法格式為:
findall(string[, pos[, endpos]])
參數(shù):
擴(kuò)展:正則中有match 和 search ,它們是是匹配一次,findall
匹配所有,具體了解可以到菜鳥(niǎo)教程查看
2.1 提取中文
2.2 提取英文
通俗寫(xiě)法
import string#提供a-z的小寫(xiě)字母 dd = "神的孩子hello在H唱歌,world" #準(zhǔn)備英文字符 temp="" letters=string.ascii_lowercase#包含a-z的小寫(xiě)字母 for word in dd:#for循環(huán)取出單個(gè)詞 if word.lower() in letters:#判斷是否是英文 temp+=word#添加組成英文單詞 print(temp) 輸出:helloHworld
正則
#A-Za-z import re dd = "重出123江湖hello的地方的,world" result = ''.join(re.findall(r'[A-Za-z]', dd)) print(result) 輸出:helloHworld
2.3 提取數(shù)字
#0-9注意這個(gè)數(shù)字前面不能\,要不然他連,都給算上 import re dd = "神123的孩子hello在唱H歌。。,world" result = ''.join(re.findall(r'[0-9]', dd)) print(result) 輸出:123
compile函數(shù)用于編譯正則表達(dá)式,生成一個(gè)正則表達(dá)式( Pattern )對(duì)象,供其他函數(shù)使用。
語(yǔ)法格式為:
re.compile(pattern[, flags])
參數(shù):
pattern : 一個(gè)字符串形式的正則表達(dá)式
flags : 可選,表示匹配模式,比如忽略大小寫(xiě),多行模式等,具體參數(shù)為:
3.1 同時(shí)匹配中英文數(shù)字去除其他字符
到此這篇關(guān)于如何使用python提取字符串中英文的文章就介紹到這了,更多相關(guān)python提取字符串中英文內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
標(biāo)簽:惠州 黔西 常德 黑龍江 四川 益陽(yáng) 鷹潭 上海
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《如何使用python提取字符串的中英文(正則判斷)》,本文關(guān)鍵詞 如何,使用,python,提取,字符串,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。