文本自动分割算法-白红宇

文本自动分割算法

阅读量：6951 次

发布时间：2019-06-27

本文共 7626 字，大约阅读时间需要 25 分钟。

1.需求

在数据清洗(ETL),日志文件分析，分隔符信息提取时，我们都会遇到如下常见的文本数据：

中楼层/14层,东西,西直门南大街 3号院,1985年建,板楼

中楼层/23层,南北,通惠南路6号,2003年建,板楼

中楼层/12层,南北,通惠南路6号 1号院,2003年建,塔楼-

一个常见的处理思路，是按照分隔符，对文本进行切割。对于上面的文本，可以采用/,两种符号来切割。变成如下的表格样式,之后进行数据处理便非常容易了。

所以我开玩笑的说，一门语言中split函数可能是用的最多的。在文本处理中会遇到大量的这种需求，但数据格式多变，总会有大量精力耗费在这类重复的工作上。于是很自然的会期待是否有一种自动算法，能帮助我们自动分割字符串？

假设已经为我们提供了一批文本，构成一个字符串数组。我们的任务分为两步：

编译(发现内部的分隔符和模式)

def Compile(self,datas):

发现其中的：

分隔符

相同的文本串(如上面的'楼层')

不同的文本串(如'14','12')

分割(根据发现的模式分割)

def Split(self,text,splitgroup,isSameOut=True):

这个函数可以设定是否输出相同项。

2.一种简单的思路

从直觉上来说，逗号，空格，分号，冒号这类符号是最有可能出现的分隔符。一种朴素的想法是：

列出可能是分隔符的所有符号，绝大多数非字母的ascii码，都可以列入

统计所有符号在每一行中出现的次数，构成一个数组字典,例如上面的例子

python ',' : [3,3,3] '/' : [1,1,1] ' ' : [1,0,1]

求取每个数组的方差，如果满足小于特定的阈值，则可认为是一个分隔符

我们不能严格的认定，只有数组的元素全部一样才是分隔符：因为总会出现特殊情况，应当允许特殊情况的发生。方差的阈值，应通过参数传入。我一般将其定为0.1

将所有满足方差小于阈值的分隔符提取出来。对上面的例子，分隔符应该是 ,和/

对样例数据进行预分割，分割之后，我们会发现:

标注相同的，是指该列所有的数据都是同一内容，否则为不一样内容。

最后，可以看出，该数据集可以按照斜杠和逗号进行分割。分割的第一项是相同项，可以选择不输出。

这种方法思路很简单，但是非常适合由计算机生成的网络数据，这些数据通常都有明确的格式，分隔符固定，因此速度较快，而且性能卓越。

全部代码如下：

import re;from asq.initiators import querydef GetVariance(data):    sum1 = 0.0    sum2 = 0.0    l = len(data);    for i in range(l):        sum1 += data[i]        sum2 += data[i] ** 2    mean = sum1 / l    var = sum2 / l - mean ** 2    return var;def GetMaxSameCount(datas):    dic = {};    for t in datas:        if t in dic:            dic[t] += 1;        else:            dic[t] = 1;    if len(dic) == 0:        return 0;    maxkey, maxvalue = None, -1;    for key in dic:        if dic[key] > maxvalue:            maxvalue = dic[key];            maxkey = key;    return (maxkey, maxvalue);class SplitType:    (ENTITY, SPLIT, SAMECONTENT, DIFFCONTENT) = range(4)class SplitItem(object):    def __init__(self):        self.SplitType = None;        self.Name = None;        self.Value = None        self.Index = 0;        self.IsRepeat = False;class SplitGroup(object):    def __init__(self):        self.SplitChars = {};  # dict,key:char, value:charmaxcount        self.SplitItems = [];class Spliter(object):    def __init__(self):        self.MatchRatio = 0.8        self.ModeCheckRatio = 0.3;        self.MaxVariance = 3;        self.spliter2 = u' \r\n\t./_"\',;():|[]{}。：；'        self.spliter3 = re.compile(r'[a-zA-Z0-9\u4e00-\u9fa5\u3040-\u309f\u30a0-\u30ff]')        self.spliterdict = [self.spliter2, self.spliter3];    def GetCharCount(self, string, char):        count = 0;        for c in string:            if c == char:                count += 1;        return count;    def Compile(self, datas):        splititems = [];        splitchars = [];        maps = {};        datalen = len(datas);        for data in datas:            if data == None or data == '':                continue;            for splitchar in self.spliter2:                charcount = self.GetCharCount(data, splitchar)                if charcount == 0:                    continue;                count = maps.get(splitchar, None);                if count == None:                    maps[splitchar] = [charcount];                else:                    maps[splitchar].append(charcount);        # select real splitchars        for text in maps:            map = maps[text];            if len(map) < datalen / 2:                continue            charcount = GetVariance(map);            maxkey, maxvalue = GetMaxSameCount(map);            if charcount < self.MaxVariance:                splitchars.append(text)        splitGroup = SplitGroup();        results = [];        modedict = [];        for data in datas:            splitResult = self.Split(data, splitchars);            results.append(splitResult);        qresults = query(results);        maxlen = qresults.max(lambda x: len(x));        samevalues = [];        for i in range(0, maxlen):            splititem = SplitItem();            splititem.Index = i;            values = [];            for splitResult in results:                if i < len(splitResult):                    if splititem.SplitType == None and splitResult[i] in splitchars:                        splititem.SplitType = SplitType.SPLIT;                        splititem.Value = splitResult[i];                    values.append(splitResult[i]);            if splititem.SplitType == None:                text, value = GetMaxSameCount(values)                if value > len(values) * self.MatchRatio:                    splititem.SplitType = SplitType.SAMECONTENT;                    splititem.Value = text;                    if text in samevalues:                        splititem.IsRepeat = True;                    else:                        samevalues.append(text);                else:                    splititem.SplitType = SplitType.DIFFCONTENT;            splititems.append(splititem)        splitGroup.SplitChars = splitchars;        splitGroup.SplitItems = splititems;        # post process        return splitGroup;    def SplitWithGroup(self, text, splitgroup, isSameOut=True, issplitOut=False):        results = self.Split(text, splitgroup.SplitChars);        splitIndex = 0;        for r in results:            currp = splitgroup.SplitItems[splitIndex];            if r in splitgroup.SplitChars:                while splitgroup.SplitItems[splitIndex].Value != r:                    splitIndex += 1;                    if splitIndex == len(splitgroup.SplitItems):                        return;                if issplitOut == False:                    splitIndex += 1;                    continue;            splitIndex += 1;            if currp.SplitType == SplitType.SAMECONTENT:                if isSameOut == False:                    continue;            yield r;    def Split(self, data, splits):  # 连续的分隔符会被合并？        if data is None:            return None;        if len(splits) == 0:            return [data];        last = -1;        splititems = [];        l = len(data);        for i in range(0, l):            r = data[i];            if r not in splits:                continue;            else:                if i > 0 and i > last + 1:                    splititems.append(data[last + 1:i]);                splititems.append(r);                last = i        if last + 1 < len(data):            splititems.append(data[last + 1:]);        return splititems;if __name__ == '__main__':    sp = Spliter();    spgroups = sp.Compile(['中楼层/14层,东西,西直门南大街 3号院,1985年建,板楼'                              , '中楼层/23层,南北,通惠南路6号,2003年建,板楼',                           '中楼层/12层,南北,通惠南路6号 1号院,2003年建,塔楼'])    for r in sp.SplitWithGroup(u"低楼层/14层,东西,太阳宫中路太阳宫大厦,2003年建,板楼", spgroups):        print(r)

sp是分割器实例，对文本数组编译后获得了spgroups，这个数据结构存储了分割所需的信息。之后使用SplitWithGroup方法，即可对文本进行分割，返回的是一个生成器。该函数的一系列参数可以指定是否输出相同项：