当前位置:首页 > 科技  > 软件

DFA算法,高效实现敏感词检测与替换!

来源: 责编: 时间:2023-10-27 09:14:41 412观看
导读在信息爆炸的时代,网络上充斥着大量的敏感信息,可能会产生很多的负面影响。为了应对这一挑战,一直在寻求有效的方式来替换或过滤掉敏感字词,而Java DFA(Deterministic Finite Automaton)算法正是在这方面发挥着关键作用。什

EJr28资讯网——每日最新资讯28at.com

在信息爆炸的时代,网络上充斥着大量的敏感信息,可能会产生很多的负面影响。为了应对这一挑战,一直在寻求有效的方式来替换或过滤掉敏感字词,而Java DFA(Deterministic Finite Automaton)算法正是在这方面发挥着关键作用。EJr28资讯网——每日最新资讯28at.com

什么是DFA算法?

DFA即Deterministic Finite Automaton,是一种有穷自动机,通常用于处理字符串匹配问题。在Java中,DFA算法用于搜索和替换文本中的特定模式,如敏感字词或关键词。DFA算法通过将文本逐字符逐字符地与事先定义好的敏感字列表进行比较,从而快速而高效地检测和替换敏感字。EJr28资讯网——每日最新资讯28at.com

Java DFA算法的工作原理

DFA算法基于状态转移。它首先构建一个状态转移图,其中每个状态代表算法在处理字符串时的状态。然后,算法从输入文本的开头开始,根据当前字符和当前状态,查找下一个状态,并根据状态的不同采取不同的操作。当输入文本中的字符被处理完毕时,算法会得到一个已替换敏感字的文本或者是否包含敏感词的一个状态。EJr28资讯网——每日最新资讯28at.com

例如替换文本中的敏感词:EJr28资讯网——每日最新资讯28at.com

文本:Java新视界,为你开启Java世界的大门。实用技巧,深度解析,让Java更简单,更强大!一起攀登Java技术高峰,实现编程梦想!敏感词列表:["新视界", "新视野", "技术", "技术高峰", "编程梦想", "实现梦想"]

基于敏感词,构建森林:EJr28资讯网——每日最新资讯28at.com

EJr28资讯网——每日最新资讯28at.com

基于森林,构建JSON对象:EJr28资讯网——每日最新资讯28at.com

{    "技":{        "isEnd":"0",        "术":{            "高":{                "峰":{                    "isEnd":"1"                },                "isEnd":"0"            },            "isEnd":"1"        }    },    "新":{        "isEnd":"0",        "视":{            "界":{                "isEnd":"1"            },            "isEnd":"0",            "野":{                "isEnd":"1"            }        }    },    "编":{        "isEnd":"0",        "程":{            "isEnd":"0",            "梦":{                "isEnd":"0",                "想":{                    "isEnd":"1"                }            }        }    },    "实":{        "现":{            "isEnd":"0",            "梦":{                "isEnd":"0",                "想":{                    "isEnd":"1"                }            }        },        "isEnd":"0"    }}

DFA算法实现

mport java.util.*;/** * 敏感词处理工具 - DFA算法实现 * @author Java新视界 * @modifier Java新视界 * @date 2023/10/25 16:58 */public class SensitiveWordUtil {    /**     * 敏感词匹配规则     */    public static final int MIN_MATCH_TYPE = 1;      //最小匹配规则,如:敏感词库["新视界","视界"],语句:"Java新视界",匹配结果:Java新[视界]    public static final int MAX_MATCH_TYPE = 2;      //最大匹配规则,如:敏感词库["新视界","视界"],语句:"Java新视界",匹配结果:Java[新视界]     private static Map<String, Object> initSensitiveWordMap(Set<String> sensitiveWordSet) {        Map<String, Object> map = new HashMap(Math.max((int) (sensitiveWordSet.size() / .75f) + 1, 16));    //初始化敏感词容器,减少扩容操作        for (String aKeyWordSet : sensitiveWordSet) {   //迭代keyWordSet            Map nowMap = map;            for (int i = 0; i < aKeyWordSet.length(); i++) {                char keyChar = aKeyWordSet.charAt(i);                Object wordMap = nowMap.get(keyChar);                if (wordMap != null) {                    nowMap = (Map) wordMap;         //如果存在该key,直接赋值                } else {                            //不存在则,则构建一个map,同时将isEnd设置为0                    Map<String, String> newWorMap = new HashMap<>(3);                    newWorMap.put("isEnd", "0");                    nowMap.put(keyChar, newWorMap);                    nowMap = newWorMap;                }                if (i == aKeyWordSet.length() - 1) {//判断最后一个                    nowMap.put("isEnd", "1");                }            }        }        return map;    }     public static Set<String> getSensitiveWord(Set<String> sensitiveWordSet,String txt, int matchType) {        Set<String> sensitiveWordList = new HashSet<>();        Map<String, Object> map = initSensitiveWordMap(sensitiveWordSet);        for (int i = 0; i < txt.length(); i++) {     //判断是否包含敏感字符            int length = checkSensitiveWord(map,txt, i, matchType);            if (length > 0) {           //存在,加入list中                sensitiveWordList.add(txt.substring(i, i + length));                i = i + length - 1;     //减1的原因,是因为for会自增            }        }         return sensitiveWordList;    }     public static String replaceSensitiveWord(Set<String> sensitiveWordSet, String txt, char replaceChar, int matchType) {        String resultTxt = txt;        //获取所有的敏感词        Set<String> set = getSensitiveWord(sensitiveWordSet,txt, matchType);        Iterator<String> iterator = set.iterator();        String word;        String replaceString;        while (iterator.hasNext()) {            word = iterator.next();            replaceString = getReplaceChars(replaceChar, word.length());            resultTxt = resultTxt.replaceAll(word, replaceString);        }         return resultTxt;    }     public static String replaceSensitiveWord(Set<String> sensitiveWordSet, String txt, String replaceStr, int matchType) {        String resultTxt = txt;        //获取所有的敏感词        Set<String> set = getSensitiveWord(sensitiveWordSet,txt, matchType);        Iterator<String> iterator = set.iterator();        String word;        while (iterator.hasNext()) {            word = iterator.next();            resultTxt = resultTxt.replaceAll(word, replaceStr);        }         return resultTxt;    }     private static String getReplaceChars(char replaceChar, int length) {        String resultReplace = String.valueOf(replaceChar);        for (int i = 1; i < length; i++) {            resultReplace += replaceChar;        }         return resultReplace;    }     private static int checkSensitiveWord(Map<String, Object> nowMap, String txt, int beginIndex, int matchType) {        boolean flag = false;        int matchFlag = 0;        char word;        for (int i = beginIndex; i < txt.length(); i++) {            word = txt.charAt(i);            //获取指定key            nowMap = (Map<String, Object>) nowMap.get(word);            if (nowMap != null) {               //存在,则判断是否为最后一个                matchFlag++;                    //找到相应key,匹配标识+1                //如果为最后一个匹配规则,结束循环,返回匹配标识数                if ("1".equals(nowMap.get("isEnd"))) {                    flag = true;                //结束标志位为true                    //最小规则,直接返回,最大规则还需继续查找                    if (MIN_MATCH_TYPE == matchType) {                        break;                    }                }            } else {                            //不存在,直接返回                break;            }        }        if (matchFlag < 2 || !flag) {           //长度必须大于等于1,为词            matchFlag = 0;        }        return matchFlag;    }}

DFA算法测试

public static void main(String[] args) {    Set<String> sensitiveWordSet = new HashSet<>(Arrays.asList("新视界", "新视野","技术", "技术高峰", "编程梦想", "实现梦想"));    String string = "Java新视界,为你开启Java世界的大门。实用技巧,深度解析,让Java更简单,更强大!一起攀登Java技术高峰,实现编程梦想!";    //获取语句中的敏感词    Set<String> set = SensitiveWordUtil.getSensitiveWord(sensitiveWordSet,string, SensitiveWordUtil.MAX_MATCH_TYPE);    System.out.println("语句中 包含敏感词的个数为:" + set.size() + "。包含:" + set);    set = SensitiveWordUtil.getSensitiveWord(sensitiveWordSet,string, SensitiveWordUtil.MIN_MATCH_TYPE);    System.out.println("语句中 包含敏感词的个数为:" + set.size() + "。包含:" + set);    //替换语句中的敏感词    String filterStr = SensitiveWordUtil.replaceSensitiveWord(sensitiveWordSet,string, '*', SensitiveWordUtil.MAX_MATCH_TYPE);    System.out.println(filterStr);    filterStr = SensitiveWordUtil.replaceSensitiveWord(sensitiveWordSet,string, '*', SensitiveWordUtil.MIN_MATCH_TYPE);    System.out.println(filterStr);}

运行结果:EJr28资讯网——每日最新资讯28at.com

EJr28资讯网——每日最新资讯28at.com

DFA算法在替换敏感字领域的应用

  • 言论过滤:社交媒体平台和在线论坛经常使用Java DFA算法来检测和替换敏感字。这有助于维护社区的友好环境,减少网络欺凌和不当言论。
  • 敏感信息过滤:在金融领域,DFA算法可以用于检测和替换敏感信息,如银行账号、信用卡号和社保号。这有助于确保用户的隐私和数据安全。
  • 儿童保护:儿童在线安全是一个重要问题。DFA算法可以用于过滤儿童不适宜的内容,确保他们在互联网上的安全体验。
  • 政治和宗教领域:政府和宗教组织也使用DFA算法来检测和替换具有冲突性的言论,以维护社会和谐。

优势与挑战

优势:EJr28资讯网——每日最新资讯28at.com

  • 高效性:DFA算法能够快速处理大量的文本数据,使其在实时应用中具有优势。
  • 可扩展性:可以根据需要轻松扩展敏感字词列表。
  • 精确性:算法的确定性保证了替换的准确性。

挑战:EJr28资讯网——每日最新资讯28at.com

  • 敏感字库维护:需要不断更新和维护敏感字库,以适应新出现的敏感词汇。
  • 多语言支持:不同语言的敏感字替换需要额外的处理。
  • 性能优化:随着输入文本长度的增加,算法的性能可能会下降。

总的来说,DFA算法在替换敏感字领域具有广泛的应用,为网络社区、金融机构、政府和其他领域提供了一种强大工具,用于过滤和替换敏感信息,维护社会秩序,保护用户的隐私,以及确保互联网上的安全和和谐。随着技术的不断发展,DFA算法将继续发挥重要作用,以适应不断变化的需求和挑战。EJr28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-15314-0.htmlDFA算法,高效实现敏感词检测与替换!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenJDK JCov-测试你的代码覆盖率

下一篇: 微博二面:所有对象都一定被分配在堆中么?

标签:
  • 热门焦点
  • K60至尊版刚预热 一加Ace2 Pro正面硬刚

    Redmi这边刚如火如荼的宣传了K60 Ultra的各种技术和硬件配置,作为竞品的一加也坐不住了。一加中国区总裁李杰发布了两条微博,表示在自家的一加Ace2上早就已经采用了和PixelWo
  • 天猫精灵Sound Pro体验:智能音箱没有音质?来听听我的

    这几年除了手机作为智能生活终端最主要的核心之外,第二个可以成为中心点的产品是什么?——是智能音箱。 手机在执行命令的时候有两种操作方式,手和智能语音助手,而智能音箱只
  • K6:面向开发人员的现代负载测试工具

    K6 是一个开源负载测试工具,可以轻松编写、运行和分析性能测试。它建立在 Go 和 JavaScript 之上,它被设计为功能强大、可扩展且易于使用。k6 可用于测试各种应用程序,包括 Web
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • 本地生活这块肥肉,拼多多也想吃一口

    出品/壹览商业 作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期,拼多多在App首页&ldquo;充值中心&rdquo;入口上线了本机生活界面。壹览商业发现,该界面目前主要
  • 东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的&ldquo;7天甘肃行&rdquo;直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,&ldquo;7
  • 微博大门常打开,迎接海外画师漂洋东渡

    作者:互联网那些事&ldquo;起猛了,我能看得懂日语了&rdquo;。&ldquo;为什么日本人说话我能听懂?&rdquo;&ldquo;中文不像中文,日语不像日语,但是我竟然看懂了&rdquo;&hellip;&hell
  • 2299元起!iQOO Pad开启预售:性能最强天玑平板

    5月23日,iQOO如期举行了新品发布会,除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外,还在发布会上推出了旗下首款平板电脑——iQOO Pad,其搭载了天玑
  • 华为举行春季智慧办公新品发布会 首次推出电子墨水屏平板

    北京时间2月27日晚,华为在巴塞罗那举行春季智慧办公新品发布会,在海外市场推出之前已经在中国市场上市的笔记本、平板、激光打印机等办公产品,并首次推出搭载
Top