2023敏感信息詞庫(kù)
詳情介紹
2023敏感信息詞庫(kù)內(nèi)含2023最新、最全的敏感詞,內(nèi)容覆蓋兩萬(wàn)多條,包括色情、暴恐、反動(dòng)、民生及貪腐等六大類詞庫(kù)。敏感詞主要的范圍指的就是帶有敏感政治傾向(或反執(zhí)政黨傾向)、暴力傾向、不健康色彩的詞或不文明語(yǔ)言,在現(xiàn)實(shí)中,隨著網(wǎng)絡(luò)科技的發(fā)展,隨著而來(lái)的網(wǎng)絡(luò)暴力也越來(lái)越嚴(yán)重,越來(lái)越的人因?yàn)榫W(wǎng)絡(luò)上的留言而走上輕生的地步,因此國(guó)家有關(guān)部分特意針對(duì)此類問(wèn)題分布了一系列禁止出現(xiàn)的敏感詞,當(dāng)用戶在網(wǎng)絡(luò)上發(fā)帖或者發(fā)文章的時(shí)候,若出現(xiàn)此類敏感信息系統(tǒng)就將自動(dòng)屏蔽,或者直接不允許分布。
★暴恐詞庫(kù)
★反動(dòng)詞庫(kù)
★民生詞庫(kù)
★其他詞庫(kù)
★貪腐詞庫(kù)
2、敏感詞集合,共2W+的敏感詞,已通過(guò)程序算法去除重復(fù)項(xiàng)。
3、里面整理了最新網(wǎng)絡(luò)詞庫(kù)
4、考慮到各行各業(yè)需要的分詞規(guī)則不同,故沒(méi)有合并
5、文件為txt、xlsx文本用于敏感詞過(guò)濾
1.明確你的經(jīng)驗(yàn),是否是敏感詞密集型的主題,比如政治、性等在中國(guó)有管制的主題。如果是的話,那你就要注意你通篇的措辭,如何巧妙得選擇詞匯,避開(kāi)敏感詞,將是非??简?yàn)寫(xiě)手經(jīng)驗(yàn)的。
2.如果只是普通主題,那可能是一些詞匯的問(wèn)題。這些詞匯,可能還是色情(OXOX)、廣告(鏈接、手機(jī))、政治(人名、事件)、罵人語(yǔ)等一般來(lái)說(shuō)你只要發(fā)現(xiàn)文中有此類型(不和諧)的詞匯,都不用進(jìn)行下一步了,直接刪了或改了吧
二、對(duì)不確定的詞,進(jìn)行搜索嘗試
1.可以在百度經(jīng)驗(yàn)的搜索欄內(nèi)對(duì)可能的敏感詞進(jìn)行搜索,凡是出現(xiàn)顯示為“抱歉,沒(méi)有找到包含關(guān)鍵詞XX的經(jīng)驗(yàn)?!本涂梢源_定XX是敏感詞了
2.在搜索框內(nèi)搜索敏感詞,是根據(jù)“沒(méi)有結(jié)果”這個(gè)結(jié)果來(lái)判斷的。而很多時(shí)候搜索的句子太長(zhǎng),也會(huì)沒(méi)有結(jié)果。所以建議以“詞”為單位進(jìn)行搜
三、嘗試若失敗,建議通過(guò)隔離段落法來(lái)排查
1.在使用這種方法之前,你必須要明白這么做的代價(jià)。
那就是:因?yàn)槭褂酶綦x法,提交時(shí)你的文章是殘缺的,若檢測(cè)通過(guò)了,文章的狀態(tài)會(huì)變成“提交中”
2.此時(shí)的代價(jià)有:
風(fēng)險(xiǎn)1:通過(guò)的文章有很多地方不能修改了。比如標(biāo)題、分類、工具都不能修改了
風(fēng)險(xiǎn)2:可能因?yàn)槎温涞臍垞p導(dǎo)致審核不通過(guò)。
風(fēng)險(xiǎn)3:在不斷的復(fù)制粘貼中,留一份文章的附本吧,免得敏感詞沒(méi)照出來(lái),文章都被剪沒(méi)了
3.隔離法究竟隔離幾段,留下幾段呢?
方法一:
一般的方法都是減去其中一段,提交剩下的段落,以此來(lái)確定減去的段落是否含有“不當(dāng)詞匯”,這種方法操作起來(lái)比較方便,建議首選。
但是有兩個(gè)缺點(diǎn),
1.如果是最后一段含有“不當(dāng)詞匯”,需要每段都提交一次。(所以應(yīng)該根據(jù)經(jīng)驗(yàn)來(lái)選擇隔離順序。)
2.如果運(yùn)氣很差,“不當(dāng)詞匯”出現(xiàn)了不只一次,在幾個(gè)段落里都有,那你用這種方法,根本查不出來(lái)啦
方法二:一段一段提交。
先提交一段,審核通過(guò),再提交第二段,...,以此類推,直到出現(xiàn)不能提交的那段。但是并此方法不好,因?yàn)樘峤灰淮?,就需要等待審核一次,相?dāng)耗時(shí)間。
但是這種方法克服了前面那種方法里,多段中都有敏感詞卻查不出來(lái)的缺點(diǎn)。
不過(guò)總的來(lái)說(shuō),這種方法并不常用
方法三:,不斷劃分文章進(jìn)行排查(相當(dāng)于二分法)。
把所有段落分成兩部分,先隔離第二部分,提交第一部分。
第一部分若通過(guò),則證明敏感詞在第二部分中;若沒(méi)通過(guò),則證明敏感詞就在第一段中。
此時(shí)選取有敏感詞的那部分,再次進(jìn)行劃分,提交。最終可以找到那有“不當(dāng)詞匯”的一段。
此方法是前兩種方法的折中,速度還可以,也可以查多段都有敏感詞的情況,建議第一種方法不行時(shí),用此方法
包含的敏感詞庫(kù)
★色情詞庫(kù)★暴恐詞庫(kù)
★反動(dòng)詞庫(kù)
★民生詞庫(kù)
★其他詞庫(kù)
★貪腐詞庫(kù)
敏感信息詞概論
大部分論壇,為了方便管理,都進(jìn)行了關(guān)于敏感詞的設(shè)定。比如,當(dāng)你發(fā)貼的時(shí)候帶有某些事先設(shè)定的詞時(shí),這個(gè)貼是不能發(fā)出的。或者這個(gè)詞被自動(dòng)替換為星號(hào)(*)或叉號(hào)(X)等,或者說(shuō)是被和諧掉了。在多數(shù)網(wǎng)站,敏感詞一般是指帶有敏感政治傾向(或反執(zhí)政黨傾向)、暴力傾向、不健康色彩的詞或不文明語(yǔ)。也有一些網(wǎng)站根據(jù)自身實(shí)際情況,設(shè)定一些只適用于本網(wǎng)站的特殊敏感詞,例如很多電子商務(wù)網(wǎng)站會(huì)將一些涉及侵犯知識(shí)產(chǎn)權(quán),不宜銷售的商品,例如“山寨”、“水貨”、“盜版”、“刻錄”等設(shè)置為敏感詞,在商品簡(jiǎn)介中這些詞是發(fā)不出來(lái)的。競(jìng)爭(zhēng)對(duì)手的名稱在一些電商網(wǎng)站也是無(wú)法發(fā)出的敏感詞敏感信息詞舉例說(shuō)明
例如“Pi”這個(gè)詞,在國(guó)內(nèi)“Pi”絕對(duì)算的上是敏感詞語(yǔ),主要原因一是不雅,二是與黃色有連帶關(guān)系,但在現(xiàn)實(shí)中,“Pi”的使用率卻出奇的高,比如人們憤憤然說(shuō)的“Pi民”、“Pi話”、“狗Pi不通”、“Pi滾尿流”等等,在正常的行文中經(jīng)??梢钥吹?。同時(shí)“Pi”在泰國(guó)一般用于稱呼某個(gè)人,如您叫陳,則在泰國(guó)就會(huì)被稱為“Pi陳”,同時(shí)果稱誰(shuí)為“Pipi”,那更是尊稱,比如某老人或女人姓王,你叫她“Pipi王”,她會(huì)高興得不得了。顯然,在泰國(guó)“Pi”是個(gè)尊稱,類似我們說(shuō)老王、小羅之類。特點(diǎn)
1、2023敏感信息詞庫(kù)整合了多個(gè)敏感詞庫(kù),并添加java實(shí)現(xiàn)敏感詞過(guò)濾的工具類,需要根據(jù)具體業(yè)務(wù)適當(dāng)調(diào)整詞庫(kù)內(nèi)容。2、敏感詞集合,共2W+的敏感詞,已通過(guò)程序算法去除重復(fù)項(xiàng)。
3、里面整理了最新網(wǎng)絡(luò)詞庫(kù)
4、考慮到各行各業(yè)需要的分詞規(guī)則不同,故沒(méi)有合并
5、文件為txt、xlsx文本用于敏感詞過(guò)濾
百度經(jīng)驗(yàn)敏感詞排查方法
一、大致鎖定敏感詞出現(xiàn)的范圍,進(jìn)行替換嘗試1.明確你的經(jīng)驗(yàn),是否是敏感詞密集型的主題,比如政治、性等在中國(guó)有管制的主題。如果是的話,那你就要注意你通篇的措辭,如何巧妙得選擇詞匯,避開(kāi)敏感詞,將是非??简?yàn)寫(xiě)手經(jīng)驗(yàn)的。
2.如果只是普通主題,那可能是一些詞匯的問(wèn)題。這些詞匯,可能還是色情(OXOX)、廣告(鏈接、手機(jī))、政治(人名、事件)、罵人語(yǔ)等一般來(lái)說(shuō)你只要發(fā)現(xiàn)文中有此類型(不和諧)的詞匯,都不用進(jìn)行下一步了,直接刪了或改了吧
二、對(duì)不確定的詞,進(jìn)行搜索嘗試
1.可以在百度經(jīng)驗(yàn)的搜索欄內(nèi)對(duì)可能的敏感詞進(jìn)行搜索,凡是出現(xiàn)顯示為“抱歉,沒(méi)有找到包含關(guān)鍵詞XX的經(jīng)驗(yàn)?!本涂梢源_定XX是敏感詞了
2.在搜索框內(nèi)搜索敏感詞,是根據(jù)“沒(méi)有結(jié)果”這個(gè)結(jié)果來(lái)判斷的。而很多時(shí)候搜索的句子太長(zhǎng),也會(huì)沒(méi)有結(jié)果。所以建議以“詞”為單位進(jìn)行搜
三、嘗試若失敗,建議通過(guò)隔離段落法來(lái)排查
1.在使用這種方法之前,你必須要明白這么做的代價(jià)。
那就是:因?yàn)槭褂酶綦x法,提交時(shí)你的文章是殘缺的,若檢測(cè)通過(guò)了,文章的狀態(tài)會(huì)變成“提交中”
2.此時(shí)的代價(jià)有:
風(fēng)險(xiǎn)1:通過(guò)的文章有很多地方不能修改了。比如標(biāo)題、分類、工具都不能修改了
風(fēng)險(xiǎn)2:可能因?yàn)槎温涞臍垞p導(dǎo)致審核不通過(guò)。
風(fēng)險(xiǎn)3:在不斷的復(fù)制粘貼中,留一份文章的附本吧,免得敏感詞沒(méi)照出來(lái),文章都被剪沒(méi)了
3.隔離法究竟隔離幾段,留下幾段呢?
方法一:
一般的方法都是減去其中一段,提交剩下的段落,以此來(lái)確定減去的段落是否含有“不當(dāng)詞匯”,這種方法操作起來(lái)比較方便,建議首選。
但是有兩個(gè)缺點(diǎn),
1.如果是最后一段含有“不當(dāng)詞匯”,需要每段都提交一次。(所以應(yīng)該根據(jù)經(jīng)驗(yàn)來(lái)選擇隔離順序。)
2.如果運(yùn)氣很差,“不當(dāng)詞匯”出現(xiàn)了不只一次,在幾個(gè)段落里都有,那你用這種方法,根本查不出來(lái)啦
方法二:一段一段提交。
先提交一段,審核通過(guò),再提交第二段,...,以此類推,直到出現(xiàn)不能提交的那段。但是并此方法不好,因?yàn)樘峤灰淮?,就需要等待審核一次,相?dāng)耗時(shí)間。
但是這種方法克服了前面那種方法里,多段中都有敏感詞卻查不出來(lái)的缺點(diǎn)。
不過(guò)總的來(lái)說(shuō),這種方法并不常用
方法三:,不斷劃分文章進(jìn)行排查(相當(dāng)于二分法)。
把所有段落分成兩部分,先隔離第二部分,提交第一部分。
第一部分若通過(guò),則證明敏感詞在第二部分中;若沒(méi)通過(guò),則證明敏感詞就在第一段中。
此時(shí)選取有敏感詞的那部分,再次進(jìn)行劃分,提交。最終可以找到那有“不當(dāng)詞匯”的一段。
此方法是前兩種方法的折中,速度還可以,也可以查多段都有敏感詞的情況,建議第一種方法不行時(shí),用此方法
下載地址
- 電腦版
2023敏感信息詞庫(kù)
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
網(wǎng)友評(píng)論
共3人參與互動(dòng),2條評(píng)論- 第2樓河北省廊坊市網(wǎng)友發(fā)表于: 2023-10-12 19:21:14
- 這是最新敏感詞是吧?0蓋樓(回復(fù))
- 管理員 回復(fù)發(fā)表于: 2023-10-13 11:25:20
- 是的,可以參考一下0蓋樓(回復(fù))
- 第1樓河南省鄭州市網(wǎng)友發(fā)表于: 2023-07-13 17:18:08
- 贊!非常好!0蓋樓(回復(fù))
(您的評(píng)論需要經(jīng)過(guò)審核才能顯示)