百度把搜索不公正歸于垃圾信息,而Google 則反唇相譏,說靠機(jī)器、技術(shù)手段來反垃圾已經(jīng)成為通行法則,百度的說法僅僅是一個(gè)借口而已。不管誰對(duì)誰錯(cuò),一個(gè)不爭(zhēng)的事實(shí)是垃圾信息已經(jīng)成為如今的信息時(shí)代的公敵。
方法一通過提取信息里的聯(lián)系方式,建立聯(lián)系方式黑名單
垃圾信息制造者不管IP如何變、內(nèi)容如何變,但是聯(lián)系方式是不變的。我們可以根據(jù)這一點(diǎn)來建立聯(lián)系方式黑名單數(shù)據(jù)庫。目前中國用戶用的最多的聯(lián)系方式有:電話號(hào)碼、QQ號(hào)、網(wǎng)址、Email地址等。這些聯(lián)系方式都有一定的特征,很容易通過正則表達(dá)式提取出來。那么具體如何建立黑名單呢?列表網(wǎng)的做法是:如果一條信息被用戶惡評(píng)五次,那么該信息自動(dòng)標(biāo)記為惡評(píng)狀態(tài)并隱藏。經(jīng)確認(rèn)的被用戶投訴的信息也被置于惡評(píng)狀態(tài)。當(dāng)一條信息被置于惡評(píng)的時(shí)候,該惡評(píng)信息里的所有聯(lián)系方式均被存入黑名單數(shù)據(jù)庫中,并且出現(xiàn)頻率字段加1。這樣我們就有了聯(lián)系方式黑名單數(shù)據(jù)庫了,該數(shù)據(jù)庫有聯(lián)系方式的出現(xiàn)頻率及最新出現(xiàn)時(shí)間等信息。所有這些操作除了用戶投訴需要人工辨別外,其他的都是機(jī)器自動(dòng)完成的。
方法二鑒別并刪除異地商家信息
分類信息網(wǎng)站的特點(diǎn)之一就是本地性,本地用戶到分類信息網(wǎng)站上來看的就是本地的租房、交友、服務(wù)等信息。因此如果信息里面出現(xiàn)異地的電話號(hào)碼的話則應(yīng)該作為垃圾信息處理。這個(gè)可以通過手機(jī)屬地?cái)?shù)據(jù)庫及電話區(qū)號(hào)數(shù)據(jù)庫來判斷。并不是所有的類目都適用這條方法的,像交友、尋人類目就不應(yīng)該采用這種方法。但是像二手車類目、服務(wù)類目則完全可以采用這種方法過濾掉異地信息。
方法三限制某些類目同一天內(nèi)一個(gè)用戶只能發(fā)布一條信息
重復(fù)的信息太多了,對(duì)用戶的體驗(yàn)也不好。在這里重復(fù)信息的定義是:同一個(gè)用戶或商家(包括商家聘請(qǐng)的信息發(fā)布者)發(fā)布的內(nèi)容相同或相似的信息。這些類目包括:生活服務(wù)、商務(wù)服務(wù)、培訓(xùn)、交友、車輛等。那么如何避免重復(fù)信息的發(fā)布呢?列表網(wǎng)的做法是:在這些類目中用戶一天內(nèi)發(fā)布的所有信息中只保留最近發(fā)布的信息,其他信息則刪除。
方法四關(guān)鍵字過濾
最后不要忘了關(guān)鍵字過濾。一些有害的、敏感的關(guān)鍵字是肯定需要過濾的。
以上是分類信息網(wǎng)站可以采納的反垃圾信息的簡(jiǎn)單的行之有效的幾種方式。如果能配合貝葉斯算法過濾垃圾信息那就更完美了。