網(wǎng)站布局之TF-IDF算法

閱讀 ?·? 發(fā)布日期 2018-12-07 09:22 ?·? admin

網(wǎng)站布局之TF-IDF算法，說白了在我理解來，這個算法就是通過一個的數(shù)學(xué)計算，來確定每個詞在文章中的權(quán)重，從而得到一篇文章的關(guān)于詞的帶權(quán)重的向量，知道了這個以后就好辦了，之后什么文章關(guān)鍵字提取、概述、不同的文章之前的相似性比較都引刃而解了。

求一個詞的權(quán)重就用到TF-IDF算法，其實TF-IDF算法是分為TF（Term Frequency，縮寫為TF）與IDF（Inverse Document Frequency，縮寫為IDF）的計算。

說起來也簡單，TF就是這個詞在文章中的詞頻，出現(xiàn)的次數(shù)比上文章的總次數(shù)或者出現(xiàn)次數(shù)最高的詞的個數(shù)。而IDF則是表示TF-IDF算法分母上加一是為了防止分母為零。

這個數(shù)學(xué)的表達式也符合情理，如果關(guān)鍵字（除去“的”、“為了”之類的去除字）在越多的文檔中出現(xiàn)，它在本篇文章中的權(quán)重自然就低了，舉個簡單的例子：給你一個關(guān)鍵字計算機，你一點也不知道這貨表達的意思，因為（從這個算法角度講）它在太多的文章中出現(xiàn)，但是如果你的關(guān)鍵字為0day就不一樣了，包含它的文檔數(shù)遠遠小于包含關(guān)鍵字“計算機”的文檔數(shù)。由此，如果在同一篇文章里，如果“0day”與“計算機”的TF（詞頻）相同，IDF就可以保證“0day”的權(quán)重較高了。

基本的算法就是這樣了，其實很簡單，但是這個算法是基于這樣一個前提，關(guān)鍵詞越重要，出現(xiàn)的頻率越高。同時忽略了詞出現(xiàn)位置的影響，所以這個算法存在漏洞。

爽一爽色av网站_2020无码在线观看_精品视频最新网址_欧洲熟妇色xxxxⅹ图

網(wǎng)站布局之TF-IDF算法

為您推薦

熱門標簽