在搜索引擎優化(huà)自動提取描述的(de)過程中,文本中有些内容和(hé)對(duì)象非常重要,它們會直接影(yǐng)響到摘要的(de)質量。(例如,标題中出現的(de)關鍵詞、詞的(de)頻(pín)率、詞的(de)位置、句子長(cháng)度、句子結構以及排版特征等,它們在自動生成描述的(de)過程中,對(duì)摘要句的(de)篩選、摘要的(de)組織等發揮著(zhe)重要作用(yòng),必須對(duì)它們深入體會,多(duō)加分(fēn)析。
(1)标題
文本信息的(de)标題是文本内容的(de)重要體現,文本的(de)各級标題都不同程度地反映了(le)文本所討(tǎo)論的(de)主要内容。因此,标題中的(de)詞彙是摘要的(de)重要素材,其中關鍵詞和(hé)原文内容和(hé)討(tǎo)論主題往往有緊密的(de)聯系。剔除了(le)标題中的(de)功能詞,餘下(xià)的(de)關鍵詞可(kě)作爲抽取摘要句的(de)“重要詞”。
(2)詞頻(pín)
詞頻(pín)是指詞語在文本中出現的(de)頻(pín)率。天才網絡強調,具有标引價值的(de)詞彙往往是中頻(pín)詞,高(gāo)頻(pín)詞一般是反映句子語法結構的(de)虛詞,而低頻(pín)詞不适宜作爲标引詞。同樣,在摘要中發揮重要作用(yòng)的(de)詞彙也(yě)是具有較高(gāo)頻(pín)率的(de)關鍵詞(重要詞),而這(zhè)些詞在整個(gè)文章(zhāng)中屬于中頻(pín)詞。通(tōng)過對(duì)這(zhè)些“中頻(pín)詞”的(de)數量可(kě)以計算(suàn)句子的(de)權值來(lái)确定摘要候選句。
(3)位置
不同位置的(de)句子對(duì)文章(zhāng)及段落的(de)主題貢獻是不相同的(de),天才網絡對(duì)此曾經有過些研究,我們認爲:段落首句爲段落主題句的(de)概率達85%,位于段落末句的(de)概率也(yě)達7%。因此,這(zhè)些位置的(de)句子成爲摘要句的(de)可(kě)能性很大(dà),在進行自動摘要的(de)過程中,有必要提高(gāo)處于這(zhè)些特殊位置的(de)句子的(de)權值。
(4)指示詞
文章(zhāng)中會有許多(duō)短語(詞彙)用(yòng)于引申出反映文本内容的(de)總結性的(de)句子,這(zhè)類短語或詞彙叫指示詞。這(zhè)類指示詞有如下(xià)形式:“本文論述了(le)”、“本文的(de)目的(de)”、“綜上所述”等等,這(zhè)些指示詞後所接的(de)句子往往高(gāo)度概括了(le)文獻主題。因此,這(zhè)些句子被選作爲摘要候選句的(de)可(kě)能性非常大(dà)。
(5)句子長(cháng)度
摘要表現爲短和(hé)精,即以簡短的(de)文字概括文章(zhāng)論述的(de)主要内容。因此,在選擇摘要句時(shí),應選擇那些較爲精練簡短的(de)句子,過度冗長(cháng)的(de)句子通(tōng)常不宜選人(rén)摘要中。
(6)句法結構
文章(zhāng)中的(de)句子形式有多(duō)種多(duō)樣,有陳述句、疑問句、感歎句等等,但真正反映文章(zhāng)主題的(de)主要還(hái)是陳述句,這(zhè)也(yě)表明(míng)文章(zhāng)的(de)摘要多(duō)以陳述句組成。因此,選擇摘要句時(shí),應盡可(kě)能地抽取陳述句,而應避免疑問句、感歎句等形式的(de)句子進入摘要。
(7)網頁排版特征
在網頁設計軟件日臻完善的(de)前提下(xià),對(duì)機讀文獻的(de)排版格式也(yě)提出了(le)很高(gāo)的(de)要求。編者往往通(tōng)過特殊格式突出文獻的(de)主題内容,如加大(dà)字号、改爲粗體或改爲特殊字體,加下(xià)劃線、文字居中排列、加标号、增大(dà)縮進量、加陰影(yǐng)、加邊框、超級鏈接等。确定詞或句的(de)權值時(shí),應考慮這(zhè)些特殊的(de)格式特征,适當地将權值加大(dà)。
站内優化(huà)對(duì)于整個(gè)SEO項目來(lái)說,占據非常大(dà)的(de)比重。外部鏈接隻能是在内部優化(huà)的(de)基礎上起到錦上添花的(de)作用(yòng)。天才網絡的(de)觀點:搜索引擎優化(huà)的(de)重點就是考慮如何把網站做(zuò)好,迎合搜索引擎的(de)規則,避免觸犯搜索算(suàn)法
大(dà)連網站推廣