蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學(xué)習(xí)網(wǎng)站!

[ Ctrl + D 鍵 ]收藏本站

您所在的位置:首頁 > 教育學(xué)習(xí) > 為什么

為什么

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)?

分類: 為什么 常識詞典 編輯 : 常識 發(fā)布 : 04-01

閱讀 :433

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)?如果兩篇文章完全一致,可以通過時間來做判斷。但如果僅對原文進行微小修改呢?我最關(guān)心的是,這種修改大到什么程度,google就判定該文章來自于獨立源呢?這個問題并非是問google如何完美地解決了這個問題(顯然這個問題本身就是ill-defined,不存在完美解決方案)。這個問題的探討價值是,google在試圖解決這個問題的時候,用了何種方法。這其中有些方法本身,或者是繞過這些方法的后門,都是有思考價值的。.11 個答案

答案 1:

原創(chuàng)內(nèi)容識別是搜索引擎的難題之一,google在這方面做的明顯要好, 但和理想的情況還是有差距.以"談?wù)剷鴥r"這個query為例, google的結(jié)果已經(jīng)做的非常棒了google.-k/#-l=z--C...幾個可能的識別"原創(chuàng)"的方法:時間:直觀來想最重要的識別因子就是時間, 但對于google而言, 這個因子卻很難像我們想象的那樣有效. 可能的幾個參考時間:

搜索引擎收錄時間: 由于抓取系統(tǒng)的調(diào)度不同, 即使是google, 即使是用ping, 原創(chuàng)結(jié)果也不一定優(yōu)先被收錄(雖然在很多情況下, 已經(jīng)向這個方向靠攏了). 這是基于優(yōu)先級隊列的網(wǎng)頁抓取算法和機器抓取性能有限共同決定的. 第一時間新浪編輯轉(zhuǎn)載的內(nèi)容可能就比原創(chuàng)先收錄.

網(wǎng)頁上文章的生成時間: 拋開完全不靠譜的服務(wù)器lastmodifytime, 網(wǎng)頁上本身就顯示有生成時間, 如果可以被識別, 也是有效的. 但并不是所有的網(wǎng)頁都有這個屬性,read.weiwu-ui/arc-ives... 就找不到有意義的時間. 而且即使存在, 對于這個由網(wǎng)頁生成者提供的時間, 是否可信也是一個問題.

基本上是沒有所有網(wǎng)頁通用的有效時間因素, 可以被搜索引擎獲取到. 時間不準(zhǔn)確的話, 即使是完全相同的網(wǎng)頁內(nèi)容, 也無法判斷了. (判斷網(wǎng)頁是否微小改變, 由于時間不靠譜, 在原創(chuàng)問題上就不是重要的因素, 就不展開了. 從方法上看, 列溫斯頓編輯距離這些方法已經(jīng)是非常成熟有效的. 看起來google沒這么用)鏈接關(guān)系:在一個理想化的互聯(lián)網(wǎng)里面, 轉(zhuǎn)載方會給出原始出處, 鏈接關(guān)系就是比較靠譜的識別原創(chuàng)的方法. google可以順著鏈接關(guān)系, 找到最終的原始出處. 但目前來看, 這個方法的作用有限:

沒有專業(yè)精神的轉(zhuǎn)載者: 轉(zhuǎn)載不給出出處, ^C+^Y-. 簡體中文互聯(lián)網(wǎng)里面幾乎所有的綜合性站點, 都有一些編輯耍流氓不給出原始出處的現(xiàn)象, 甚至是剽竊別人的內(nèi)容當(dāng)做自己的原創(chuàng). 這種-和剽竊, 切斷了鏈接的傳播途徑(現(xiàn)在微博上的那些粉絲多的草根微博, 都是走-粘貼這個路數(shù)的貨色, 更不要說采集站了). 搜索引擎識別不能.

沒有統(tǒng)一的出處: 對于一些urban legend或者笑話, 人類自己都搞不清楚源頭是什么, 甚至很多源頭都不在互聯(lián)網(wǎng)上. 鏈接關(guān)系也無法指向最終出處, 可能指向的只是可考的鏡像. 這類超出人類自身的問題, 搜索引擎也沒能力.

傳播能力:目前看, google識別原創(chuàng)的最主要手段就是識別傳播能力. 根據(jù)meme理論傳播越廣的內(nèi)容其價值越高:en.-.org/wiki...其實這里換了概念, 把"原創(chuàng)"換成了"價值高". 這是一種對于識別"原創(chuàng)"困難的折中. 把找出"源頭"的工作, 交給了用戶的群體智慧. 網(wǎng)頁被用戶通過主動的方式看到的越多, 那么他是"原創(chuàng)"的概率就越大. 把識別的工作, 交給了全體用戶來共同參與. 相當(dāng)于是我們找出了信息源(但有可能不是原創(chuàng)), 再把這個結(jié)果告訴google. 雖然可能不是真正的原創(chuàng), 但可能是最具影響力的結(jié)果.基于此我們經(jīng)常看到, 對于同一篇內(nèi)容, 投稿在月光博客上的網(wǎng)頁, 會比真正的原創(chuàng)網(wǎng)頁排名高.對于query: quora的創(chuàng)新, 知乎的土壤google的結(jié)果第一位的就是月光博客上的結(jié)果, 而真正的原創(chuàng)結(jié)果是第一頁找不到的.至于如何識別網(wǎng)頁的"傳播能力", 類似于facebook的like按鈕就是比較典型的代表, google目前自身的產(chǎn)品已經(jīng)可以獲取到很多類似的數(shù)據(jù)(目前還不包括+1的數(shù)據(jù)), 鏈接關(guān)系也可以包括在這里面, 雖然不是最有效的.

答案 2:

很理論的東西:首先你這個文章的:標(biāo)題、段落的第一句、段落的末句、段落的順序。抓取到的內(nèi)容去和 數(shù)據(jù)庫中比較!看重復(fù)度?。。∫话愕卣f 差異化達(dá)到50%(有說60%) 就算原創(chuàng)了(另稱偽原創(chuàng)成功)。

答案 3:

看了答案,不是很靠譜.貼一個我知道的答案.... 所以如果你要讓機器知道哪一篇文章是原創(chuàng)還是轉(zhuǎn)載,你需要解決2個問題. 1.把所有同一篇文章找出來. 2.把抓到時間按照時間排序,最先抓來的認(rèn)為是原創(chuàng)的. 第2個問題非常好解決,所以說一下第1個問題的解決方案. >

我先把所有頁面中的文字提取,按照自然斷句,變成一個文檔.

我取出該網(wǎng)頁最長的一個句子,作為簽名,認(rèn)為這個是這篇文章中一個特征.

我取出該網(wǎng)頁上次最長句子作為簽名2,認(rèn)為是是第二個特征.

久久99久久蜜桃| 日韩欧美一区二区网站| 自拍偷在线精品自拍无码专区 | 国产又粗又猛又爽又黄观看免费| 香蕉视频一| 亚洲第一区欧美国产综| 国产成人综合亚洲亚洲国产第一页| 精品二区视频看看| 国产精品乱人伦一区2区| 少妇嫩穴喷水视频| 国产欧美日韩精品专区黑人 | 欧美日韩天堂在线旡码| 亚洲bt有码区| 97日韩久久| 国产一本无码视频在线观看| 中文字幕一三区| 色欲综合一区二区三区| 无码电影你懂的| 精品欧美h无遮挡在线看中文| 三级片网九九| 人妻少妇精品中文字幕专区视频| 精品视屏破处福利| 中文字幕日本乱码久久| 全国亚洲最大的av网站久久久| www.xxxx性| 青青草一区| 99精品免费久久久久久久久| 美日韩无码高清| 国产经典黄色av网站| 婷婷五月国产综合在线z| 天天摸天天做天天爽天天舒服| 福利久久AⅤ无码精品色午| 久久久女厕碰碰| 亚洲精品无码久久毛片波多野吉衣 | 亚洲图片和小说| av资源在线| 色呦呦专区| 爆乳人妻少妇| 国产精品久久久久久久久久齐齐 | 成人免费超碰在线caopro| 夜夜无码精品视频|