Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)？

分類: 為什么 常識詞典 編輯 : 常識發(fā)布 : 04-01

閱讀 :433

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)？如果兩篇文章完全一致，可以通過時間來做判斷。但如果僅對原文進行微小修改呢？我最關(guān)心的是，這種修改大到什么程度，google就判定該文章來自于獨立源呢？這個問題并非是問google如何完美地解決了這個問題（顯然這個問題本身就是ill-defined，不存在完美解決方案）。這個問題的探討價值是，google在試圖解決這個問題的時候，用了何種方法。這其中有些方法本身，或者是繞過這些方法的后門，都是有思考價值的。.11 個答案

答案 1：

原創(chuàng)內(nèi)容識別是搜索引擎的難題之一,google在這方面做的明顯要好, 但和理想的情況還是有差距.以"談?wù)剷鴥r"這個query為例, google的結(jié)果已經(jīng)做的非常棒了google.-k/#-l=z--C...幾個可能的識別"原創(chuàng)"的方法:時間:直觀來想最重要的識別因子就是時間, 但對于google而言, 這個因子卻很難像我們想象的那樣有效. 可能的幾個參考時間:

搜索引擎收錄時間: 由于抓取系統(tǒng)的調(diào)度不同, 即使是google, 即使是用ping, 原創(chuàng)結(jié)果也不一定優(yōu)先被收錄(雖然在很多情況下, 已經(jīng)向這個方向靠攏了). 這是基于優(yōu)先級隊列的網(wǎng)頁抓取算法和機器抓取性能有限共同決定的. 第一時間新浪編輯轉(zhuǎn)載的內(nèi)容可能就比原創(chuàng)先收錄.

網(wǎng)頁上文章的生成時間: 拋開完全不靠譜的服務(wù)器lastmodifytime, 網(wǎng)頁上本身就顯示有生成時間, 如果可以被識別, 也是有效的. 但并不是所有的網(wǎng)頁都有這個屬性,read.weiwu-ui/arc-ives... 就找不到有意義的時間. 而且即使存在, 對于這個由網(wǎng)頁生成者提供的時間, 是否可信也是一個問題.

基本上是沒有所有網(wǎng)頁通用的有效時間因素, 可以被搜索引擎獲取到. 時間不準(zhǔn)確的話, 即使是完全相同的網(wǎng)頁內(nèi)容, 也無法判斷了. (判斷網(wǎng)頁是否微小改變, 由于時間不靠譜, 在原創(chuàng)問題上就不是重要的因素, 就不展開了. 從方法上看, 列溫斯頓編輯距離這些方法已經(jīng)是非常成熟有效的. 看起來google沒這么用)鏈接關(guān)系:在一個理想化的互聯(lián)網(wǎng)里面, 轉(zhuǎn)載方會給出原始出處, 鏈接關(guān)系就是比較靠譜的識別原創(chuàng)的方法. google可以順著鏈接關(guān)系, 找到最終的原始出處. 但目前來看, 這個方法的作用有限:

沒有專業(yè)精神的轉(zhuǎn)載者: 轉(zhuǎn)載不給出出處, ^C+^Y-. 簡體中文互聯(lián)網(wǎng)里面幾乎所有的綜合性站點, 都有一些編輯耍流氓不給出原始出處的現(xiàn)象, 甚至是剽竊別人的內(nèi)容當(dāng)做自己的原創(chuàng). 這種-和剽竊, 切斷了鏈接的傳播途徑(現(xiàn)在微博上的那些粉絲多的草根微博, 都是走-粘貼這個路數(shù)的貨色, 更不要說采集站了). 搜索引擎識別不能.

沒有統(tǒng)一的出處: 對于一些urban legend或者笑話, 人類自己都搞不清楚源頭是什么, 甚至很多源頭都不在互聯(lián)網(wǎng)上. 鏈接關(guān)系也無法指向最終出處, 可能指向的只是可考的鏡像. 這類超出人類自身的問題, 搜索引擎也沒能力.

傳播能力:目前看, google識別原創(chuàng)的最主要手段就是識別傳播能力. 根據(jù)meme理論傳播越廣的內(nèi)容其價值越高:en.-.org/wiki...其實這里換了概念, 把"原創(chuàng)"換成了"價值高". 這是一種對于識別"原創(chuàng)"困難的折中. 把找出"源頭"的工作, 交給了用戶的群體智慧. 網(wǎng)頁被用戶通過主動的方式看到的越多, 那么他是"原創(chuàng)"的概率就越大. 把識別的工作, 交給了全體用戶來共同參與. 相當(dāng)于是我們找出了信息源(但有可能不是原創(chuàng)), 再把這個結(jié)果告訴google. 雖然可能不是真正的原創(chuàng), 但可能是最具影響力的結(jié)果.基于此我們經(jīng)常看到, 對于同一篇內(nèi)容, 投稿在月光博客上的網(wǎng)頁, 會比真正的原創(chuàng)網(wǎng)頁排名高.對于query: quora的創(chuàng)新, 知乎的土壤google的結(jié)果第一位的就是月光博客上的結(jié)果, 而真正的原創(chuàng)結(jié)果是第一頁找不到的.至于如何識別網(wǎng)頁的"傳播能力", 類似于facebook的like按鈕就是比較典型的代表, google目前自身的產(chǎn)品已經(jīng)可以獲取到很多類似的數(shù)據(jù)(目前還不包括+1的數(shù)據(jù)), 鏈接關(guān)系也可以包括在這里面, 雖然不是最有效的.

答案 2：

很理論的東西：首先你這個文章的：標(biāo)題、段落的第一句、段落的末句、段落的順序。抓取到的內(nèi)容去和數(shù)據(jù)庫中比較！看重復(fù)度?。。∫话愕卣f 差異化達(dá)到50%（有說60%）就算原創(chuàng)了（另稱偽原創(chuàng)成功）。

答案 3：

看了答案,不是很靠譜.貼一個我知道的答案.... 所以如果你要讓機器知道哪一篇文章是原創(chuàng)還是轉(zhuǎn)載,你需要解決2個問題. 1.把所有同一篇文章找出來. 2.把抓到時間按照時間排序,最先抓來的認(rèn)為是原創(chuàng)的. 第2個問題非常好解決,所以說一下第1個問題的解決方案. >

我先把所有頁面中的文字提取,按照自然斷句,變成一個文檔.

我取出該網(wǎng)頁最長的一個句子,作為簽名,認(rèn)為這個是這篇文章中一個特征.

我取出該網(wǎng)頁上次最長句子作為簽名2,認(rèn)為是是第二個特征.

標(biāo)簽 : 為什么 04-01

下一篇:劉強東在微博爆料投資京東15億美元的大佬是李彥宏，-的電子商務(wù)意在何為？下一篇 【方向鍵 ( → )下一篇】

上一篇:您是怎么記憶 C++（或其他語言）函數(shù)標(biāo)準(zhǔn)庫或 W3C 標(biāo)準(zhǔn)的呢？上一篇 【方向鍵 ( ← )上一篇】

欄目列表

外語學(xué)校認(rèn)證考試高考研究生留學(xué)百科為什么知道問答百科知識校園安全職場

蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

為什么

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)？

欄目列表

相關(guān)文章

最新文章

蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

為什么

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)？

欄目列表

相關(guān)文章

最新文章

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)？