找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

搜索
查看: 1342|回復: 2
打印 上一主題 下一主題

[技術教程] 突破搜索引擎robots.txt限制:讓搜索引擎給你的網站做外鏈

[復制鏈接]
跳轉到指定樓層
樓主
發表于 2015-1-8 14:21:51 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式

逛了這許久,何不進去瞧瞧?

您需要 登錄 才可以下載或查看,沒有帳號?立即注冊

x

備注:本文方法或已經失效,分享本文旨在幫助大家更了解黑帽,并非鼓勵大家使用黑帽的方式來進行網站優化,不僅傷害用戶也為互聯網帶來了更多污染。

我們知道搜索引擎的產品線很長,多個產品之間總不可能完全完美地配合,因此在robots.txt的限制收錄那里就產生了一個可以被利用的漏洞。

原理分析(以搜狗為例)

我們可以看到搜狗的robots.txt文件內容為:


  1. User-agent: Sogou web spider
  2. Disallow: /sogou?
  3. Disallow: /web?
  4. Disallow: /sohu?
  5. Disallow: /quan?
  6. Disallow: /sgtest?
  7. Disallow: /se?
  8. Disallow: /gzh?
  9. Disallow: /gzhwap?
  10. Disallow: /weixin?
  11. Disallow: /weixinwap?
  12. Disallow: /websearch.do
  13. Disallow: /websearch/websearch.do
  14. Disallow: /zhishi/searchlist.jsp
  15. Disallow: /express/sq.jsp

  16. User-agent: Sogou inst spider
  17. Disallow: /sogou?
  18. Disallow: /web?
  19. Disallow: /sohu?
  20. Disallow: /quan?
  21. Disallow: /sgtest?
  22. Disallow: /se?
  23. Disallow: /gzh?
  24. Disallow: /gzhwap?
  25. Disallow: /weixin?
  26. Disallow: /weixinwap?
  27. Disallow: /websearch.do
  28. Disallow: /websearch/websearch.do
  29. Disallow: /zhishi/searchlist.jsp
  30. Disallow: /express/sq.jsp

  31. User-agent: Sogou spider2
  32. Disallow: /sogou?
  33. Disallow: /web?
  34. Disallow: /sohu?
  35. Disallow: /quan?
  36. Disallow: /sgtest?
  37. Disallow: /se?
  38. Disallow: /gzh?
  39. Disallow: /gzhwap?
  40. Disallow: /weixin?
  41. Disallow: /weixinwap?
  42. Disallow: /websearch.do
  43. Disallow: /websearch/websearch.do
  44. Disallow: /zhishi/searchlist.jsp
  45. Disallow: /express/sq.jsp

  46. User-agent: Sogou blog
  47. Disallow: /sogou?
  48. Disallow: /web?
  49. Disallow: /sohu?
  50. Disallow: /quan?
  51. Disallow: /sgtest?
  52. Disallow: /se?
  53. Disallow: /gzh?
  54. Disallow: /gzhwap?
  55. Disallow: /weixin?
  56. Disallow: /weixinwap?
  57. Disallow: /websearch.do
  58. Disallow: /websearch/websearch.do
  59. Disallow: /zhishi/searchlist.jsp
  60. Disallow: /express/sq.jsp

  61. User-agent: Sogou News Spider
  62. Disallow: /sogou?
  63. Disallow: /web?
  64. Disallow: /sohu?
  65. Disallow: /quan?
  66. Disallow: /sgtest?
  67. Disallow: /se?
  68. Disallow: /gzh?
  69. Disallow: /gzhwap?
  70. Disallow: /weixin?
  71. Disallow: /weixinwap?
  72. Disallow: /websearch.do
  73. Disallow: /websearch/websearch.do
  74. Disallow: /zhishi/searchlist.jsp
  75. Disallow: /express/sq.jsp

  76. User-agent: Sogou Orion spider
  77. Disallow: /sogou?
  78. Disallow: /web?
  79. Disallow: /sohu?
  80. Disallow: /quan?
  81. Disallow: /sgtest?
  82. Disallow: /se?
  83. Disallow: /gzh?
  84. Disallow: /gzhwap?
  85. Disallow: /weixin?
  86. Disallow: /weixinwap?
  87. Disallow: /websearch.do
  88. Disallow: /websearch/websearch.do
  89. Disallow: /zhishi/searchlist.jsp
  90. Disallow: /express/sq.jsp

  91. User-agent: JikeSpider
  92. Disallow: /sogou?
  93. Disallow: /web?
  94. Disallow: /sohu?
  95. Disallow: /quan?
  96. Disallow: /sgtest?
  97. Disallow: /se?
  98. Disallow: /gzh?
  99. Disallow: /gzhwap?
  100. Disallow: /weixin?
  101. Disallow: /weixinwap?
  102. Disallow: /websearch.do
  103. Disallow: /websearch/websearch.do
  104. Disallow: /zhishi/searchlist.jsp
  105. Disallow: /express/sq.jsp

  106. User-agent: Sosospider
  107. Disallow: /sogou?
  108. Disallow: /web?
  109. Disallow: /sohu?
  110. Disallow: /quan?
  111. Disallow: /sgtest?
  112. Disallow: /se?
  113. Disallow: /gzh?
  114. Disallow: /gzhwap?
  115. Disallow: /weixin?
  116. Disallow: /weixinwap?
  117. Disallow: /websearch.do
  118. Disallow: /websearch/websearch.do
  119. Disallow: /zhishi/searchlist.jsp
  120. Disallow: /express/sq.jsp

  121. User-agent: Googlebot
  122. Disallow: /sogou?
  123. Disallow: /web?
  124. Disallow: /sohu?
  125. Disallow: /quan?
  126. Disallow: /sgtest?
  127. Disallow: /se?
  128. Disallow: /gzh?
  129. Disallow: /gzhwap?
  130. Disallow: /weixin?
  131. Disallow: /weixinwap?
  132. Disallow: /websearch.do
  133. Disallow: /websearch/websearch.do
  134. Disallow: /zhishi/searchlist.jsp
  135. Disallow: /express/sq.jsp

  136. User-agent: MSNBot
  137. Disallow: /sogou?
  138. Disallow: /web?
  139. Disallow: /sohu?
  140. Disallow: /quan?
  141. Disallow: /sgtest?
  142. Disallow: /se?
  143. Disallow: /gzh?
  144. Disallow: /gzhwap?
  145. Disallow: /weixin?
  146. Disallow: /weixinwap?
  147. Disallow: /websearch.do
  148. Disallow: /websearch/websearch.do
  149. Disallow: /zhishi/searchlist.jsp
  150. Disallow: /express/sq.jsp

  151. User-agent: Baiduspider
  152. Disallow: /sogou?
  153. Disallow: /web?
  154. Disallow: /sohu?
  155. Disallow: /quan?
  156. Disallow: /sgtest?
  157. Disallow: /se?
  158. Disallow: /gzh?
  159. Disallow: /gzhwap?
  160. Disallow: /weixin?
  161. Disallow: /weixinwap?
  162. Disallow: /websearch.do
  163. Disallow: /websearch/websearch.do
  164. Disallow: /zhishi/searchlist.jsp
  165. Disallow: /express/sq.jsp

  166. User-agent: 360spider
  167. Disallow: /sogou?
  168. Disallow: /web?
  169. Disallow: /sohu?
  170. Disallow: /quan?
  171. Disallow: /sgtest?
  172. Disallow: /se?
  173. Disallow: /gzh?
  174. Disallow: /gzhwap?
  175. Disallow: /weixin?
  176. Disallow: /weixinwap?
  177. Disallow: /websearch.do
  178. Disallow: /websearch/websearch.do
  179. Disallow: /zhishi/searchlist.jsp
  180. Disallow: /express/sq.jsp

  181. User-agent: Baiduspider-image
  182. Disallow: /sogou?
  183. Disallow: /web?
  184. Disallow: /sohu?
  185. Disallow: /quan?
  186. Disallow: /sgtest?
  187. Disallow: /se?
  188. Disallow: /gzh?
  189. Disallow: /gzhwap?
  190. Disallow: /weixin?
  191. Disallow: /weixinwap?
  192. Disallow: /websearch.do
  193. Disallow: /websearch/websearch.do
  194. Disallow: /zhishi/searchlist.jsp
  195. Disallow: /express/sq.jsp

  196. User-agent: YoudaoBot
  197. Disallow: /sogou?
  198. Disallow: /web?
  199. Disallow: /sohu?
  200. Disallow: /quan?
  201. Disallow: /sgtest?
  202. Disallow: /se?
  203. Disallow: /gzh?
  204. Disallow: /gzhwap?
  205. Disallow: /weixin?
  206. Disallow: /weixinwap?
  207. Disallow: /websearch.do
  208. Disallow: /websearch/websearch.do
  209. Disallow: /zhishi/searchlist.jsp
  210. Disallow: /express/sq.jsp

  211. User-agent: *
  212. Disallow: /
復制代碼


很顯然,搜狗針對各個搜索引擎,對搜索結果頁面進行了屏蔽處理。其中“/sogou?”、“/web?”等路徑均是結果頁面的路徑,那么,會不會有這樣一種情況?搜狗存在其他的搜索結果頁面路徑,但是在robots.txt中卻沒有申明屏蔽?為了驗證這一猜想,我們到百度中搜索搜狗。

我們可以看到其中“/sie?”、“/sgo?”均為搜狗搜索結果頁面的路徑,但是在robots.txt文件中卻沒有被申明屏蔽!即是說這樣路徑的頁面時允許被搜索引擎收錄,如果這樣的頁面的搜索結果全部都是自己的網站呢?那么就實現了讓搜索引擎給自己網站做外鏈的效果!

那么問題來了?如果讓搜索結果全部都是自己的站點呢?很自然地就會想到站內搜索!具體尋找站內搜索參數的方式請自行搜索相關資料,此處直接說明結果:搜狗的站內搜索參數為insite,那么組裝成這樣一個網址:

http://www.sogou.com/sgo?query=SEO&insite=smarted.cn

這個網址時可被收錄的、這個頁面的所有搜索結果均是指定網站的,將類似的網址在互聯網上進行傳播,蜘蛛爬行到之后最終會入庫建立索引,最后達到了我們的目的:讓搜索引擎給自己的網站鏈接。

寫在最后

這種方法的時效性不高,很多人都使用之后就會被修復。之所以要將原理清楚地描述出來,是為了描述黑帽方法的發現過程。黑帽并不是簡單地做什么站群、群發外鏈什么的,更多的是利用搜索引擎本身的漏洞來進行優化。本文僅僅是示例了一個非常簡單的黑帽方法發現過程,更多大神都非常低調,其發現的方法也并未在互聯網上傳播。本文僅僅是為了讓大家更了解黑帽,并非鼓勵大家使用黑帽的方式來進行網站優化,不僅傷害用戶也為互聯網帶來了更多污染。我希望大家更多地去考慮用戶體驗,去配合搜索引擎,同樣能夠達到最終目的。

微網絡學前班

微幣
20
沙發
發表于 2015-1-9 08:09:54 | 只看該作者
zz
回復

使用道具 舉報

微網絡學前班

微幣
7
板凳
發表于 2015-2-8 15:14:15 來自手機 | 只看該作者
謝謝樓主分享!下載看看效果怎么樣
您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則