2014年5月30日 星期五

Crawler 初探


最近因為課程的關係,所以開始學如何爬網頁資料,由於是這方面的新手,所以碰到了不少問題,記錄一下,之後也可以參考。


使用的工具:



 Error: UNABLE_TO_VERIFY_LEAF_SIGNATURE 問題

由於使用的是nodejs平台,他所使用的SSL是openssl,所以可能跟目標網站的不太一樣

解決方式:

在程式碼中加入
process.env['NODE_TLS_REJECT_UNAUTHORIZED'] = '0';
就可以了 :)

原理:

//Avoids DEPTH_ZERO_SELF_SIGNED_CERT error for self-signed certs



非同步&&同步問題

同步是JS的特性,然而對於之前都習慣撰寫C++的我來說,一開始真的很不習慣
(現在也還在習慣中...),但是如果真的有非同步的需求,可以使用Async.js詳細的使用方法可以參考作者的README.md,他寫得蠻清楚的。
也可以參考我寫的:
async.series([
  function(callback){
    setTimeout(function(){
      
      //do something

      callback();
    },3000);
  },
  function(callback){
    setTimeout(function(){

      //do something

      callback();
    },0);
  }
],function(err,re){
  if(err){console.log("Error: " + err);}
});
form my github


沒有留言:

張貼留言