貢獻自我於宇宙的精神: Crawler 初探

最近因為課程的關係，所以開始學如何爬網頁資料，由於是這方面的新手，所以碰到了不少問題，記錄一下，之後也可以參考。

使用的工具:

1. node.js

2. cheerio.js

3. request.js

Error: UNABLE_TO_VERIFY_LEAF_SIGNATURE 問題

由於使用的是nodejs平台，他所使用的SSL是openssl，所以可能跟目標網站的不太一樣

解決方式:

在程式碼中加入

process.env['NODE_TLS_REJECT_UNAUTHORIZED'] = '0';

就可以了 :)

原理:

//Avoids DEPTH_ZERO_SELF_SIGNED_CERT error for self-signed certs

非同步&&同步問題

同步是JS的特性，然而對於之前都習慣撰寫C++的我來說，一開始真的很不習慣

(現在也還在習慣中...)，但是如果真的有非同步的需求，可以使用Async.js詳細的使用方法可以參考作者的README.md，他寫得蠻清楚的。
也可以參考我寫的:

async.series([
  function(callback){
    setTimeout(function(){
      
      //do something

      callback();
    },3000);
  },
  function(callback){
    setTimeout(function(){

      //do something

      callback();
    },0);
  }
],function(err,re){
  if(err){console.log("Error: " + err);}
});

form my github

貢獻自我於宇宙的精神

2014年5月30日星期五

Crawler 初探

使用的工具:

Error: UNABLE_TO_VERIFY_LEAF_SIGNATURE 問題

解決方式:

原理:

非同步&&同步問題

沒有留言:

張貼留言

Chiu 的文章

2014年5月30日 星期五

Crawler 初探

使用的工具:

Error: UNABLE_TO_VERIFY_LEAF_SIGNATURE 問題

解決方式:

原理:

非同步&&同步問題

沒有留言:

張貼留言

2014年5月30日星期五