使用下划线和 nodejs 从请求正文 url 中过滤掉 div

filter out divs from body of request url using underscore and nodejs

我需要从 url 中过滤掉 return 数据。此数据在 html 中,我只需要具有特定 ID 或 class 的特定 div,而不是全部。我正在使用节点模块 "request" 向 url 发出请求并尝试使用下划线模块来过滤掉不需要的 div 或标签。我不确定我是否采取了正确的方法。这是我的代码。任何帮助将不胜感激。提前谢谢你。

var request = require('request');
var _ = require('underscore');


module.exports = function(website, provinceName, cityName){
    return new Promise(function (resolve, reject){
        var encodedCity = encodeURIComponent(cityName);
        var encodedProvince = encodeURIComponent(provinceName);

        var url = website  + provinceName + '/' + cityName;

        // make a request to the url and get the data back
        if(url){
            request({
                url: url
            }, function(error, response, body){
                if(error){
                    reject('Unable to fetch the lawyers' + error);
                }else{
                    // filter out all the data that does not have class=classname or id=idName 
                    var html = _.pick(body, '.classname', 'myidname');
                    //then loop over and only send back the ones with class=classname or id=idName
                    _.each(html, function(){
});
                    resolve(html);
                }
            });
        }else{
            reject();
        }


    });
};

要仅从 HTML 元素及其子元素(没有标签但包括​​ CDATA)获取文本,您可以尝试 textContent 属性。看看它是如何工作的 here.