CsQuery——比HtmlAgilityPack更好用的网页解析库
作者:V君 发布于:2016-1-31 5:58 Sunday 分类:折腾手记
之前写爬虫总是用HtmlAgilityPack来解析HTML,当坐骑来用.
直到室友L同学推荐用这货之后,发现自己还在用那么落伍的东西,整个人都不好了, 果断换坐骑.
这货不仅能解析HTML, 还能操作内容之后再吐出来,模板引擎啊这是! (貌似还可以嵌入到MVC...
尽管HtmlAgilityPack也能操作内容,并且再吐出来. 但是两者用法差别到上天下地.
废话不多说直接上代码比较!
■装载HTML和初始化导航器
老掉牙的HtmlAgilityPack要三行代码才能完成
var doc = new HtmlDocument();
doc.LoadHtml(html);
var nav (HtmlNodeNavigator)doc.CreateNavigator();
用CsQuery的话只需要一行代码就可以了!
CQ doc = html;
这货可以通过隐式转换直接把字符串装入! 并且对象本身就是导航器!
(说到CQ,就想起黑羽宁子CQCQ召唤骇客大神小霞啊魂淡!)
■查询元素并取出内容文本
老掉牙的HtmlAgilityPack要XPATH,并且取出内容并不方便
nav.Select("*//span[@id='entryName']/text()")
.Cast<XPathItem>()
.Select(p => p.Value)
.FirstOrDefault();
然而CsQuery跟JQuery一样的选择器语法,在我大井里面写成索引器
doc["span#entryName"].Text();
■查询元素并取出属性值
老掉牙的HtmlAgilityPack尽管用一个表达式一次调用就能打到底,但是接收返回值还是蛋疼了点
nav.Select("*//a[@id='entryLink']/@href")
.Cast<XPathItem>()
.Select(p => p.Value)
.FirstOrDefault();
用CsQuery分两次调用取到值,但比起上面的代码简洁到爆,有木有
q["a#entryLink"].Attr("href")
碉堡了有木有,咱之前是很讨厌JQuery的,特别是稍稍熟悉就以为自己掉渣天的家伙们
于是自己的东西一直写着原生JS,当然,工作方面的还是该咋滴咋滴,要求用啥就用啥
好啦,现在,就连我大井也有JQuery的移植版了,美其名曰 CsQuery
还有更复杂的用法,但这两个示例足以体现代码差异.
~EOF
评论:
blogger
Google Web Translator
热门日志
随机日志
最新日志
最新评论
- V君
@Quartz:(出现)... - Quartz
怎么不见人了呢... - V君
@Soar:DHCP 协议相... - V君
@Soar:当然是非... - Soar
@V君:谢谢 有空... - Soar
搞一个 1230v3+B85... - V君
@Soar:另外,也可... - V君
@Soar:iscsi服务端... - Soar
难怪这么卡,尤其... - Soar
clone了源码,提示...
分类
存档
- 2024年5月(1)
- 2023年7月(1)
- 2023年5月(1)
- 2022年11月(1)
- 2022年10月(1)
- 2022年9月(1)
- 2022年8月(1)
- 2022年7月(1)
- 2022年6月(1)
- 2022年5月(2)
- 2022年4月(1)
- 2022年3月(1)
- 2022年2月(1)
- 2022年1月(1)
- 2021年12月(1)
- 2021年11月(1)
- 2021年10月(1)
- 2021年9月(1)
- 2021年8月(1)
- 2021年7月(1)
- 2021年6月(1)
- 2021年5月(1)
- 2021年4月(1)
- 2021年3月(1)
- 2021年2月(1)
- 2021年1月(1)
- 2020年12月(1)
- 2020年11月(1)
- 2020年10月(2)
- 2020年9月(1)
- 2020年8月(1)
- 2020年7月(1)
- 2020年6月(1)
- 2020年5月(1)
- 2020年4月(2)
- 2020年3月(3)
- 2020年2月(1)
- 2020年1月(1)
- 2019年12月(1)
- 2019年11月(1)
- 2019年10月(1)
- 2019年9月(1)
- 2019年8月(2)
- 2019年7月(1)
- 2019年6月(1)
- 2019年5月(1)
- 2019年4月(1)
- 2019年3月(1)
- 2019年2月(1)
- 2019年1月(2)
- 2018年12月(2)
- 2018年11月(1)
- 2018年10月(3)
- 2018年9月(4)
- 2018年8月(6)
- 2018年7月(4)
- 2018年6月(1)
- 2018年5月(2)
- 2018年4月(2)
- 2018年3月(3)
- 2018年2月(1)
- 2018年1月(1)
- 2017年12月(1)
- 2017年10月(2)
- 2017年9月(1)
- 2017年8月(2)
- 2017年7月(1)
- 2017年6月(5)
- 2017年5月(2)
- 2017年4月(2)
- 2017年3月(3)
- 2017年2月(2)
- 2017年1月(2)
- 2016年12月(3)
- 2016年11月(2)
- 2016年10月(3)
- 2016年9月(4)
- 2016年8月(2)
- 2016年7月(4)
- 2016年6月(3)
- 2016年5月(1)
- 2016年4月(4)
- 2016年3月(3)
- 2016年2月(1)
- 2016年1月(5)
- 2015年12月(4)
- 2015年11月(5)
- 2015年10月(1)
- 2015年9月(6)
- 2015年8月(4)
- 2015年7月(1)
- 2015年6月(6)
- 2015年5月(3)
- 2015年4月(3)
- 2015年3月(2)
- 2015年2月(1)
- 2015年1月(3)
- 2014年12月(1)
- 2014年11月(1)
- 2014年10月(1)
- 2014年9月(3)
- 2014年8月(1)
- 2014年7月(1)
- 2014年6月(1)
- 2014年5月(3)
- 2014年4月(1)
- 2014年3月(1)
- 2014年2月(2)
- 2014年1月(1)
- 2013年12月(2)
- 2013年11月(2)
- 2013年10月(1)
- 2013年9月(3)
- 2013年8月(14)
- 2013年7月(7)
- 2013年4月(1)
- 2013年3月(4)
- 2013年2月(6)
- 2013年1月(6)
- 2012年12月(8)
- 2012年11月(6)
2016-06-07 11:22