Pyhon+lxml+xpath快速实现网页爬虫（比BeautifulSoup好用）

2019年9月26日

| 未分类

背景最近因为工作需要写爬虫，以前用过BeautifulSoup，所以很自然的无脑上BeautifulSoup了，不过使用过程中发现BeautifulSoup有一个致命的缺陷，就是不能支持XPath。XPath可以快速在结构化的文档（如XML，HTML）中查……

阅读全文

使用lxml.etree解析中文网页时出现乱码问题的解决办法

2019年9月23日

| 未分类

吐槽不得不说网络这个东西害死人，一群只会复制粘贴的瓜皮儿。没一点有用的答案，还要写的像模像样装x 这个问题折腾了一个晚上，晚上找了各种方案，都是相互抄，然而都不能解决问题，找的过程中看到一个博主发出了这样的感慨，真的深表赞同啊，鱼目混杂的内容太多了。 lxml.etree.tostring 乱码的……

阅读全文

书签 of 技术文章

2018年8月2日

| 未分类

HDFS Hadoop核心之HDFS 架构设计 Hbase HBase and MapR-DB: Designed for Distribution, Scale, and Speed An In-Depth Look at the HBase Architecture IBM：HBase 深入浅出 Yarn IBM: YARN 简介 Yarn 架构 Hadoop MapReduce Hadoop MapReduce 的map、reduce分别是什么意思 Spark Cloudera: Apache Spark Resource Management and YARN App Models Spark中foreachPartition和mapPartitions的区别 Git……

阅读全文

分类未分类中的文章

Pyhon+lxml+xpath快速实现网页爬虫（比BeautifulSoup好用）

使用lxml.etree解析中文网页时出现乱码问题的解决办法

书签 of 技术文章

订阅

分类

最近文章

标签

分类 未分类 中的文章

订阅

分类

最近文章

标签

分类未分类中的文章