想了好多办法能让爬虫数据保存省心省事,考虑到item本身就是字典结构,所以我研究了下利用pandas中将itme字典创建成dataframe数据表,一旦能把爬虫数据保存进pandas,那么保存生什么csv、xls等格式就变得简单了
感觉很好用就写下来了,其中关于字典为元素的列表形式非常关键!
import pandas as pd
1、利用嵌套列表形式生产数据表
pd.DataFrame([[1,1,1],[2,2,2]])
0 | 1 | 2 | |
---|---|---|---|
0 | 1 | 1 | 1 |
1 | 2 | 2 | 2 |
2、利用字典嵌套列表形式创建数据表
pd.DataFrame({'a':[1,1,1],'b':[2,2,2]})
a | b | |
---|---|---|
0 | 1 | 2 |
1 | 1 | 2 |
2 | 1 | 2 |
3、利用列表嵌套字典形式创建数据表,关键是列表里元素是字典!!
df = pd.DataFrame([{'a':1,'b':1},{'a':2,'b':2}])
df
a | b | |
---|---|---|
0 | 1 | 1 |
1 | 2 | 2 |
item = {'b':3,"a":3}
df.append([item])
a | b | |
---|---|---|
0 | 1 | 1 |
1 | 2 | 2 |
0 | 3 | 3 |
若在scrapy的pipeline中把item一个一个都装进dataframe里,剩下的事情变得美妙多了,毕竟pandas导出各种格式的数据表实在so easy
好了有了这个基础,下一篇我会实际测试一下效果如何
声明:本人原创文章,未经同意严禁转载