网页flash文本抓取器(爬取到的博文没有添加了作者博客名字以及这篇博文的地址)
优采云 发布时间: 2021-09-19 15:23网页flash文本抓取器(爬取到的博文没有添加了作者博客名字以及这篇博文的地址)
下载地址(无需积分)
一些网民表示,被爬网的博客没有关于这位博主的任何信息。今天,我更新了代码,并将作者的博客名和该博客的地址添加到每个已爬网的博客中。详见下图
在使用CSDN博客很长一段时间后,我发现有很多好的文章,但是一个一个的复制和粘贴总是很麻烦。因此,我花了一天半的时间构建了一个CSDN博客提取器,它可以爬升CSDN博客指定用户的所有文章列表,选择相关的文章进行下载、下载和保存,并支持PDF、DOC和TXT格式。保存的PDF和DOC文件支持图片,txt文件为纯文本格式。软件需要运行jdk1.5或以上
这个程序是用Java编写的,需要运行JDK1.5或以上,无需安装。通过分析CSDN编程
客户源代码生成一些必要的数据,这些数据在将来使用时可能无法爬网。它可能是CSDN的源代码
结构已经修改。这个项目只是为了学习。严禁出于非法目的超载CSDN服务器
由于PDF的生成依赖于字体库,因此在打包程序时,程序中加入了一些必要的字体库
对。生成某些PDF文件时,可能会出现代码混乱的问题。这是因为缺少所需的词库。例如,出现了这个问题
有问题,请联系我:wyphao2007@163com
字体文件夹是生成PDF文件的字体库。如果生成的PDF文件被篡改,则表示缺少相关字体
####################################################
程序功能:
1、support为目标下载输入CSDN博客用户名
2、支持选择和保存下载的文件
保存的结构目录为:
选择的保存路径\CSDN用户名\img用户化身的保存路径
选择的保存路径\CSDN用户名\PDF生成的PDF文件保存路径
所选保存路径\CSDN用户名\doc生成的doc文件保存路径
所选保存路径\CSDN用户名\TXT生成的TXT文件保存路径
3、支持获取用户博客信息
4、支持显示用户所有帖子的列表
5、你可以自己选择要下载的帖子。有选择全部、取消选择和重置等按钮
6、支持以PDF、DOC和TXT格式保存下载的文件
7、生成的PDF和文档文件支持图片
8、支持进度显示
####################################################
生产时间:2012年7月17日-2012年7月18日
制造者:w397090770
个人博客:
电邮: