最新版本:使用C# CefSharp Python采集某网站简历并且自动发送

优采云 发布时间: 2022-12-24 22:21

  最新版本:使用C# CefSharp Python采集某网站简历并且自动发送

  前言 过去对爬虫的研究不多。 最近需要采集某网站的敏感信息。 稍微考虑一下,我决定用C#Winform和Python来解决这个事件。整个解决方案并不复杂:C#写WinForm窗体,执行

  前言

  过去我没有对爬虫做过太多研究。 最近,我有一个需要从某个网站采集敏感信息。 稍微考虑一下,我决定用C#Winform和Python来解决这个事件。

  整个解决方案并不复杂:C#编写WinForm窗体进行数据分析和采集。 一开始不想用Python,后来找不到C#下Woff字体转Xml的方案。 网上有很多Python的,所以我加了一个Python工程,虽然只有一个脚本。

  1.几个步骤:

  首先,您需要模拟登录。 登录后进入简历采集,然后模拟下载。 下载完成后,可以看到求职者的电话号码。

  此电话号码使用动态生成的 Base64 字体,因此无法直接提取文本。

  1、先把Base64转成Woff字体,用C#就可以完成(iso-8859-1编码是个坑,一般用Default会有惊喜):

  

SetMainStatus("正在生成WOFF...");

byte[] fontBytes = Convert.FromBase64String(CurFont);

string fontStr = Encoding.GetEncoding("iso-8859-1").GetString(fontBytes).TrimEnd('\0');

StreamWriter sw2 = new StreamWriter(@"R58.woff", false, Encoding.GetEncoding("iso-8859-1"));

sw2.Write(fontStr);

sw2.Close();

  

  2.然后将生成的Woff转成XML(WoffDec.exe是我用Python打包的一个Exe,其实有点小题大做,我专门为这个转换做了一个包,有时间的话还是用下面的整个 C#)

  

//调用python exe 生成xml文件

ProcessStartInfo info = new ProcessStartInfo

{

FileName = "WoffDec.exe",

WindowStyle = ProcessWindowStyle.Hidden

};

Process.Start(info).WaitForExit(2000);//在2秒内等待返回

  整个 WoffDec.py 的代码只有 3 行:

  

from fontTools.ttLib import TTFont

font = TTFont('R12.woff')

font.saveXML('R12.xml')

  这个包装有点意思。 我先尝试了py2exe,但是没有成功。 我改成pyinstaller,成功了。 连EXE也有11M,不算大。

  下载或者下载到本地,或者在VS2017 Python环境中搜索PyInstaller直接安装。

  右键单击并使用“在此处打开命令提示符”; 输入pyinstaller /path/to/yourscript.py 打包成exe文件。 当 Winform 应用程序调用时,应复制整个文件夹。

  

  3、XML文件有了之后,准备根据上面的Woff文件存为数据字典(这个地方有点乱,先找个网站把Woff显示成文字和代码,然后在里面搜索它的字体XML根据代码定位点,我取X和Y组成一个唯一值(X,Y代表一个词),当然你也可以取更多;

  

internal static readonly Dictionary DicChar = new Dictionary()

{

{"91,744","0" },

{"570,0","1"},

{"853,1143","2" },

{"143,259","3" },

。。。。。。

};

  4.以上步骤需要一些时间。 基准词典可用后,您可以根据每次生成的XML文件匹配真实文本。

  5、很容易把真文拿出来,直接采集到数据库,然后连接短信发送服务,就可以自动分组发送了。

  2.使用场景

  下班后开启采集服务后,就不用再操心了。 系统会定时自动下载简历并自动推送面试邀请短信。 新人只要发布相应的求职信息,系统就会立即向他发出邀请,真是抢人利器。

  BTW:网页模拟运行使用的CEFSharp另开一章。

  总结

  以上就是文章的全部内容。 希望本文的内容对您的学习或工作有一定的参考价值。 感谢您对易盾网络的支持。

  汇总:新浪滚动新闻的json数据获取页面

  

  新浪新闻采集程序天语版本更新日志:v1.21,修复首页和文章页错误! 新浪滚动新闻采集程序天语版介绍 新浪新闻采集程序天语版是用php开发的,可以自动采集新浪新闻。 占用空间小,建站成本低。 无需等待,即刻拥有海量网站数据; 免更新免维护,易管理,易操作,实现全站后台管理自动采集; 实现内容页面URL路径伪静态功能,让各大搜索引擎的收录更加友好; 新浪滚动新闻采集程序天语版特点: 1.关键词内链VIP2。 内容过滤VIP3。 伪原创词汇VIP4。 模板独立性(支持自己写模板) 5.支持自定义路径伪静态(更好的搜索引擎亲和力)【无组件支持伪静态】 6.增加强大的缓存功能(大大减少UPU资源占用) 7.增加蜘蛛访问记录(实时查看各大搜索引擎蜘蛛对网站的抓取动态) 8.增加免费评论功能 9.增加手机版VIP(自动识别手机和PC访问切换) 10.自动采集百度搜索相关关键词(非常有利于SEO)后台登录admin/账号密码为admin upload 后请及时更改后台登录路径(重命名admin文件夹)。 请期待后续更新。 . .广告不是一成不变的。 客户也可以直接在模板中添加广告代码。 模板位置:/ 采集 /default/带m的为移动版新浪滚动新闻采集程序天宇版首页模板admin/账号密码均为admin后台页面相关阅读同类推荐:站长常用源码

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线