关键字采集文章(为什么选择博客?而不是选择微博?Twitter?(图))
优采云 发布时间: 2022-01-13 23:03关键字采集文章(为什么选择博客?而不是选择微博?Twitter?(图))
文章会很长,因为不仅要体现加工过程和结果,还要体现思维过程。
关键词:青年安全圈、开放知识分享者和活动家。
因为年长的高手受到工作、事业、家庭、孩子等的限制,很少经常更新技术文章分享知识。
初衷:充实自己
最近看的一句话文章触动了我,“不要太专注于你工作的小领域,你要有全球视野,尤其是你的上下游”,我仔细想了想,有确实有些道理。自己的小领域可以看成一个点,上下游是线,大局是一个面,也就是“点-线-面”体系,在以后的职业发展中,一定要从点出发-> Line->surface,既然学早了,积累早了,以后发展的过程中可以领先别人一步,所以打算扩充一下自己的知识库。
我平时学习的安全知识的数据源主要来自微信系列和知乎系列。逐渐感受到日常生活中人身安全阅读资源的不足和局限。它需要从新的数据源中补充。同时,看看其他安全从业者。你在干什么。
权衡之后,我选择人作为切入点,更具体地说,选择博客作为切入点。为什么选择博客?而不是选择微博?推特?GitHub?
安全技术博客的优势在于:博客内容比推特更完整、更详细,阅读和吸收知识的门槛更低;博客可以在一定程度上描述博主,因为博客内容中收录了很多博主的个人公开信息,比如Github、Twitter、知乎、邮箱、你所属的安全团队、你毕业的院校、你所在的公司在等;博客内容广泛传播,便于分享和传播知识;博客内容可以体现博主的主要研究方向,可以重点学习。
安全技术博客的缺点是:信息滞后,Twitter和各大公司警告为王。所以总的来说,博客更注重知识的分享和吸收,而其他社交方式更注重知识的传播。
后来在不断阅读的过程中,觉得单凭乐乐还不如乐乐。我可以向外界输出什么?这具有连续性的目的。
持续的目的:方便他人
以人为核心,系统采集博客、Github、当前主要研究方向、安全机构、学校、公司、RSS、知乎、微博、Email等公共信息,缩小安全圈范围,达到信息检索的目的。目的是通过关键词进行搜索,方便找人,减少人与人之间的沟通障碍。比如通过大学关键词,可以通过网络ID快速找到校友和博主;达到学习安全内容的目的,如从主要研究方向出发,关注不同方向的活跃博主,补充阅读资源,紧跟安全前沿;实现数据分析的目的是挖掘人与人之间的社交网络,
数据采集
集中思考从哪里挑选?怎么选?如何保证数据的准确性和及时性?潜在问题?
采集的起点应该选择安全人员/安全组织/安全门户等具有一定影响力和广泛辐射的站点,安全门户如sec-wiki上的安全URL聚合,并亲自测试大量数据及时发现性不好(及时性也为后续工作埋了个坑),都是老数据,无法访问。最终,L Team 被选为起点采集,原因有三。一是L在青少年安全圈内比较有名,二是L Team代代相传,队员们工作了好几年,冷夜大师和P大师,一直到现在的大二、大三、大四,他们拥有广泛的年龄和技术覆盖面,许多成员是安全圈中活跃的技术领导者。第三,团队成员多,可用采集 起点多。
那么 采集 呢?编写爬虫自动爬取?不太现实有几个原因:1、如果是几个站点,可以写一个爬虫爬取站点结构的数据,已经被碳矩阵的高手实现和分析过了。看安全领域的变化》;2、相比碳矩阵大师的安全趋势分析,本文以人为本,需要精细化数据和处理。预期的数据格式为
笔者在跟着学习的,笔者觉得不错推荐的,索引ID,网络ID,活跃的博客链接,个人(1)/团队(2)/公司(3)博客,友情链接的索引ID,Github地址,微博地址,主要研究领域,所属安全团队,所属高校/公司,技能标签(PHP?Python?Java),人物标签(摄影?*敏*感*词*?文艺),RSS订阅地址,推特地址,知乎地址,邮箱地址,*敏*感*词*(QQ?微信?),著名开源项目
难道只有google能自动、准确、及时的抓取到这些吗?回想作者的初衷其实是阅读和吸收安全知识,何不“人工智能”一边进行“深度学习”和广度学习,阅读和吸收,同时采集期待信息,这也保证数据的准确性和时间性。
当笔者花了将近一个月的时间浏览了 500+ 安全博客,筛选出 450 条优质且当前活跃的博客时,笔者发现自己脑中的所有知识都泛滥成灾。不了解二进制安全的人现在知道一些常见的操作。没有跟进最新漏洞的人也知道最近哪些漏洞最流行。他们对青少年安保圈的整体水平也有一个肤浅的认识。
主要有两个问题:一是受限于采集策略(采集起点、判断是否为主动安全技术博客的策略等)和不可控因素(网站在墙内墙外可访问状态、网速、域名ip变化等),采集的最终数据一定是部分数据,不是全部,就像P先生一样指出,“数据是最新的,但可能就像美国大选的民调一样,几乎所有你投票的人都会接受采访,导致很多人被忽视,得出相反的结论。” 其次,如果不能自动爬取,未来数据的时效性就无法保证。
数据分析
首先,分析安全人员的个人属性,如网络ID、Blog SSL、CTF和主要研究方向。
根据现有数据可以发现,大约 90% 的安全人员习惯使用少于 10 个字符的网络 ID
同时,大约三分之一的安全人员的网络ID经常使用字母和数字的组合
笔者有一个直观的感觉,很多CTF大佬的ID都是字母和数字的组合,那么字母和数字的组合是CTF的标志吗?
可以看出是五到五,不是很明显的标志。
在采集数据的过程中,发现很多高手使用的是HTTPS(专业)。据统计,63.5%的master使用HTTPS。在没有转HTTPS的高手中,发现有42%是玩CTF的高手分析,大部分还是本科生。
此外,44.4%热爱知识记录、分享和传播的安全人员玩过CTF。看来CTF可能已经成为年轻一代安全人员的必修课了,CTF玩家在博客技术方面比较活跃文章(补QaQ)。当然,也有可能是数据本身的问题。如前所述,爬取的数据可能被抓到某个部分,不能代表整体。
根据我个人的理解,笔者在阅读博客文章时标记了博主的主要安全研究方向,并分析了当前年轻一代安全人员的研究方向分布。这里列出了一些数据。
可以看出,当前一代安全博主的研究方向主要集中在CTF、Web安全、安全研究、漏洞分析、代码审计等应用安全方向,并做逆向工程、PWN、安全开发、企业安全建设、机器学习等方向。青年保安人员的数量相对较少。
然后分析安全人员的组织结构,比如:博客链接、安全团队、学院。
从博客友情链接关系看安全人员的结构,以入度作为标签大小的衡量标准,发现Master P简直就是一个黑洞。可以得到:Master P太棒了(破音),同时发现在博客频道中,年轻一代最有影响力的安全技术公众分享者可能是Master P。
有几个可能的原因:首先,如果没有选择L Team作为采集的起点,毕竟L Team和Master P关系密切,如果选择其他安全站点作为起点,将会结果是一样的吗?猜猜,如果你用另一个入口作为采集的起点,那你很有可能还是会被P大师的黑洞吸引?!除非有更大的黑洞?二是有很多大师的博客没有链接或者在默默发展。比如rr大师,你能说rr不开放,没有影响吗?显然不能。安全圈里谁不知道rr(rrtql)。又如天才devil7高手。好像博客挂了,但是明显反映不出来。
从保安人员所属大学的保安人员结构来看,近30%的正面保安人员在博客中注明了他们所在的大学。主要有西安电子科技大学、成都信息工程大学、电子科技大学、杭州电子科技大学、厦门大学、武汉大学、山东科技大学、南京邮电大学、北京大学邮电、东南大学等等,可见都是非常有实力的高校。这是否意味着年轻一代在一定程度上进入了高等教育的深水区?!
看看大学聚类的结果
可以看出,虽然起点来自西安电子科技大学L队,但还是被成都信息工程大学的大黑洞所吸引。诚心厉害,学习网络安全,欢迎申请成都信息工程大学。
带上学院标签,看看安全博主和博友链的关系:
西电大师为P大师和冷叶大师,诚信大学三大研究员,柠檬大师、番茄大师、AppLeU0大师、航电大师veritas501、电子科技大学Cyru1s打通了西电之间的安全连接两所学校,山科大p0desta 以p0 po带头,厦大chybeta遇到了城店*敏*感*词*(xmsl)等,他们之间的关系错综复杂,很多出乎意料,但在情理之中。这部分能给出的有价值的信息是:关注这些骨干节点博主的博文,向高手学习!!
从安全组织的角度来看,r3kapig、Nu1L、XDSEC、Sysclover这四大组织都有大量的活跃人员。
最后,从Github、RSS等安全人员的结果角度分析数据。
不仅可以从博主的博客内容中学到很多安全知识,博主的Github上也有很多有趣的项目。根据这些高手的Github地址,作者采集整理了一批三星以上的优质产品。项目资源,我称之为 Github && Big Security。Github安全相关项目主要分为知识和工具两大类。内网穿透知识库、Web安全知识库、企业安全建设工具合集、小方向的单一安全工具等,有很多大师总结过。Github && Big Security 旨在成为优质安全项目的大索引。
对于博主博客的RSS,我们也可以做很多有趣的事情。我们可以集中导入RSS阅读器,也可以有针对性地导入,比如根据研究方向/安全团队/院校选择RSS数据,导入阅读器。研究方向不仅是Web安全的大方向,作者还做了细化处理,标志着Java代码审计、安全开发、领域渗透、物联网安全、Windows安全、区块链安全等细分和小众方向。
继续创造价值
一是一次拓展了自己的视野和知识库,以人为核心,了解年轻的安全从业者及其安全研究工作。
其次,我选择了24个适合我现阶段和未来补充学习的安全博客,对自己的学习进行规划和指导。
三是精心挑选了36位更新频率高、质量好的安全博主和博客,持续关注。这些博主都是各个方向的代表大师,渗透测试和漏洞分析。、入侵检测、CTF、reverse、PWN、代码审计、无线安全、web安全、主机安全和安全研究方向,虽然可能和这些博主不在一个方向,但是记得文章在开始?不仅要专注于自己的领域,还要有全球视野。已标有星域。
最后给出一个高价值的原创数据,读者可以利用这批数据做很多有趣的事情,比如信息检索、内容学习、数据分析等。
为了在移动端随时查看数据,我做了一个小程序供自己使用。比如在安全组中看到一个ID,就可以检索信息,提高效率。
参考
原文来源于微信公众号(404 Not F0und):我分析了2018-2020年青年安全圈450位活跃的技术博主和博主