2017,那些出现在日记中之人:简单的公文挖掘

一、前言

归根到底做出这张图不时,我突然有点感慨,这虽是2017年自己的日志被干过或者记录了之一个私房名,当然为免引起不必要之辛苦,隐去了累累骨肉朋友的名。想到一辈子游说长呢助长,说少的言辞,几十张词云图为就算包括了那些口以及从。曾经朝夕相处、相识相知的口,或许早就渐行渐远矣,二三老友谈起故人往事才发现好活想不起某某同学姓甚名谁,遗忘总是有在潜意识之中,有时候连友好尚且不亮究竟忘记了啊。

图片 1

孩提、少年、青年时期的人数及从,忘却了连续难免,然而当下之同样满寒暑里同时何尝不是“事如春梦了无痕”呢?2018年就仙逝了相同周到,很多人口该总结、该追思2017年的推论也都总结回顾了,没有下结论习惯的即使此起彼伏过好初的平等年。往常也从没写年末总结的自身,或许是听许飞《父亲写的散文诗》听得“热泪盈眶”,“这是自身父亲
/ 日记里之仿 / 这是他的身 留下 /
留下来的散文诗”,这几乎句词被自己想开多年自此要我之儿女去询问自我的过去,虽然尚未什么散文诗可言,但也盼借着回溯之际能够总结与留住点啊……

胡言乱语了多,其实打算研究日记里出现的真名,也是盖想学学及运有的文件分析和打的法子,根据看了的篇章来执行操作下,而日记是现成的语料库,也是极其熟悉不了的文件,因此有矣这么平等篇文章。

第二、提取人名

先是以博文本中起的姓名,根据当下篇稿子《从天龙八部小说衍生出之google语义分析以及gephi社交网络》里提供的思绪,用jieba中文分词Python库尝试从日记文本中取出TF/IDF权重最充分的、TOP5000名叫词。

图片 2

由于输出结果可知,在村、贾宝玉、王小波等人口称为准确提取出的又,夹杂着众多别样东西之名词,需要去。由于还免亮发生啊便捷高效之计好实现提取人名,本次先根据文件中人叫做出现的次数,划定一个下限,再手动筛选产生符合要求的全名,接着将TF/IDF权重同时叠加100或者1000倍增,以便用HTML5
Word
Cloud兑现美好的乐章曰图。

图片 3

达到图就是是自己的日志里极其具有代表性的人物画像了。有大师大家鲁迅、叶嘉莹等,有知乎用户张佳玮、路人甲,有爱的歌手山口百惠、安溥,有AI大佬吴恩达、李飞飞,也发生一些紧俏综艺、热点事件里的人士等等。每个人坐该殊之故而被记录,并可拼凑出立刻等同岁印记。

图片 4

老三、提取人物关系

除外从文本中提人名,本次还依据共现提取出日记被人物的纱关系,并采取gephi进行可视化。

引用一截对旅临时网络基本原理的牵线:“实体间的共现是均等种基于统计的信息提取。提到密不可分的人物往往会当文件中多段落内又起,可以经过辨认文本中一度规定的实体(人名),计算不同实体共同出现的次数与比率。当比率超过某一样阈值,我们认为简单只实体间存在某种联系。”

贯彻之代码可参照领《釜山实施》人物关系之代码,可依据自己的需开展改动。

图片 5

利用到自己之文书及,并转后续用于gephi可视化的“节点”和“边”文件,同样用去非人名的数量。节点格式如下:

图片 6

边格式如下:

图片 7

用数据导入gephi软件中:

图片 8

调节点的轻重以及颜色,并运行布局算法:

图片 9

加上标签,比词云图能顾更多人的真名:

图片 10

同间断瞎操作,聚焦到文本中人物关系比像样和数之有的,主要的节点有鲁迅、叶嘉莹、黛玉等等:

图片 11

全总网络中不过着重的一致长脉络如下图所示:

图片 12

每当大多数较健康的维系中,存在着“贺龙”与“贺知章”这同颇奇特之关联,思索了几乎秒后,才回忆就有人询问取名、赐名的同宗旧事,倒也幽默,不过说来至今未知底贺姓名人还发出安,大相的伴儿可以说说,并跃跃欲试着也贺姓小男孩抱单你道对的名字呗?

图片 13

人选关系网络的暗是2017年全的记得,有不少不足为外人道尔却自得其乐的地方,有不少协调都记不得却借这个想起的人与行。

图片 14

自家是只记性很不同的人口,平日里虽记不得几天前乃至昨天的多操,日记也描绘了两三年,每每回过头看那时底食指跟事,就觉庆幸已经的勤下笔,而遭上空白的期,或平等画带了之光阴,也会见非常惆怅,仿佛人生被抽离了平等有,只剩下白茫茫的同样切开。借用沈复在《浮生六记》开篇之话语:“东坡云:‘事要春梦了无痕’,苟不记之笔墨,未免有辜彼苍之偏重。”我虽没好的局部大事可记述,但那种“事如春梦了无痕”的缺憾及惘然却感同身受。

正文虽然只是简单的文本挖掘,没有尖锐之研讨,但对协调来说,还是不行新颖的追究历程,也借这粗浅的想起下团结2017之有的丁及从,最后重复留下个谜,按下图从一个综艺节目吧,欢迎评论猜谜。

图片 15

季、相关阅读

jieba中文分词库-github网址

《打天龙八部小说衍生出之google语义分析和gephi社交网络》

Text Cooccurrence
Example(文本共现网络取示例)

《Python基于共现提取《釜山尽》人物关系》

相关文章