自从十多年前大学毕业、远离学校、参加工作以来,我就已经基本脱离了社交网站,不再使用它们,但前些天突发奇想,想把我之前在QQ空间说说、新浪微博、Google Buzz、Google+、Twitter和微信朋友圈(应该还用过腾讯微博、网易微博、饭否之类的平台,但已经找不到了)上发过的所有东西聚合起来,整合成一个网站,作为一份自己的独特“记忆”。本文记录一下整个的制作过程。
成品截图
因为主题很好看,我很喜欢,于是选择了Typecho平台,小胖脸 制作的朋友圈风格主题 Ice-fox来制作网站。



第一步 导出并导入数据
- 1.1 导入QQ空间说说的数据。导出说说数据比较简单,我用的是 芷炫 制作的浏览器插件QQ空间导出助手,很快就将我的1550余条原创说说和670余条评论导出成为了json文件。再借助Ai助手编写的python文件,将其转成了sql的数据库文件并导入成功。这里出现了个意外,就是浏览器插件抓取获取到1500条左右的时候就超时了,我只能手动复制补全。
- 1.2 导入新浪微博的数据。大概1300余条正文导出数据用的是 dataabc 制作的weiboSpider,这个项目有一个配置选项,可以只抓取我的原创微博,而忽略转发微博,这一点很符合我的预期,项目同样可以直接导出为json文件。另外1410余条评论内容则是用的Ai助手帮我写的一份python文件,从weibo.cn的接口抓取的,还算顺利。
- 1.3 导入Google Buzz的数据。Google Buzz的导入是最麻烦的,因为当时通过官方导出的数据是一个PDF文件,但是因为采用type0字体和“identity-H”编码,ToUnicode映射丢失,根本复制不了里面的文字,全部是乱码,共540余条正文和240余条评论全部只能后期手打输入,又累又慢,而且不能获取到当年发文的包含时分秒的准确时间,只包含有日期且还有时区带来的误差,导入的时候只能自己强制将每条内容的时间设置为当天的8点,评论则设为当天19点,并以此类推。
- 1.4 导入Google+的数据。Google+的内容导入很方便,因为当年Google提供了很好的导出数据,内容都是以html文件的格式保存的,并且时间都精确到秒,只不过需要注意一下需要转换时区到东八区。用Ai助手写的python,很快将300余条正文和180余条评论以SQL文件导入成功。
- 1.5 导入Twitter的数据。Twitter推特的数据和Google+差不多,官方提供了很规范的数据导出形式,不过这次是JS文件,同样注意一下时区转换,用Ai助手写的python,将320余条推文以SQL文件导入成功。
还有一点就是所有的评论都作为一级评论导入的,我没有想到可以批量导入的办法,所以关于评论回复这样的二级、三级评论,都只能后期手动修改数据库,一个个确定父级评论的ID。
第二步 后期主题修改
- 2.1 将输出的时间有“年月日”改为了“年月日时分秒”
- 2.2 增加了一个判断代码,如果评论者的url为空,则只文本输出评论者的ID,不增加<a></a>这样的链接,避免typecho默认当评论者url为空时替代为本地站点网址的情况。当url不为空时,则输出链接,但增加了在新窗口打开的代码。
- 2.3 修改了评论显示的数量,由默认的5条修改为15条,避免了因为原主题评论分页导航是隐藏的导致的评论显示不全,我的每条社交网站内容也基本不会有15条以上的评论。
- 2.4 在时间后面增加了“来自:某分类”的文字和链接,方便了解内容来自哪个平台和单独查看该平台的所有文章。同时添加了根据分类的不同此处显示不同颜色文字的代码。
完成以上这些,再部署到本地的NAS服务器上,仅限我个人本地访问,就大工告成了。之后我准备把我的以上社交网站账号或内容都删除掉,我也几乎不会再使用它们了,彻底地完成我的社交网站内容由网络云转向本地化储存。
最后小小的感慨一下,现在的生活好像有点逆互联网化了,和十多年前什么都上网比起来,现在觉得本地化反而更加安全。