当前位置: 首页>编程语言>正文

工作中遇到的一些数据采集问题

ps: 因为一些原因,最近需要从某个网站采集一些信息,最后汇总展示.(作类似运维大屏的东西).但是过程很不顺利.这里特别整理了下这些想吐槽的东西.

遇到的问题:

  • 只能在windows server 2003 上执行程序, 试过了python2.7,python3.3, 嗯,基础的环境其实,也有些跑不起来,进入python命令行就开始报错..服务器不可以更改东西..因为不是自己的.
  • 要采集的网站是前后端分离的,而且有登录认证.
  • 幸运的是,登录认证做的不复杂,很容易就登录进去了,并且非常容易的找到了对应的API.
  • API返回的数据有些像JSON,不过,并不是规范的json. 里面有很多注释. 而且,开发人员用eval函数,执行了这个返回的json..嗯,有些不知道该叫它什么了.原谅我的前端知识非常不全面.
  • 返回的数据,有些像字典. 但是,页面上并不是直接展示这些值的.其中遇到的变化有:
    • 套用某个写在js里的函数进行二次计算
    • 十进制转十六进制在对应码表拼接出字段,有的码表在返回的数据里,有的写入了JS.
    • 计算公式能看到明显的打补丁.最早有2013年的注释.某个计算公式变化后,是写入一个类似判断的东西,嵌套了下,更新在了前端页面中.
    • 码表是分散在很多js里的. 也许这就是"组件化"吧.
    • 一个表格里的数据,是多个API汇总后再加上公式加工得到的.

有时候,也感觉很无奈.以前一个同事和我讲了一个种树的故事:
三个人去种树,计划是一个人挖坑,一个人放树苗,另外一个人填坑;不幸的是放树苗的人有事情来不了了.于是,有人发现,他们一个人在前挖矿,后面一个人在后面填坑.
这个故事,告诉我们,开发中,大家应该多承担点责任.
唔,好像也不错吧...
然后,自己也遇到过类似的事情.
不过,某一天自己遇上这样的东西时,好像很无奈啊.

为啥前端要把业务逻辑都写到js里直接查询展示不好吗一个前端,整理那些服务器参数计算公式不头疼吗后来人怎么维护这样的东西..........

工作中,提前没有规划好,逮着谁能解决问题,就随意四处打补丁.遗留下的问题,太可怕了.


https://www.xamrdz.com/lan/5f51889399.html

相关文章: