刚刚开始,看到一些开源工具,先收藏。

csvkit

项目地址:https://github.com/wireservice/csvkit/tree/1.0.2
数据分析,命令行工具 csvkit,可以各种格式互转,详见官方文档 《Data Science at Command Line》一书推荐,很好用。


Telegraf

Telegraf 是一个用 Go 编写的代理程序,可收集系统和服务的统计数据,并写入到 InfluxDB 数据库。内存占用小,通过插件系统可轻松添加支持其他服务的扩展。
https://www.cnblogs.com/imyalost/p/9873621.html
数据存储:https://www.taosdata.com/cn/documentation/connections-with-other-tools/#Telegraf


BI(商业智能)

BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。


ETL(数据处理)

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

解决方案:
https://www.cnblogs.com/yjd_hycf_space/p/7772722.html

常用第三方工具:
常用的第三方工具有:Kettle(水壶)、Kafka、Logstash等
http://bigdata.51cto.com/art/201702/530998.htm


数据展示、分析

Superset

Superset只是一款轻量级的BI,复杂的数据关联,应该在ETL过程中完成,Superset最好直接读取最终结果表,建议关联基于业务库计算的中间结果库,速度快好维护,它支撑TB级别足够大的数据源读取;Airbnb开源免费,项目一直在更新,会不断增加新的功能。

**Github:**https://github.com/apache/incubator-superset

环境搭建:
系统依赖:https://github.com/apache/incubator-superset/blob/master/docs/installation.rst

# 通用安装过程

1、安装对应系统的依赖
Mac:https://www.jianshu.com/p/669b2be5a160
Win:https://mp.weixin.qq.com/s/LPQNuizvmzyyoNjUnrwE4A

2、创建虚拟环境(python3.6以上)
pip install superset -i https://pypi.douban.com/simple/

3、降低pandas版本
pip uninstall pandas 
pip install pandas==0.23


初始化
设置管理员账号密码
fabmanager create-admin --app superset

初始化数据库(可能会报错:"Can't determine which FROM clause to join ")
superset db upgrade

# 如果上一步报错了,就降低sqlalchemy版本
pip uninstall sqlalchemy
pip install sqlalchemy==1.2

载入案例数据
superset load_examples

初始化角色和权限
superset init

汉化:
vim envs/superset/lib/python3.6/site-packages/superset/config.py
BABEL_DEFAULT_LOCALE调整为zh

启动服务
superset runserver -d

登录
http://localhost:8088/login/

如果没问题就可以对接ETL数据库(处理过的数据)了
pip install pymysql

mysql+pymysql://root:xxxx@localhost:3306/test?charset=utf8mb4

参考资料:
https://www.jianshu.com/p/669b2be5a160
https://zhuanlan.zhihu.com/p/28485468?utm_source=wechat_session&utm_medium=social&s_r=0
https://www.jianshu.com/p/b02fcea7eb5b


用户画像

**推荐公众号:**接地气学堂
用户画像,该怎么分析?https://mp.weixin.qq.com/s/NPpxhlcHgACMqhpkyDNIeQ

文章作者: Leo
版权声明: 本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LeoLan的小站
大数据 物联网 监控 数据处理分析 数据采集 数据处理、分析
喜欢就支持一下吧