大数据分析工作主要是2大方向,大数据技术和大数据分析,CDA课程设计比较合理,网上有很多试听视频。第一部分 大数据平台:大数据平台包含了采集层、存储层、计算层和应用层,是一个复杂的IT系统,需要学会Hadoop等分布式系统的开发技能。采集层:Sqoop可用来采集导入传统关系型数据库的数据、Flume对于日志型数据采集,另外使用Python一类的语言开发网络爬虫获取网络数据;储存层:分布式文件系统HDFS最为常用;计算层:有不同的计算框架可以选择,常见的如MapReduce、Spark等,一般来讲,如果能使用计算框架的“原生语言”,运算效率会最高(MapReduce的原生支持Java,而Spark原生支持Scala);应用层:包括结果数据的可视化、交互界面开发以及应用管理工具的开发等,更多的用到Java、Python等通用IT开发前端、后端的能力;第二部分 大数据分析:大数据挖掘指的是利用算法和模型提高数据处理效率、挖掘数据价值、实现从数据到知识的转换数据分析方法论:统计基础 微积分(求导)代数(矩阵运算)等统计模型:方差分析、线性回归、逻辑回归、列联分析、聚类分析、面板模型等数据挖掘模型:决策树 关联分析、SVM、神经网络 贝叶斯网络等