一、赛项名称
赛项编号:2021022
赛项名称:第一届大数据分析与挖掘竞赛
二、竞赛目的
为全面贯彻“加快数字化发展,建设数字中国”的要求,大数据分析与挖掘竞赛旨在培养大学生的数据创新实践意识,激发创新活力,促进产学研深度融合,鼓励我院学生实践与创意,从而更好的服务于国家数据化转型升级战略。
三、竞赛内容
本赛项采用团队竞赛方式,以大数据集群搭建、数据采集与预处理、数据存储、数据分析和可视化、数据分析报告及答辩等关键任务完成质量作为比赛内容,全面考察选手对比赛题目的分析能力、大数据集群搭建和运用能力、网络数据采集能力、问题综合分析解决能力、分析报告撰写能力、报告演讲应变能力以及团队合作能力。具体竞赛内容如下表1所示:
序号 |
评分内容 |
评分项目 |
评分要点 |
分值 |
1 |
大数据集群搭建 |
集群状态评价 |
Linux命令使用、Linux环境软件安装,环境变量配置、Hadoop集群搭建、网络配置(20分) |
20分 |
2 |
数据采集与预处理 |
数据采集与预处理结果评价 |
1、熟练使用Python爬虫工具(10分) 2、正确分析网页层次结构(10分) 3、数据采集数量的完整性(10分) 4、数据采集流程规范、反爬虫措施正确(5分) 5、异常数据清洗、分析指标完整(10分) |
45分 |
3 |
数据清洗与数据存储 |
集群存储结果评价 |
1、Nump和Pandas的使用合理(20分) 2、hadoop集群操作命令规范(10分) 3、数据存储过程、存储位置合理(10分) |
40分 |
4 |
数据可视化 |
可视化展示效果评价 |
1、可视化内容展示完整、布局合理(20分) 2、图表选择合理、清晰、形式美观、配色合理(25分) |
45分 |
5 |
数据分析报告及答辩 |
分析报告评价及答辩内容 |
1、数据分析报告页面美观,描述清晰,结论合理(20分) 2、数据分析报告结论与建议具有建设性(10分) 3、答辩者表达流畅、思路清晰,答辩团队回答问题准确,紧扣题目。(20分) |
50分 |
合计分值 |
200分 |
表1竞赛内容及分值构成
竞赛方式
1.本赛项为团体赛(每支参赛队5名选手,不跨班组队)。其中,大数据技术与应用专业(必报),商务数据分析专业或者对Python编程等大数据技术感兴趣的同学选报。
2.竞赛方式:
本次竞赛为开放赛题,各参赛队在规定时间(一周)完成参赛作品并提交,入围前三等奖的参赛队,须进行现场作品展示及答辩。
选手可参考图书资料和网络资源完成作品,必须是该参赛队独立完成。
3.使用软件:Linux、Pycharm、Requests、BeautifulSoup4、Hadoop、Numpy、Pandas、Matplotlib、MicrosoftWord2010、Microsoft PPT 2010或WPS。
五、成绩评定
1.裁判员构成:由信息学院大数据技术与应用专业教师担任,裁判长1名,裁判员2名。
2.总分值为200分。
六、奖项设定
本赛项设团体奖。以实际参赛队总数为基数,分设一、二、三等奖,其中一等奖2队、二等奖4队、三等奖6队。
七、参赛选手须知
1.参赛选手应按有关要求如实填报个人信息,否则取消竞赛资格。
2.参赛选手凭有效身份证件和学生证参加竞赛。
3.参赛选手应认真学习领会本次竞赛相关文件,自觉遵守大赛纪律,服从指挥,听从安排,文明参赛。
4.由于本次大赛为开放赛题,竞赛时间为一周,各参赛队诚信参赛、独立完成,如存在抄袭、雷同,均为0分,且取消参赛资格。
八、报名方式:
参赛选手扫描下方二维码加入QQ赛群:
群名称:第一届大数据分析与挖掘竞赛群
群号码:601110895
进群后,请修改昵称为“班级 姓名”,格式如下:
“2020级大数据1班XXX”
