32探索性数据分析-足球赛事数据集(含数据)

adminadmin 02-08 57 阅读 0 评论

  唐宇迪《python数据分析与机器学习实战》学习笔记

  32探索性数据分析-足球赛事数据集

  原始数据:链接,提取码:yypl

  数据包含球员和裁判的信息,2012-2013年的比赛数据,总共设计球员2053名,裁判3147名,特征列表如下:

  32探索性数据分析-足球赛事数据集(含数据)

  1.1 数据及模块导入

  (146028, 28)

  32探索性数据分析-足球赛事数据集(含数据)

  1.2 简单的统计:(count统计非空值个数)

  32探索性数据分析-足球赛事数据集(含数据)

  1.3查看数据类型:

  (机器学习建模时只认识‘float’和‘int’型,其他类型需要映射转换一下,这里做探索分析就不用了)

  playerShort object

  player object

  club object

  leagueCountry object

  birthday object

  height float64

  weight float64

  position object

  games int64

  victories int64

  ties int64

  defeats int64

  goals int64

  yellowCards int64

  yellowReds int64

  redCards int64

  photoID object

  rater1 float64

  rater2 float64

  refNum int64

  refCountry int64

  Alpha_3 object

  meanIAT float64

  nIAT float64

  seIAT float64

  meanExp float64

  nExp float64

  seExp float64

  dtype: object

  1.4 查看并提取列名

  [‘playerShort’,

  ‘player’,

  ‘club’,

  ‘leagueCountry’,

  ‘birthday’,

  ‘height’,

  ‘weight’,

  ‘position’,

  ‘games’,

  ‘victories’,

  ‘ties’,

  ‘defeats’,

  ‘goals’,

  ‘yellowCards’,

  ‘yellowReds’,

  ‘redCards’,

  ‘photoID’,

  ‘rater1’,

  ‘rater2’,

  ‘refNum’,

  ‘refCountry’,

  ‘Alpha_3’,大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  ‘meanIAT’,

  ‘nIAT’,

  ‘seIAT’,

  ‘meanExp’,大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  ‘nExp’,

  ‘seExp’]

  思考问题,加入一个运动员出现多次,计算时相当于其权重加强,所以可以用groupby解决这个问题:

  181.93593798236887

  181.74372848007872

  数据通常具有多特征高纬度,分析时统计指标不同,因此可以将其分为几个小的数据集单项分析。例如:单看球员、裁判,看球员-裁判关系,单看国家…

  2.1.1数据切分

  2.1.2检测及去重

  32探索性数据分析-足球赛事数据集(含数据)大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  32探索性数据分析-足球赛事数据集(含数据)

  这里直接写了一个检测去重函数,主要是看key值重复没

  函数调用

  32探索性数据分析-足球赛事数据集(含数据)

  数据干净后就储存,这里增加储存函数:

  Test-passed: we recover the equivalent subgroup dataframe. 储存成功

  32探索性数据分析-足球赛事数据集(含数据)

  根据上面一套操作思路还可以切割其他数据:

  club leagueCountry

FC Nürnberg Germany

FSV Mainz 05 Germany

  1899 Hoffenheim Germany

  AC Ajaccio France

  AFC Bournemouth England

  England 48

  Spain 27

  France 22

  Germany 21

  Name: leagueCountry, dtype: int64

  Test-passed: we recover the equivalent subgroup dataframe.

32探索性数据分析-足球赛事数据集(含数据)

32探索性数据分析-足球赛事数据集(含数据)

The End 微信扫一扫

文章声明:以上内容(如有图片或视频在内)除非注明,否则均为足球直播_足球免费在线高清直播_足球视频在线观看无插件-24直播网原创文章,转载或复制请以超链接形式并注明出处。

本文作者:admin本文链接:https://lallq.com/post/203.html

上一篇 下一篇

相关阅读

发表评论

访客 访客
快捷回复: 表情:
评论列表 (暂无评论,57人围观)

还没有评论,来说两句吧...

取消
微信二维码
微信二维码
支付宝二维码