【数据分析】预测2018年世界杯夺冠热门球队

2022年8月28日 by 没有评论

2010年世界杯,章鱼哥保罗一夜成名。它几乎百分之百的预测正确率,让人叹为观止。

虽然现在离2018年世界杯开幕还有半年多的时间,但城南经过一番分析,基本上已经锁定了最终的冠军花落谁家!

世界上大大小小的各种足球比赛,球探网都会进行统计,数据相当详细,除了每场比赛的比分之外,还包括犯规数、红黄牌、控球率等详细数据。

通过球探网,可以轻松获取到2018年世界杯参赛的32支球队,在过去十几年参加的各类比赛的数据。

对于我们来说,最终目的是为了预测2018年世界杯的夺冠球队,那么太久远的数据显然并没有多大的意义。所以城南选择了2008年及以后的数据作为预测的基础。

对于一支球队A,我们可以根据获取到的数据,计算出球队A每场比赛的平均进球数,假设为2个。

随后,我们需要根据获取到的数据,计算出所有32支参赛球队的场均进球数,作为基准线。假设所有球队的场均进球数为1个。

现在,我们可以根据这两个数据,计算出A的进攻实力,即:球队A的场均进球数/所有32支球队的场均进球数。

同样的,我们可以根据获取到的数据,计算出球队A每场比赛的平均失球数(假设为1),然后再计算出所有32支参赛球队的场均失球数(假设为2)。

那么球队A的防守实力就等于球队A的场均失球数/所有32支球队的场均失球数(本例中计算结果为1/2=0.5)。

进攻实力方面,德国一马当先,紧随其后的是西班牙、巴西、英格兰和葡萄牙;防守实力方面,西班牙则位列第一,法国、伊朗、巴西和英格兰分列第二到第五位。

另外需要提醒大家注意的是,这里的进攻实力和防守实力,并不是进球数和丢球数,而且防守实力最低,表示这支球队的防守越强。

举个例子,假设你在公交站等车,虽然站牌上写着公交车平均5分钟一班,但你如果在公交站等上5分钟,你有可能等来1辆、也有可能等来3辆,当然如果运气不好,1辆公交都没等来也是常事。

所以,你在公交车等公交时,5分钟内你等来的公交车的数量,就符合一个泊松分布的模型。

同样的道理,我们可以利用上面获取的数据,计算出某支球队在一场比赛中可能的进球数,也就是进球数的期望值,但在一场比赛中,这只球队具体能打进多少球,却是一个符合泊松分布的事件。

对于泊松分布来说,最重要的值就是这个期望值,也就是我们需要计算出,某支球队在一场比赛中进球的期望值。

当球队A和球队B比赛时,A进球的期望值即为A的进攻实力*B的防守实力*所有32支球队的场均进球数。同理,B进球的期望值即为B的进攻实力*A的防守实力*所有32支球队的场均进球数。

如果我们假设球队A进球的期望值是1.5,球队B进球的期望值是1.7,并不是说最终的比分是1.5:1.7。那么,要怎样才能得到最终的比分呢?

我们可以利用泊松分布来求解,如果某个泊松分布中的期望值是给定的,那么事件发生次数的概率便可以求出。

例如,如果球队A进球的期望值是1.5,球队B进球的期望值是1.7,那么根据泊松分布,球队A和球队B进球的概率分布如下表所示:

因为在世界杯的比赛中,出现一支球队进球超过4个的情况不太常见,所以在计算的时候,我们假设进球总数不得多于4个。

有了这样的概率分布表,那么当球队A和球队B进行比赛的时候,我们可以计算出任意比分出现的概率了。

建立好泊松模型之后,对于任意两支球队,我们都能够预测他们的比分。那么接下来要做的,就是根据2018年世界杯的分组结果和赛程,对每一场比赛进行模拟,并产生冠军。

差点夺得欧洲杯的法国果然风头正劲,在城南进行的十万次模拟中,法国队有一万多次夺得了冠军。完成了新老交替的西班牙紧随其后,毕竟曾经创造了统治世界的王朝,永远不能低估一颗冠军的心。

等一下,如果说永远星光璀璨的英格兰和五星巴西排在第三和第四位还可以接受的话,那么后面的伊朗、尼日利亚之类的是什么情况?

城南没有贬低这些球队的意思,但恐怕连他们的铁杆球迷,也从来没期待过这些球队夺得世界杯吧。

如果你还记得,前面我们在计算各支球队的进攻实力和防守实力时,伊朗的防守实力高居第三位,当时城南就说过,这个问题我们后面再说。

完成了上面四步,我们已经可以得出结论了,但显然这样的结论并不太令人满意,所以我们需要回到最初,对获取的数据进行进一步的处理。

首先,我们获取的数据,是每支球队过去十年的所有比赛的进球和失球数据。当我们在计算每支球队的场均进球数和场均失球数时,假定了这些比赛是同样的重要。换句话说,以法国为例,假设法国在上届欧洲杯决赛中打入1球,在对中国的友谊赛中打入4球,那么,我们能说法国队的场均进球数是2.5球吗?同样,假设伊朗在上届世界杯的一场小组赛中丢了4球,在另一场对阵叙利亚的友谊赛中一球未失,我们能说伊朗的场均丢球数是2球吗?

城南将“世界杯”、“欧洲杯”、“美洲杯”、“亚洲杯”、“非洲杯”、“世界杯预选赛”等比赛的权重设为1,将其他杯赛(例如“东亚杯”)等的权重设为0.8,将友谊赛的权重设为0.6,随后重新计算了各个球队的进攻实力和防守实力,并再次对2018年世界杯进行了模拟,得到的结果如下图所示。

现在,西班牙取代了法国的位置荣登榜首,五星巴西紧随其后,紧接着是无与伦比的德国战车。前三名似乎非常有说服力。

但是,日本肿么会排名第四?伊朗为什么还在里面?克罗地亚排名第八好像还蛮靠谱?

翻开世界杯的历史,就会发现所有的世界杯冠军,都是来自欧洲和南美洲的球队,这说明欧洲和南美洲的足球水平是较为领先的。

在我们的数据中,各支球队跨大洲进行的比赛并不多。比如日本,它大部分比赛都是和亚洲球队进行的,而法国队的大多数比赛则是和欧洲球队进行的。但是在计算各支球队的进攻实力和防守实力时,我们仍然没有加以区别,这显然也是有问题的。

比如,在一场世界杯的比赛中,法国队对阵巴西队,法国队攻入3球,在另一场亚洲杯的比赛中,日本队对阵中国队,日本队同样攻入3球,那么能说日本队和法国队的进攻实力差不多吗?

为了解决这个问题,城南将32支球队分为两档,欧洲和南美洲的球队为第一档,他们的权重为1,其他大洲的球队为第二档,他们的权重为0.8。

随后,城南重新计算了各个球队的进攻实力和防守实力,并再次对2018年世界杯进行了模拟,得到的结果如下图所示。

西班牙继续高举榜首,毕竟过去几年,特别是从2008年到2012年的四年间,西班牙的战绩太过耀眼,以至于他们在2018年世界杯中的夺冠概率超过了15%。

五星巴西作为获得世界杯冠军次数最多的球队,紧随西班牙之后位列第二。第三名被德国占据,他们是世界杯卫冕冠军,而且现在世界排名第一。

这份榜单中比较让人意外的可能是克罗地亚和瑞士,但每届世界杯都有冷门产生,这两只球队未必能夺冠,但极有可能成为2018年世界杯的最大黑马。

虽然上面显示,西班牙夺冠的概率更大,但世界杯毕竟分为小组赛和淘汰赛两个阶段,很多强队就因为在小组赛表现不佳而遭遇滑铁卢,比如西班牙自己,就有过小组赛直接出局的尴尬。

因此,城南还分析了顺利从小组赛出现之后,各支球队的夺冠概率,并从中发现了一些不一样的东西。

如果西班牙顺利从小组赛中出线,那么它夺冠的概率会飙升到24.2%,这也是所有球队中夺冠概率唯一突破20%的球队。

德国完成了对巴西的超越,排名第二。这意味着如果顺利从小组赛突围,那么德国比巴西有更大概率夺冠。

此外,葡萄牙和阿根廷的夺冠概率也增长迅速,这可能意味着,这两只球队要想从小组赛中顺利出线并不容易,可是一旦出线,它们也将成为夺冠的大热门。

虽然在刚刚过去的欧洲杯上,法国队击败了德国队,差点就成为了欧洲杯冠军,但本届世界杯它们的夺冠前景似乎困难重重。不过,这可能是因为法国队在过去十年中的比赛表现不佳,但并不意味着如今这支洋溢着青春风暴的法国队就真的技不如人。

最后,城南还顺便统计了一下,在十万次模拟的结果中,每个小组中各支球队的出线概率,结果也让人吃惊。

葡萄牙、阿根廷和比利时,分别拥有C罗、梅西和阿扎尔,这三支球队不管是绝对实力还是球星魅力,都是万众瞩目的。但从数据预测的角度来看,他们可能都将无法从小组赛出现,从而形成2018年世界杯的最大冷门。

此外,在德国所在的小组中,韩国可能超越墨西哥和瑞典而冲出重围,这可能也是一个不大不小的冷门。

最后,虽然城南利用数据做出了预测,但是还是想听到大家的声音,你们觉得2018年世界杯,谁会夺冠呢?

最后的最后,城南想说的是,影响足球比赛最终结果的因素太多,例如天气、球员状态、比赛时间,甚至是裁判,所以以上预测,只是一种视角,仅供娱乐,大家切勿当真哦。

Leave a Comment

您的电子邮箱地址不会被公开。