#cba官网微博#怎样评价CBA新版数据官网上线?

cba官网微博

Hi,今天给各位分享cba官网微博的知识,其中也会对cba官网微博进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

问题一、怎样评价CBA新版数据官网上线?

    CBA新版数据官网上线两周了,整理一下感受。
    这是历史性的一刻,因为CBA球迷终于有了像样的数据服务。有这样既能帮助广大受众“考古”,又能推进分析学(analytics)发展的项目实属难得。无论是上游的数据录入与标注,还是下游的数据设计与工程,所有参与或推动这个项目的人都功德无量。
    CBA新版数据官网的爽点爽点一:满足广大受众的查搜需求,提供直观的数据内容新版数据官网对大众球迷可谓是十分友好。
    就基础层面而言,数据回溯到CBA元年,能够满足历史控的简单查搜需求(例)
    另外,网站还放出了自2017-18赛季以来所有比赛的“比赛事件(play-by-play)”(见下图),这是此前其它官方或门户的CBA数据网站都没能做到的(至少在桌面端)。
    CBA新版数据官网的“比赛事件”页面在更深的层面上,网站吸收了cleaningtheglass的思路,可谓是用心良苦。这也让新版数据网站呈现的数据较其它公众层面上的数据项要更为直观,解释性更强(后面再展开)。
    以单场比赛数据的“比赛报告”页面为例,CBA新版数据官网除了会列出双方的数据外,也会附上百分比排名(见下图颜色框)。比如,广东在今年1月6日对山西的比赛中,百回合得分120.2分,优于联盟71%的单场场次表现。这相当于让广大家长们在了解自己娃考几分的同时还掌握了“到底有多好”的重要信息,甚好。
    CBA新版数据官网的“比赛报告”页面爽点二:为数据玩家创造探索分析的基础对于有主动意愿去研究CBA的旁友们而言,新版数据官网的上线意味着:探索研究CBA数据的成本基本为0。
    翻译翻译就是:各位有着数学/统计学/数据科学/计算机科学学科背景/经验的同学们,我们现在可以像北美同领域的旁友一样——自己抓数据,做分析,形成讨论氛围。有小的洞察就可以写写文章发到网上。成熟的还可以撰写论文投刊物去。
    以下举两个拿现成官网数据做探索分析的小例子。
    例一:“四要素”的可解释性(Interpretability)
    自上赛季开始,CBA官方在微博及微信公众号等平台上都在积极地科普及推广DeanOliver提出的”四要素(4factors)“数据(注1),为广大球迷提供了一个通过数据就能直观感受或评估比赛质量的方式。
    打个比方,“四要素”框架就好比是一场托福考试。若一名考生(球队)在考试(比赛)中能把阅读/听力/写作/口语(“四要素”)的大多数点做好,那其托福成绩(百回合得失分效率)应该也会不错。这与“多抢进攻篮板就能拿更多分”或是“多一次失误就浪费一次机会”的逻辑是一致的,只是我们现在从这个框架中取得的信息替换成了更具体的“我们这场比赛的进攻篮板率比联盟平均好多少个点”或是“我们这场比赛的失误率比联盟平均少多少个点”。
    注1:
    篮球数学家DeanOliver(现任奇才助教)在其早年著作BasketballonPaper中,提出了“四要素”的概念。具体数据项为以下:
    -有效命中率:衡量运动战得分效率;每个三分球算1.5个两分球来计算效率(因为要拿到12分,两分球得10中6,⽽三分球只要10中4)
    -失误率:测量球队的失误控制情况。例,10%表示,球队每百回合失误在10个
    -前场篮板率:前场篮板能使⼀个进攻回合得以延续。球队前场篮板率越⾼,提⾼每百回合得分效率的可能也就越大;算法为,本⽅方前场篮板/(本⽅方前场篮板+对⽅方后场篮板)
    -造罚篮率:算法为罚球命中数/投篮出手数。衡量两个⽅面:1)是否能走上罚球线;2)能不能罚进那么,除了竞赛层面上的逻辑关系外,还有什么理由能让我们放心”食用”“四要素”呢?
    新版数据官网就为我们提供了进一步探索的素材。通过“四要素”数据对百回合得分进行最简单的线性回归(注2),我们可以得出,“四要素”与百回合得分的相关性(correlation)非常高。
    注2:
    “四要素”线性模型信息/结果如下:
    -数据采用2017-2020四个赛季总计1804场常规赛。自变量为每场比赛的“四要素”,因变量为每百回合得分效率(CBA官方版本的回合数为估算)。
    -每百回合得分效率呈工整的正态分布(见下图)。除造罚篮率外,其余“三要素”呈工整的正态分布。
    -该模型的决定系数(R方)为96.3%,呈高拟合度。
    -在做中心化处理前,“四要素”的方差扩大因子(varianceinflationfactor,VIF)较高,指示自变量之间有着较强的相关性。比如,高前场篮板率—>篮下二次得分机会—>高有效命中率。例二:外援规则与CBA竞赛水平发展趋势
    如果想研究CBA外援政策(注3)与联赛竞技水平的关系,直接用官方版本的百回合得分数据(回合数为估算)亦可以探索。
    注3:
    近5个赛季(包括本赛季)CBA外援规则大体如下:
    -2017-18赛季:4节6人次
    -2018-19赛季:4节6人次
    -2019-20赛季(复赛前):4节6人次
    -2020-21赛季:4节4人次
    -2021-22赛季:4节4人次(对阵全华班)
    *考虑到有关八一的场次有特殊外援规则,故选择在以下可视化中剔除所有含有八一比赛场次的百回合得分(包括八一及其对手)。在对过去5赛季的得分效率及比赛节奏绘制分布后,我们可以看出,自从CBA限制外援出场节数后,CBA单场比赛的百回合得分效率出现下滑。该趋势在本赛季各队外援没到位的第一阶段中尤为明显。
    作为赛事观赏性的另外一个组成部分,联赛的比赛节奏也变得更慢了。本赛季第一阶段的每48分钟回合数甚至跌破90。
    另外,在对过去5个赛季各球队的得分效率进行可视化后,我们不难发现,CBA的强弱分化已愈发严重。联盟头尾的百回合得分效率差距从2017-18赛季的刚刚破10,拉大至2020-21赛季的将近20。而在本赛季第一阶段的小样本里,联赛得分效率分布甚至出现“中游真空”的景象——百回合得分距离联盟平均水准5分以内的球队仅有7支。
    新版CBA数据官网亟需改进的点:比赛事件的数据质量就目前而言,比赛事件(play-by-play)的数据质量是CBA新版数据官网最亟需改进的问题。
    目前发现的比赛事件数据问题有哪些?前文提到,CBA新版数据官网记载了自2017-18赛季以来所有比赛的比赛事件。在进行一些初步检查(注4)后,发现的问题主要有三种:1)可以通过时间节点回看录像重新标注的“简单”问题(不代表不繁琐);2)难以通过时间点回看,需自发寻找/补充的“麻烦”问题;3)完全错乱的“事故”问题。
    注4:
    初步检查包括将“比赛事件”记录的数据与“面板数据(boxscore)”的进行比对。
    以欧冠(Euroleague)作为横向参考,自2018-19赛季起至今近千场比赛中,比赛事件记录与面板数据“打架”的场次仅2场。“简单”问题包括且不限于:
    -2017-18赛季有大量比赛的换人记录未标明谁上谁下。比如这场,这场和这场。
    -2018-20三个赛季存在个别“只标明谁上场,未标明谁下场”的换人记录。比如这场(王奕博),这场(劳森)和这场(于梁)。
    “麻烦”问题包括且不限于:
    -2018-20赛季有大量比赛的“个人面板数据抢断数较比赛事件记录的多,但失误数没有相应变化”,比如这场(邓蒙/王潼/姜宇星/代怀博/姜伟泽皆多1个),这场(张涵钧/任骏威/周湛东/许家晗/赵泰隆皆多1个)和这场(朱旭航的3个抢断未出现在比赛事件中)。该问题在本赛季中未出现。
    -2018-19赛季有一场比赛只有3节的比赛记录(第2节+第1节后半段记录缺失)
    目前找到的“事故”问题:
    本赛季总体没有大的比赛事件数据问题,除了一场事故级别的比赛事件记录。
    该场次的面板数据与比赛事件记录全方位不吻合。比如,在得分这一项中,具体结果如下:
    原帅|比赛事件记录得13分|面板数据得15分
    葛昭宝|比赛事件记录得29分|面板数据得31分
    贾昊|比赛事件记录得6分|面板数据得8分
    张宁|比赛事件记录得17分|面板数据得13分以原帅为例,面板数据显示他15投6中,而比赛记录显示他14投5中。通过比赛录像回看,原帅的确命中6球,时间点分别在:第1节11分8秒/第1节7分37秒/第3节6分5秒/第3节4分22秒/第3节3分39秒/第3节1分46秒。
    2021年10月17日山西对宁波比赛第1节的“比赛事件”截图再次回到新版官网的比赛记录,发现在第1节的11:28秒至7:37秒出现将近4分钟的空档(见上图)。而原帅在该场比赛进的第一球就处在这消失的时间段中。
    未在“比赛事件”记录中出现的出手命中为何要改进比赛事件的数据质量问题?因为回合数(possession)是现代篮球数据研究的基础。
    先说点近的。
    当比赛事件的数据质量得到保证后,CBA就可以遵循历史数据,算出自个联赛的罚球系数,从而获得CBA版本的真实命中率公式,而不是照搬NBA的。正如Kenpom为NCAA算的一样。
    当比赛事件的数据质量得到保证后,CBA数据官网就可以像NBA官网在2018年一样,使用真正的回合数(当你可以一个个精确数的时候,用公式去估回合数就自然成为了次选项)。而通过真正的回合数,CBA数据官网就可以:
    -将现有的估算回合数版本的数据替换成真实回合数的版本
    -继续工程cleaningtheglass所使用的数据。比如各阵容的得失分效率;又比如得出球员A在场上时球队每百回合的得失分效率(即NetPlus-Minus)
    -等等等等
    而野生的数据玩家完全可以:
    -像这位CS同学一样,跑个岭回归(ridgeregression),得出RegularizedAdjustedPlus-Minus(RAPM)
    -找篇论文琢磨琢磨,追寻SecondSpectrum大拿曾经走过的路,评估评估CBA阵容
    -等等等等
    再说点远的。
    比赛事件的标签是后续图像识别/追踪数据研究项目的重要基础。若上游的标签有问题,那下游的建模也就要在错误的数据上进行学习。而有了正确的标签,我们才能做这个,这个和这个。
    写在最后祝CBA新版数据网站越办越好,永不关闭。
    另外,打标签(datalabeling/tagging)是项辛苦活。祝前线记录人员工作顺利,下游的人会感激的。
    CBA新版数据官网的内容可能会在“看台FM”上再聊一聊。对节目或是对泛体育内容有兴趣的旁友们,欢迎关注“看台FM”播客(苹果podcast喜马拉雅蜻蜓荔枝网易云小宇宙qq音乐)。

问题二、手机新浪微博

    网络太差的原因你可以换个地方或者手机试试不然就是密码打错了

问题三、2023 年 CBA 全明星赛首发球员投票正式开启,你心中的首发阵容是怎么的?

    现在应该没有几个人看cba了吧

问题四、2023 年 CBA 全明星赛首发球员投票正式开启,你心中的首发阵容是怎么的?

    现在应该没有几个人看cba了吧

版权声明:本站内容由互联网用户投稿自发贡献或转载于互联网,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至Li20230712@gmail.com举报,一经查实,本站将立刻删除。

合作:Li20230712@gmail.com