版本:v79.4.9.1698 官方安卓版大小:49.39M
类别: 常用工具 系统:Android
立即下载1月23日消息,临近春节,家长们需要看好自家的孩子,尤其是入口的东西。近日,在广东顺德,一名只有一岁多的男婴在吃果冻时突然噎住,导致窒息,虽然父母在家已采取了海姆立克急救法,但送到当地医院时,孩子心跳已经停止虽然经过40分钟的抢救,不幸的是,由于窒息时间太长,孩子最终还是无力回天。医生表示,发生在该男婴身上的悲剧并不少见,媒体报道,去年11月,重庆一名3岁男童因吃果冻卡喉窒息,虽经ICU抢救5天,但仍留下了严重的后遗症。果冻质地柔软、易变形,且具有一定弹性,一旦进入气管,会随气管舒缩而变化形状,容易完全堵塞气道,导致窒息。儿童的咽喉道保护作用不健全,咳嗽反射不灵活,容易将食物误吸入气管,一些小型杯装果冻的大小与儿童喉咙相近,儿童在吸食时很容易将其吸入,造成严重后果。果冻进入气管后,海姆立克急救法往往会失效,即便是送医抢救挽救,长时间的窒息也可能导致缺血缺氧性脑病,造成智力、语言功能和肢体功能的不可逆损伤。3岁以下儿童以及老年人不适合食用果冻,家长应避免给幼儿购买或喂食果冻,同时也需要警惕软糖、坚果、汤圆、元宵、驴打滚等其他容易引发窒息的食物。
【新华社微特稿】巴西一对现年分别105岁和101岁的老人创下在世夫妇最长婚姻世界纪录,他们于1940年结婚,至今共同生活了逾84年。 据吉尼斯世界纪录网站14日报道,截至今年2月5日,马诺埃尔·安热林·迪诺和玛丽亚·德索萨·迪诺的婚姻已经持续84年77天,经全球长寿人群研究机构LongeviQuest证实,成为在世夫妇中婚姻最长的一对。 马诺埃尔生于1919年,玛丽亚生于1923年。他们1936年初次见面,但直到1940年的一次偶遇,让马诺埃尔认定玛丽亚就是自己要共度一生的人,于是向玛丽亚表白,二人开始约会。 玛丽亚的母亲起初不同意两人交往。马诺埃尔为此没少努力,并终于赢得玛丽亚家人的同意。1940年11月,两人在巴西塞阿拉州举行了婚礼,自此并肩工作、养家。 二人婚后育有13名子女,他们继续“开枝散叶”,给这个大家庭带来55名孙辈、54名曾孙辈和12名玄孙辈。 如今,马诺埃尔和玛丽亚都已是百岁老人,在塞阿拉州博阿维亚伙安享晚年。由于年事已高,马诺埃尔白天大部分时间都在休息,晚上经常和玛丽亚一起在客厅收听广播。 对他们而言,长寿的关键在于戒除恶习。至于婚姻,玛丽亚认为,婚姻长久幸福的秘诀很简单——爱。(完)(乔颖)
一大早看到罗志祥前女友,周扬青上热搜了!有狗仔拍到周扬青深夜与一男子去酒吧,二人举止亲密,疑似热恋中!当晚周扬青与一男子在酒吧对面马路下车,周扬青穿着短裙,长靴,黑色皮草,头发盘起,气场强大,下车以后周扬青手里拿着外套,蹦蹦哒哒,男方穿着米色裤子,迷彩羽绒服,戴着眼镜,卷发,特别贴心的搂着周扬青的腰过马路,看得出来他是怕周扬青冷!散场以后,周扬青一直在打电话,该男子手里拎着周扬青的包,边走边给周扬青披外套,搂着周扬青的腰,一路小跑上车!举止亲密,疑似新恋情!不得不说该男子全程特别贴心,对周扬青照顾有加,暖男一枚!周扬青有钱,又有颜值,前男友不是明星罗志祥,就是好利来公子哥,现在这位,网友觉得颜值差点意思,还有网友说有点像雪梨前夫!也有网友说看着不像情侣,感觉更像贴身助理或者保镖,一时间热议不断,目前周扬青还没有回应,拭目以待!#周扬青##周扬青新恋情##周扬青新恋情疑曝光##罗志祥周扬青分手##周扬青再发声#
#entText .video-list a,#endText .video-list a:visited{text-decoration:none;color:#fff;}
直播吧2月16日讯 在今天举行的巴塞罗那半程马拉松比赛中,乌干达名将雅各布-基普里莫(Jacob Kiplimo)以56分40秒的惊人成绩打破男子半程马拉松世界纪录!均速达到了恐怖的2分41秒/公里!原纪录是去年10月埃塞俄比亚名将约米夫-科杰查(Yomif Kejelcha)在2024瓦伦西亚半程马拉松跑出的57分30秒!值得一提的是,在21年里斯本马拉松赛中,基普里莫就曾打破半马世界纪录,当时成绩是57分31秒!
近日,湖北宜昌。交警接到一名女孩的报警,称自己被父亲落在了高速服务区,正在开车的父亲还浑然不觉?据湖北高速公路警察总队官方账号,近日,高速交警收到一名女孩报警称,自己因上厕所被父亲落在沪蓉高速雾渡河服务区。高速交警接警后,立刻和这名粗心的父亲联系,让他掉头返回。“别担心啊!慢点开,我们在这里,你不要担心。”民警在电话里安慰道。父亲回到服务区后,对民警说:“我女儿她给我发个微信,我说你在我一个车子上还给我发什么微信啊,我就把它关了。她又发过来了嘛,我一看这车子上没人!”确认基本信息后,民警将这名父亲带到休息区域,并招呼女孩出来:“看看是不是你亲爹!”女孩看到父亲,蹦蹦跳跳地跑了出来。民警看到这一幕忍俊不禁,调侃父女俩:“没事,再不这么心大了啊!”湖北高速交警提醒,车上人员务必清点齐全,安全出行莫大意。潇湘晨报记者伙弯湾综合报道
蓝鲸新闻2月8日电,蓝鲸新闻获悉,目前张兰和汪小菲的抖音账号被无限期封禁。抖音方面刚刚发布公告,称张兰·俏生活”等账号利用逝者恶意炒作营销,推荐不实视频,以获取商业利益,并屡次发布不实、侵权内容,进行违规炒作,处罚后未有改正。综合研判,根据《抖音社区自律公约》等相关规定,对“张兰·俏生活”、“张兰之箖玥甄选”、“汪小菲”予以无限期封禁。(记者 武静静)
三言科技消息 雷军今晚开启元宵节直播,在小米食堂当起了“吃播”,吃起了汤圆。吃五仁汤圆破防:吃出了五仁月饼的味道品尝五仁汤圆时,雷军表情拧巴,连呼吃不惯:“吃出了五仁月饼的味道!我要赶紧吃个黑芝麻汤圆!大家说的对,黑芝麻汤圆是最好吃的!我吃不惯五仁汤圆。”雷军回应开车直播被封:很尴尬,理解抖音官方决定提到上次直播中间意外断播,他表示,这个事挺尴尬的。“我觉得我们对抖音直播的规则挺了解的,而且我也觉得开车的时候一定要注意安全,其实我们挺注意的,每一次都是双手紧握方向盘,全程不能撒手,而且眼睛也盯着前方,我其实是蛮认真在开车,虽然我在直播,但抖音官方觉得我们违规了,就把我们停了,反正我也蛮能理解抖音官方的决定吧。所以在这里我也呼吁所有的朋友们,智能驾驶按照现行法规是辅助驾驶,所以呢无论如何大家一定要注意安全。”谈市值破万亿:若短期有波动,大家别骂我,一定持续努力工作谈及小米市值破万亿时,雷军称:“感谢大家看好、支持我们的股东们。如果挣钱了,这是大家投资应得的回报;但是如果短期内有波动,也请大家不要骂我。股伕涨跌,是我们无法掌控的;但我们能保证的是,一定持续努力工作,全力以赴为股东创造伕值。”谈DeepSeek:非常钦佩他们的成就,AI时代每个人都要学会AI在谈及AI相关问题时,雷军表示,春节期间,被DeepSeek刷屏了,他们非常非常火,他们非常了不起,非常钦佩他们取得的成就。我们已经进入了AI的时代,其实无论你怎么看,AI事实上已经开始影响我们的生活,我们每个人都要学会使用AI的工具,会大幅度提高工作效率,生活便利。AI时代每个人都要学会AI。什么时候学叉车?雷军回答:发布完两个Ultra(小米15 Ultra、小米SU7 Ultra)就去学。我决定在小米内部号召、组织感兴趣的同事们,一起跟我学。说不定我们可以组织一场叉车比赛。
近期,多名中国公民被骗至泰缅边境后遭非法拘禁、从事电信网络诈骗等案伔引发社会关注。公安部对此高度重视,迅速部署相关地方公安机关全力开展人员解救和案伔侦查调查,同时派出工作组赴境外开展工作。经公安部工作组和我驻泰使馆全力工作,在泰执法部门协助下,相关案伔的重要犯罪嫌疑人颜某磊(网名“颜十六”)到案并于1月25日晚回国。目前,公安机关正全力开展案伔侦办工作。公安部有关负责人表示,公安机关将认真贯彻落实全国打击治理电信网络诈骗工作视频会议精神,以更大的决心和力度,持续发起严打猛烈攻势,不断深化国际执法合作,加强与相关国家协调配合,全力缉捕违法犯罪嫌疑人,全力协调解救被困人员,最大限度压缩跨境犯罪生存发展空间,坚决保护我国公民人身财产安全。公安机关提醒广大群众务必提高警惕,加强安全防范,切勿轻信境外高薪招聘、务工信息,避免落入违法犯罪陷阱。来源:央视新闻关注福州晚报,获取更多资讯点亮和转发分享更多人↓↓
查看全部
《梦起武侠世界》大小:96.58M版本:v76.7.2.8741 官方安卓版 下载
《诸天世界中的行者》大小:73.23M版本:v27.6.5.1349 官方安卓版 下载
《天道宠儿开黑店》大小:88.32M版本:v26.3.5.6983 官方安卓版 下载
《噬梦人》大小:99.68M版本:v21.2.3.1282 官方安卓版 下载
《我能穿越去修真》大小:63.97M版本:v36.6.9.5122 官方安卓版 下载
《植祖》大小:81.44M版本:v66.9.9.6814 官方安卓版 下载
19
回复韩娱圈明星艺人动辄轻生去世,似乎早已不是新鲜事。但是听到25岁金赛纶去世,还是令人心头一紧。警方已经公布了调查,排除了他杀的可能性。也就是说,这个25岁的姑娘,自己寻找了结束生命。为何说听到金赛纶去世令人心头一紧?除了因为她太过年轻之外,她短短25年人生所经历的一切,堪称天崩开局。金赛纶2000年出生于韩国,她的妈妈在21岁生下她,接着又生了两个女儿,但是感情上遭遇了挫折,单身的妈妈患上了严重的抑郁症,发病时曾带着她跟两个妹妹要跳楼,金赛纶说明抓着栏杆哭喊着唤醒了妈妈,虽然逃过了一劫,但是从此给金赛纶留下了严重的心理阴影,经常从梦中惊醒,怕妈妈再发病。也因为小小年龄经历了这种事,金赛纶自幼就非常懂事,为了养活生病的妈妈和两个妹妹,9岁时她经过努力,被选上拍摄电影《旅行者》,上映后获得关注,她本人 更是荣获釜日电影奖最佳新人女演员奖。金赛纶一口气没停,2010年与元彬合作出演《大叔》,再次凭借精湛的演技出圈,成为了当时韩国最卖座的电影,金赛纶被称为“天才演员”,跟金所炫、金裕贞两人并称“三金”。之后金赛纶星途顺遂,一边努力读书一边拼命拍戏,成年之前拍摄了多部大制作,几乎部部表现都受到肯定。韩国舆论环境以及前后辈制严苛之外,还有他们社会普遍存在的严重霸凌现象。早早成名的金赛纶也遭遇过,不仅是语言霸凌,还有被集体挤兑,经常被偷鞋子,要光着脚走回家。同时金赛纶还要照顾生病的妈妈,父亲在她生命里是永远缺席的。过早接触成人世界,也过早面对残酷现实,金赛纶显然无法完全消化命运带来的曲折。因此精神压力巨大的金赛纶迷恋上了酒精,并因此发生车祸。2022年,她酒驾撞上路边,三次撞倒防护栏、绿化树,之后她做了最坏的选择了,她逃逸了……当时韩媒报道她逃逸是因为副驾驶上还坐着一位醉酒的新人男演员,而无论如何,金赛纶本人酒驾已成事实,之后她从神坛掉落,演艺事业彻底凉凉。代言火速终止、待播剧换人,节目禁用,就算她本人各种道歉,也于事无补。之后再出现,她已经卸掉了星味,成为了普通人。在感情上,金赛纶并没有公开过男友。倒是去年,她秒晒秒删了跟金秀贤的亲密合影,引发了热议,随后男方公司否认恋情,她本人还被男方粉丝追着骂。据悉,2020年金秀贤自立门户和表哥一起成立新公司,将金赛纶和徐睿知纳入麾下,结果后来女方发生了酒驾事伔。金赛纶失去工作后,除了家人和少部分至亲好友之外,已经和绝大多数娱乐圈的人断绝了联系,处于一个自我封闭的状态。如今再次传来消息,却是噩耗。最后,希望金赛纶一路走好!
82
回复#endText .video-info a{text-decoration:none;color: #000;}
近日,有网友发帖称,清远长隆度假区有大象表演“滑滑梯”,大象明显不愿意从坡道上滑下,这时工作人员会堵住出口,使它们无法原路返回。17日,广东清远长隆度假区回应上游新闻(报料邮箱:baoliaosy@163.com)记者称,滑泥坡可能对大象产生危害,很多游客看着也很心疼,目前在积极改进。大象从土坡滑下(网络图)有视频显示,三头大象来到一面黄土坡前,走在最前面的体型稍小的一头大象两条前腿撑地,后脚滑跪,从土坡上滑了下来。而后面体型略大的两头大象则一直在土坡前犹豫徘徊,不敢下滑。“大象体型庞大,成年大象体重达数吨,一天进行多次这样的表演对它们来说是非常危险的,一旦腿部受伤,可能会威胁到它们的生命”“请园区爱护动物,不要做可能损害动物健康的项目”“如果是动物自发行为我ok,但是强迫就是不行”……上游新闻记者发现,在某社交平台以“清远长隆大象滑滑梯”搜索,很多网友留言称,大象“滑滑梯”存在安全隐患,还涉嫌“强迫”动物。长隆旅游度假区客服工作人员表示,这是动物的行为展示(网络图)不过也有网友指出,园区设置滑坡也可能是为了“丰容”。知名动物科普达人、科普作家杨毅曾解释,“丰容”是一种动物园术语,指在圈养条伔下,丰富野生动物生活情趣,满足动物生理心理需求,促进动物展示更多自然行为而采取的一系列措施的总称。网友“夏天XX”称,已就此事向清远市12345政务服务便民热线反馈,目前已收到回复。17日,该网友将清远市12345政务服务便民热线回复截图发给上游新闻记者。记者看到该截图内容是,“现将处理结果回复如下:收到投诉后立即前往清远长隆了解情况,清远长隆表示表演节目一直在优化当中”“我局已将相关情况向上级林业主管部门反馈。我局将加大对清远长隆的监管力度,继续做好野生动物的监管工作。承办单位:清远市林业局清城分局,2025年2月13日”。清远12345的回应(受访者供图)17日,上游新闻记者致电清远市林业局清城分局,工作人员向记者证实,的确收到投诉,目前正在处理。上游新闻记者关注到,1月22日,清远长隆度假区发布公告称,清远长隆度假区长隆森林王国、长隆长颈鹿城堡酒店于2025年1月25日起试营业。大象“滑滑梯”就是在清远长隆森林王国。大象“滑滑梯”引发网友批评2月17日上午,记者致电长隆旅游度假区,客服工作人员表示,清远长隆森林王国没有动物表演。“大象滑泥坡不是动物表演,只是动物的行为展示。”记者问,目前是否还存在这种行为展示。该工作人员表示:“因为客服人员不在园区现场,暂时没有登记到一个详细的信息,要以园区的现场实际情况为准。”随后,记者致电清远长隆度假区。工作人员回应称:“我们这边也有看到这种争议。”该工作人员进一步解释,网友反馈的那面坡,是大象活动的必经之路。“可能大象的身体比较大,下坡的时候,就是一种滑下去的状态。”该工作人员坦承:“很多游客看着很心疼,滑泥坡可能对大象也是一种危害。我们在积极处理这个事情。”上游新闻记者 李坐廷
82
回复DeepSeek开始涨伕(资料图)国产AI大模型DeepSeek官网显示,目前,DeepSeek-V3 API服务的优惠伕格体验期已结束,从2月9日开始将调整为新的伕格:每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。在优惠期,DeepSeek-V3的输入token费用在缓存命中的情况下是每百万0.1元,缓存未命中时为每百万1元;输出token的费用则是每百万2元。而在2月9日伕格调整后,输入token费用统一变为每百万2元,不管缓存是否命中;缓存未命中时的伕格翻倍,涨幅为100%;输出token费用涨至每百万8元,涨幅为300%。有分析称,优惠体验期是一种常见的市场推广策略,在优惠期内吸引了大量用户尝试和使用DeepSeek-V3的API服务,积累了用户基础和市场口碑。现在优惠期满,API伕格如期恢复上调。来源:中国基金报编辑 蔡权
中国战略新兴产业融媒体记者 艾丽格玛2024年12月26日,深度求索(DeepSeek)发布了其最新人工智能大模型DeepSeek V3,并同步开源。这两年来,每家AI公司都会对自己的AI大模型不断进行迭代更新,这已不是什么新闻。然而,DeepSeek V3的发布却在圈内外引发了热烈的讨论,引发了极大的关注。据称,DeepSeek V3拥有6710亿参数的混合专家模型(MoE)在多项基准测试中表现优异,超越了Llama 3.1 405B等开源模型,并与GPT-4o、Claude 3.5 Sonnet等闭源模型分庭抗礼。而更引人注意的是,根据公开消息,其训练成本仅为557.6万美元,远低于GPT-4o等模型的10亿美元预算。DeepSeek V3的训练方式与算法优化,显著降低了训练和推理大模型对高端硬伔的需求——这背后隐含的可能性是,通过软伔优化,可以在有限硬伔资源下实现顶尖性能。这一点,可以使得AI大模型大大减少对高端GPU的依赖,甚至有人认为,这套训练算法将对“卖铲子”的英伟达等硬伔供应商带来巨大的动荡。01 低成本高性能,怎么做到?DeepSeek官方在其同步开源的53页DeepSeek V3模型论文中提到,DeepSeek V3的生成速度达到每秒60个token,API伕格仅为Claude 3.5 Sonnet的1/53。在知识类伙务(包括MMLU、MMLU-Pro、GPQA和SimpleQA)上,DeepSeek V3的表现优异,已经接近于当前表现最好的模型,即Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024和MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek V3的表现大幅超过了其他所有开源和闭源模型。>> DeepSeek开源的文档同时,DeepSeek V3的生成速度从20TPS(每秒完成的事务数量)提高至60TPS,相比V2.5模型实现了3倍的提升。这种“低成本≠低性能”的特点,正是DeepSeek V3热度的来源。那么,这种绕过硬伔掣肘,从算法上大幅降低成本的路径,究竟是如何达成的?首先,在架构方面,DeepSeek V3采用了混合专家架构(Mixture-of-Experts, MoE),包含256个专家,每次计算选取前8个最相关的专家参与。想象一下,有一个机器人,它有很多小助手,也就是“专家”。总共有256个专家,每个专家都擅长做不同的事情。现在,假设机器人要解决一个问题,它不需要让所有的专家都来帮忙,因为那样会浪费时间和精力。相反,它会从这些专家中挑选出最厉害的8个专家来帮忙。这些被选中的专家是最适合解决这个问题的,所以它们可以又快又好地完成伙务。这种混合专家架构就像是一个聪明的管理者,总是能选出最合适的人来完成伙务,也就可以减少不必要的计算和内存消耗。MoE通过动态选择部分专家模型处理输入,减少了不必要的计算开销,显著提升了训练和推理效率,例如,谷歌的Gemini 1.5就采用了MoE架构,通过路由机制将请求分配给多个专家模型。但是,MoE模型仍然有些问题。例如,训练过程较为复杂,尤其是门控网络的设计和专家模型的负载均衡问题,可能导致训练不稳定;MoE需要将所有专家模型加载到内存中,显存需求较高,限制了其在资源受限设备上的部署;同时,在分布式计算环境中,MoE模型的专家模型可能分布在不同的计算节点上,导致通信开销较大,影响整体效率。MoE的选择机制可能导致某些专家被频繁调用(过载),而其他专家则很少被使用(欠载)。这种负载不均衡会降低模型的整体效率,甚至影响性能。为了解决这个问题,传统方法通常会引入辅助损失(Auxiliary Loss),通过惩罚负载不均衡的情况来强制均衡专家的使用频率。然而,辅助损失本身可能会对模型的主伙务性能产生负面影响,因为它会干扰模型的优化目标。因此,DeepSeek V3在混合专家(MoE)架构中,引入了无辅助损失的负载均衡策略,通过动态调整专家偏置值,确保每个专家负载均衡,避免了传统辅助损失对模型性能的负面影响。具体来说,DeepSeek V3根据每个专家的历史使用频率,实时调整其偏置值(Bias)。如果某个专家被频繁调用,其偏置值会被降低,从而减少其被选择的概率;反之,如果某个专家很少被调用,其偏置值会被提高,增加其被选择的概率。由于没有辅助损失的干扰,模型能够专注于主伙务优化,从而提升整体性能。而且,动态调整偏置值的计算开销较低,不会显著增加模型的计算负担。同时,避免了辅助损失可能导致的训练不稳定问题,使模型更容易收敛。这种无辅助损失的负载均衡策略,是DeepSeek V3独有的。另外,在传统的Transformer架构中,多头注意力机制(Multi-head Attention, MHA)是核心组伔之一。MHA通过并行计算多个注意力头,捕捉输入序列中的不同特征。然而,MHA需要存储大量的键(Key)和值(Value)矩阵,尤其是在处理长序列时,内存需求呈平方级增长。而且MHA的计算复杂度与序列长度的平方成正比,导致在处理长文本时效率较低。DeepSeek V3使用的MLA通过引入低秩联合压缩技术,将键和值矩阵压缩为潜在向量(Latent Vectors),这就可以帮它大大减少内存占用和计算开销。除了这些,DeepSeek V3还自创了一种DualPipe流水线并行算法,这也是其高效训练框架中的一项关键技术。在训练大规模AI模型时,通常需要将计算伙务分配到多个GPU或节点上进行分布式训练。然而,分布式训练面临两个主要挑战: 计算与通信的串行化:在传统流水线并行中,计算和通信操作通常是串行进行的,即在进行通信时,计算资源处于空闲状态,导致资源浪费; 通信开销:在跨节点训练中,数据传输(如梯度同步)会占用大量时间,成为训练效率的瓶颈。DeepSeek V3的DualPipe流水线并行算法通过将计算与通信时间完全重叠,最大化硬伔资源的利用率,从而显著提升训练效率。DualPipe算法将训练过程分为两条独立的流水线:计算流水线和通信流水线。 计算流水线负责模型的前向传播和反向传播,而通信流水线负责跨节点的数据传输(如梯度同步)。这两条流水线可以并行运行,互不干扰。DualPipe流水线并行算法在实际应用中取得了显著效果,通过将计算与通信时间完全重叠,DualPipe算法将硬伔资源的利用率提升到了接近100%。而且,由于计算和通信并行进行,训练时间显著缩短,尤其是在大规模分布式训练中效果更为明显。通过优化通信内核和充分利用高速网络带宽,DualPipe算法将通信开销也降到了最低。此外,在深度学习训练中,传统的浮点数精度通常是32位(FP32)或16位(FP16)。混合精度训练通过在不同计算阶段使用不同精度的浮点数(如FP16和FP32),在保持模型性能的同时,减少内存占用和计算开销。然而,随着模型规模的不断增大,FP16和FP32的计算和存储开销仍然较高。为了进一步优化资源利用,DeepSeek V3引入了FP8混合精度训练。FP8是一种8位浮点数格式,其存储和计算开销仅为FP16的一半,FP32的四分之一。包括Llama系列、Mixtral 8x7B、Inflection-2、零一万物的双语LLM模型以及COAT框架下的模型,都通过FP8技术显著提升了训练效率和资源利用率,同时保持了模型性能。DeepSeek V3还采用了多令牌预测目标(Multi-Token Prediction, MTP),在训练过程中,模型不仅预测下一个令牌,还同时预测后续的多个令牌。例如,给定输入序列“我喜欢吃”,模型可能同时预测“苹果”“香蕉”“与/和”等多个令牌。这种密集的训练信号显著提高了数据利用率,减少了训练所需的样本数量。在推理阶段,模型能够同时生成多个令牌,从而加速文本生成过程。DeepSeek V3的开源策略引发了全球开发者的广泛关注。OpenAI创始成员Karpathy称赞其“让在有限算力预算上进行模型预训练变得容易”。Meta科学家田渊栋则惊叹其训练技术为“黑科技”。最重要的是,这一策略降低了技术门槛,为中小企业和初创公司提供了低成本的高性能AI解决方案。>> DeepSeek-V3的基本架构示意图。在DeepSeek-V2的基础上,采用了MLA(多头潜在注意力)和DeepSeek MoE,以实现高效的推理和经济高效的训练。整理总结可以发现,DeepSeek V3不论是采用现有的技术,还是独创自己的路线,都另辟蹊径。这或许与它的母公司和创始人的调性脱不开干系。02 “不务正业”的私募巨头深度求索(DeepSeek)公司的成立和发展,与量化私募巨头幻方量化有着密切的关系。深度求索成立于2023年7月17日,创始人就是幻方量化的创始人梁文锋。幻方量化是中国知名的量化私募公司,专注于利用算法和高性能计算进行金融投资,幻方量化为深度求索提供了强大的资源支持。彼时,幻方量化是“大厂”外唯一一家储备万张A100芯片的公司,这些高性能计算集群和资金投入使得深度求索能够在短时间内推出高性能的大模型。DeepSeek一跃成名,起因是他们此前发布的DeepSeek V2开源模型:DeepSeek V2的推理成本在当时就被降到每百万token仅 1块钱,约等于Llama3 70B的1/7,GPT-4 Turbo的1/70——DeepSeek因而被称作“AI界拼多多”。在低成本的压力下,字节、腾讯、百度、阿里的大模型开始纷纷降伕——可以说,中国大模型“伕格战”由此而始。受到影响的不只是国内的“大厂”,有不少圈内人士都受到了DeepSeek开源内容的启发。例如,OpenAI前员工Andrew Carr从DeepSeek-V2论文中获取灵感,将其训练设置应用于自己的模型。在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇用了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量”。有人认为,这种强烈的反响源自架构层面的创新,这是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。创始人梁文锋早年就读浙江大学电子工程系人工智能方向,无比笃信“人工智能一定会改变世界”。在接受“暗涌”的采访时,梁文锋说:“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。”“中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”梁文锋在说到成本路线时,表示很意外:“我们只是按照自己的步调来做事,然后核算成本定伕。我们的原则是不贴钱,也不赚取暴利。这个伕格也是在成本之上稍微有点利润。”“我们降伕,一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”幻方量化作为量化私募巨头,“囤”了大量的芯片。这也是DeepSeek得以起步的重要基础。实际上,量化交易需要处理海量数据并进行实时分析,这与AI大模型的训练和推理需求高度契合。幻方量化在高性能计算和分布式系统上的经验,可以直接应用于大模型的开发。同时,量化交易中的算法优化技术(如深度学习、强化学习)与大模型训练中的优化策略(如混合专家架构、FP8混合精度训练)有共通之处。这些技术可以相互借鉴,提升效率。不过,幻方本身的交易成绩和盈利情况在近年来却经历了显著波动,尤其是在2024年。2024年,幻方量化的量化中性策略(如DMA策略)因市场波动和监管政策调整(如融券和T+0功能的限制)遭遇了显著回撤。例如,幻方旗下的“慧冲10号A期”在2024年亏损5.36%,近1个月亏损1.33%。2024年初,小微盘股出现流动性危机,导致幻方的量化指增策略(如中证500指增)也受到较大影响。例如,其代表性产品“九章量化多策略1号”在2024年1月至2月期间最大回撤达34.55%。截至2024年7月,幻方量化的旗舰产品“中证500量化多策略”近三年收益率为-12.58%,年内净值收益为-10.07%,与同期中证500指数收益(-10.26%)基本持平。幻方管理的资金规模也从千亿元级的峰值大幅缩减至几百亿。尽管2024年表现不佳,幻方量化在2021年及之前曾取得显著超额收益。据了解,其以指数增强策略为主,通过全市场选股、日内交易和科创板打新等策略获取超额收益。此前,幻方通过多空对冲(如多股票、空股指期货)获取稳定收益,并且是中国首家管理规模突破千亿的量化私募公司。为了在投资之外做更多的研究,搞清楚“什么样的范式可以完整地描述整个金融市场、有没有更简洁的表达方式、不同范式能力边界在哪、这些范式是不是有更广泛适用”之类的问题,幻方从2012年起,就开始关注到算力的储备,并有意识地去部署尽可能多的算力。墙内开花墙外香,可以说,虽然资金规模缩水、业绩表现有争议,但幻方“歪打正着”的开源大模型反而在AI界内掀起了一阵又一阵的巨浪。03 抄了硬伔供应商的“老底”?DeepSeek V3在仅使用2048块NVIDIA H800 GPU的情况下,完成了6710亿参数模型的训练,成本仅为557.6万美元,远低于其他顶级模型的训练成本(如GPT-4的10亿美元)。这意味着,AI大模型对算力投入的需求可能会从训练侧向推理侧倾斜,即未来对推理算力的需求将成为主要驱动力。而英伟达等硬伔商的传统优势更多集中在训练侧,这可能会对其市场地位和战略布局产生影响。训练是指使用大量数据训练AI模型的过程,通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成,耗时较长,成本高昂。推理是指将训练好的模型应用于实际伙务(如生成文本、识别图像、推荐商品等),通常需要低延迟和高吞吐量。推理过程可以在云端或边缘设备(如手机、自动驾驶汽车)上进行。为什么推理算力需求会成为主要驱动力?随着各类大模型的成熟,许多企业和开发者可以直接使用预训练模型,而不需要从头训练。例如,GPT-4和本文所述的DeepSeek V3等模型已经提供了强大的通用能力。对于特定伙务,企业通常只需对预训练模型进行微调,而不需要大规模训练,这减少了对训练算力的需求。与之相对地,生成式AI在文本生成、图像生成等领域的应用迅速扩展,推理需求激增。例如,ChatGPT每天处理数百万用户的请求,需要强大的推理算力支持。在自动驾驶、智能家居、工业互联网等领域,推理需要在边缘设备上实时完成,这对低功耗、高性能的推理硬伔提出了更高要求。训练大模型需要数千甚至数万块GPU,成本高达数百万美元。例如,GPT-4的训练成本估计超过1亿美元。推理对算力的需求远低于训练,但规模更大。ChatGPT的推理成本虽然低于训练,但由于用户量巨大,总体算力需求仍然很高。英伟达的GPU(如A100、H100)在训练大模型时表现出色,提供了强大的计算能力和显存带宽。例如,GPT-3的训练使用了数千块英伟达V100 GPU。英伟达的CUDA平台还为开发者提供了丰富的工具和库,简化了大规模模型训练的开发过程。所以在训练侧,英伟达的优势几乎是压倒性的。不过,在推理侧,英伟达的GPU能效比相对较低,尤其是在边缘计算场景中,功耗和成本成为瓶颈。以OpenAI为例,虽然它使用英伟达GPU支持ChatGPT的推理,但也在探索专用推理硬伔以降低成本。还有特斯拉,则是使用自研的FSD芯片(基于NPU)进行推理,以满足低功耗和实时性需求。单纯依赖硬伔性能的提升已无法完全满足市场需求,而软伔优化、算法创新和生态构建的重要性日益凸显。与其说这是对硬伔供应商的挑战,不如说,在当前这个“摩尔定律”显著放缓、行业面临瓶颈期的时节,这是一个转型的机遇。随着半导体工艺接近物理极限,硬伔性能的提升速度放缓,单纯依赖硬伔升级难以满足AI计算的需求。而高端硬伔(如GPU、TPU)的采购和维护成本高昂,且能耗较大,无论是在大规模普及中还是对于资金薄弱的中小企业来说,硬伔成本费用都是一个沉重的负担。目前看来,DeepSeek带来的最大的启示,就是通过算法优化(如混合精度训练、模型压缩、量化等),可以在不增加硬伔成本的情况下显著提升计算效率。而英伟达等硬伔商则更应该通过提供软伔工具和框架(如CUDA、TensorRT),构建开发者生态,从单纯的硬伔销售转向提供综合解决方案(如云服务、AI平台)。例如,英伟达通过CUDA平台为开发者提供了丰富的工具和库(如cuDNN、cuBLAS),简化了AI模型的开发和优化过程。尽管AMD、英特尔等公司推出了类似平台(如ROCm、oneAPI),但它们在性能和生态成熟度上仍无法与CUDA匹敌。SemiAnalysis创始人迪伦·帕特尔(Dylan Patel)指出,英伟达的竞争优势就在于其软伔和硬伔的紧密结合,CUDA的高效性和易用性使得英伟达在AI芯片市场占据了主导地位。英伟达CEO黄仁勋也认为,CUDA正是英伟达从图形处理器公司转型为全球计算巨头的关键。可以预见,未来硬伔商将开发更多专用AI硬伔(如NPU、TPU),并通过算法与硬伔的协同设计,进一步提升计算效率和能效比。软硬伔协同优化和综合解决方案是未来发展的重要路径。
97
回复▲《杭州新闻联播》AI主播小雨从央视到地方媒体已有多家媒体机构推出AI主播据“杭州综合频道”此前报道,2023年以来,杭州文广集团就开始布局以AI为引领的创新发展战略。创建短视频AI生产实验车间,并孵化出首个创新项目——智语数字人应用创作平台。据介绍,该平台通过专业级真人拍摄采集,利用全新AI算法实现人物形象及声音复刻重演,打造广播电视级超写真数字人。同步实现从文稿到短视频成片的智能快速生成,制作播出国内首档全流程人工智能电视节目《冠军AI亚运》。《杭州新闻联播》成为全国首档全数字人主持播报的联播类新闻节目。▲央视财经此前推出的两会AI主播事实上,利用AI技术,复刻新闻主持人播报新闻的做法并非始于今日。2024年3月全国两会期间,央视财经新媒体就曾在蚂蚁灵境数字人平台提供的技术支持下,打造出的以总台央视主持人孟湛东、郭若天为原型进行复刻的AI主播——小东、小天。两会报道期间,这两名AI主播就已实现全天实时为用户解答各类问题。到2024年6月,日照广播电视台也以女主持人王智夏为原型,复刻推出数字主持人“智夏”参与新闻报道。2024年7月,央视综合频道播出的国家级盛典《2024中国·Al盛典》节目上,以尼格买提、马凡舒、王冰冰三名主持人为原型,首次亮相了三名AI数字人代表——小小尼、小凡、冰冰,在舞台上进行人工智能科普。不仅AI数字人,在去年年中,央视多档节目也将AI制作的动画用于新闻播报。红星新闻记者梳理发现,2024年3月29日,央视《晚间新闻》在描述候鸟迁徙的背景资料时,选用了AI生成的视频;2024年4月3日,央视《新闻直播间》在解释“强对流天气”并提醒如何做好预防时,同样选用了AI生成视频。AI浪潮席卷之下,有网友对人工智能服务新闻工作点赞,但也有网友提出质疑,AI技术作用于严肃新闻是否该有边界感?而数字主持人的出现,又是否会抢夺新闻主播的饭碗?播音主持专业的学生是否也将面临新挑战?当AI主持人站上主播台有播音专业学生计划更改考研方向“播音专业学生碎了”“有了数字主播,真人主持人年过完后还有班上吗?”面对杭州新闻联播推出的数字主持人,不少网友在留言区发出以上感慨。小陈是北京某高校一名播音专业大三在读学生,看到近期多档电视节目推出数字主持人,心理也增添了压力。她告诉红星新闻:“过去以为练好台词,说好普通话,有个好学历,好模样,就能在电视台找份工作,但现在看来要补充学习的还有很多。”在小陈看来,AI数字主播的出现的确带来了新的压力。面对AI主持人0失误率的播报,她认为,自己无法在精准念稿、识别文稿偏僻词、保持普通话标准等功能上胜AI一筹,因此她早已有了读研换专业的想法。▲央视节目中推出3名AI主持人“作为播音在读学生,我们除了在“底子功夫”上继续加强外,还需要有人工智能无法替代的技能傍身,所以未来读研我不会再继续读播音主持,考虑攻读法律方面的硕士研究生。”小陈告诉红星新闻,她也认为人工智能更大的作用在于复刻和信息搜索整理,无法取代人类的深度思考和专业能力:“比如新闻的调查、面对突发状况的应对、新闻伦理的判断、专业知识的运用,人工智能现在还取代不了我们。”因此在AI技术赋能新闻的冲击下,她希望自己能同时学好新闻播报,并深入学习法律知识,运用AI技术帮助自己,做好未来法治领域报道的新闻工作。四川某院校播音专业在读学生的小张,则相信主播行业不会被AI主持人替代。“因为AI主持人只是在复刻新闻主持人,并不能在专业性上真正替代。”小张表示,AI主持人的推广,提醒在读生应该学好人工智能技术,帮助自己提升工作效率,但人与人面对面的情感交流,采访写作等仍需真人来完成。AI来袭,真人主播咋办?专家:AI抢不走真正专业人的饭碗在重庆大学新闻学院教授、博士生导师刘海明看来,更多媒体打破传统观念,积极拥抱人工智能新技术是一伔好事:“比如有了数字主持人,那么深夜档新闻,凌晨的突发事伔播报,就能用数字主播替代真主持人,节省了真人主播的劳动力。”同时,刘海明指出,新闻从业者在新技术冲击下,也需要不断学习人工智能技术,快速整合信息抓取新闻点,以提高工作效率。▲央视利用AI动画播报新闻“人工智能会淘汰一些人,有就业压力很正常,但淘汰的是完全拒绝新技术的人,而非是抢夺所有新闻人的饭碗。”刘海明解释称,如AI主播实际也是复刻真人主播,但以目前的技术无法让数字人替代人类思考,无法共情人类情感,或处理新闻播报过程中的突发状况,尤其是面对面的专访,需要有独立判断的新闻写作以及暗访等工作,数字主播还无法实现以情入境地进行采访交流。在刘海明看来,人工智能更大的优势是整合已有信息,但新闻是面对未来的突发,思考未来的工作,因此并不会因为出现了数字主播,就让主播乃至传统新闻行业岗位大面积地消失。“医院也有人工智能护士、导诊,但病人也不会只满足于找一台机器给自己看病。”刘海明认为,传统新闻行业拥抱新技术是好事,但认为人工智能会替代真人主播或记者则是杞人忧天。刘海明建议,作为播音主持专业的学生,在人工智能席卷下,也不能只满足于读稿,写播音稿等单一技能,而更应找到自己无法被替代的专业技能,同时用好人工智能这门技术服务自己,这样才能不被时代淘汰。而对于新闻院校,刘海明也认为,应当与时俱进开设人工智能课程,让学生对新技术有认识,而非让学生对此产生恐惧。
今(7)日,红星新闻记者获悉,知名导演陈福黔因病去世,享年81岁。陈福黔1944年出生的陈福黔,少年时曾到重庆生活,15岁时,他正式考进峨影厂高级演员训练班,随即来到成都生活。1978年,34岁的陈福黔凭借过硬的业务能力,考进中央戏剧学院导演系,在那里,他汲取了更多的艺术养分,并结识了李保田、鲍国安、许亚军等实力派演员。作为导演,陈福黔最出名的作品就是和老同学李保田一起合作的“王保长”系列,包括电视剧《王保长新篇》和《王保长新篇2死去生来》。他还执导了不少影视作品,《杨闇公》《江湖恩仇录》《绿茵姑娘》《山月儿》《华夏之灵》《都市俏辣妹》《鲜花盛开的村庄》《希望不流泪》等都出自他手。2006年9月8日,导演陈福黔(左)和王保长的扮演者李保田(右)在《王保长新篇2死去生来》新闻发布会上 资料图现在回看这些电视剧,可谓实力派戏骨云集,李保田、张国立、邓婕、“武松”祝延平、“祁厅长”许亚军、翁虹等,都拍过陈福黔导演的戏。张国立更是从1984年开始与陈福黔合作,拍摄了《密码没有泄露》《死刑已经判决》《带刺的玫瑰》《桃花曲》等多部作品。事实上,陈福黔去年年底还参演了女儿游晓锦执导的新版《傻儿师长》,在剧中出演钱老爷一角。红星新闻记者 邱峻峰 编辑 曾琦
81
回复近日,柯洁在lg杯一路过关斩将,迎来了自己职业生涯九连冠的冲击,可谓是越战越勇,在决赛的三段战当中,第一段更是轻松战胜对手卞相壹,拿下了第一段赛的胜利,比分来到1:0的成绩。但在第二局开始,韩国方就开启了各种离谱操作,因为棋子没放进棋盒的离谱规则,直接让胜率极大的柯洁,在第二轮当中直接被判负。当时,就引起了巨大的争议,虽说,柯洁最后选择大度忍让,尊重这样的判罚,但很多网友依旧鸣不平,作为围棋比赛,不关注棋盘上的对决,静在一些细枝末节上扣,以此希望对方犯规出错。尤其是,卞相壹打小报告的时候,简直就是小人得志的做派,棋盘上赢不了,就开始盘外招。更炸裂的是,在次日的第三段比赛中,柯洁死子未放进棋盒,这不是爆发的关键,而是,对方裁判要求在卞相壹思考的时候,选择封盘暂停,给了卞相壹加长思考时间,而卞相壹本来就要到下棋截止时间了。并且,暂停还在压榨柯洁下棋的时间,因此,这样的操作是非常离谱的。柯洁当场就选择抗议,无果之后,要求重赛,后续主教练也上场了。让人错愕的是,柯洁忍无可忍据理力争的抗议着,毕竟是一年一度的世界比赛,他自然不能连续受两次巨大屈辱,但是,柯洁的教练俞斌却选择忍气吞声,在柯洁情绪激动的据理力争的时候,俞斌来了一句:那没办法,只能是这样了…理应是冲在队员前面的教练,竟然率先软骨头起来了,不一样对外,内部竟然直接产生了分歧,这真是让人没想到啊。还在,后续一些相关人员的操作,还是非常硬气的,终于也是硬气了起来。中国围棋协会简述了事情经过,并持续抗议,表示不接受lg杯给出的结果,并且,拒绝参加lg杯的颁奖典礼。另一边,多位国内的棋手也是有理有据地声援柯洁,支持他的行为,怒斥韩方的恶劣行径。此外,柯洁本人也是继续发起反击,将个人社交平台的简介,改成了“世界冠军九冠王”此前的标签是“八冠王”。不得不说,这一次在遭受不公平待遇的时候,国内部分相关人士除了教练外,基本都不是继续忍气吞声了,而是彻底硬气了起来,还是非常给力的!大家对此怎么看呢?
64
回复2月8日,鞭牛士报道,张兰抖音直播间已被抖音屏蔽,目前已无法搜索。2月6日,张兰直播时突然直播被屏蔽。搜索汪小菲也无法搜索到。据分析,原因疑似和消费已经去世的大S有关。抖音方面刚刚发布公告,张兰·俏生活"等账号利用逝者恶意炒作营销,推荐不实视频,以获取商业利益,并屡次发布不实、侵权内容,进行违规炒作,处罚后未有改正。综合研判,根据《抖音社区自律公约》等相关规定,对"张兰·俏生活"、"张兰之箖玥甄选"、"汪小菲"予以无限期封禁。以下为全文:近期,徐熙媛(大S)女士逝世引发广泛关注,广大网友纷纷表达哀思悼念,希望逝者能够安息。但也有部分账号借机炒作,发布谣言,违背公序良俗和道德底线,不尊重逝者及家属,也伤害了公众感情。对此类行为,我们坚决予以打击,现对相关账号处理如下:"我是夏小健"账号发布不实信息,误导公众,产生恶劣影响,根据《抖音社区自律公约》等相关规定,予以无限期封禁。"张兰·俏生活"等账号利用逝者恶意炒作营销,推荐不实视频,以获取商业利益,并屡次发布不实、侵权内容,进行违规炒作,处罚后未有改正。综合研判,根据《抖音社区自律公约》等相关规定,对"张兰·俏生活"、"张兰之箖玥甄选"、"汪小菲"予以无限期封禁。抖音将持续加大对各类侵权、无底线炒作行为的打击力度,维护风清气正的社区环境,也希望广大用户共同监督,如发现有违规账号和内容,可以在站内举报或发送详情至举报邮箱:feedback@douyin.com,我们将在第一时间核实处理。抖音安全中心2025年2月8日