国家知识产权局信息显示,中国电建集团北京勘测设计研究院有限公司申请一项名为“一种水电建设垂类大语言模型后训练的数据集构建方法”的专利,公开号CN122020183A,申请日期为2026年3月。
专利摘要显示,本发明名称为一种垂类大语言模型后训练的数据集构建方法,属于垂类大语言模型训练技术领域。所要解决的技术问题为水电建设领域垂类大语言模型后训练数据集存在严重长尾数据分布、噪声污染问题。技术方案要点为采用箱线图这一非参数离群点检测算法调控数据分布,先计算数据集样本频次的四分位数与四分位距并识别离群点,再对业务关键的长尾稀缺离群点进行定量数据增强,对噪声、采集错误等不可增强离群点直接清除,最终得到优化的训练数据集。
天眼查资料显示,中国电建集团北京勘测设计研究院有限公司,成立于1989年,位于北京市,是一家以从事研究和试验发展为主的企业。企业注册资本80000万人民币。通过天眼查大数据分析,中国电建集团北京勘测设计研究院有限公司共对外投资了45家企业,参与招投标项目36037次,财产线索方面有商标信息10条,专利信息1183条,此外企业还拥有行政许可125个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
来源:市场资讯