智能建造_以见科技AI实践_BIM+AR

400-060-1822

语言

预约产品演示

返回列表

智能建造

人工智能

以见科技

数据源互联

文|以见科技CTO蒋童

如需转载请联系我们获得授权

住房和城乡建设部将北京、天津、重庆、河北雄安新区等24个城市列为智能建造试点城市，试点期3年。对于建筑、工程、施工行业，什么是智能建造？智能建造对建筑业乃至未来智慧城市的发展能起到哪些作用？发展智能建造还需要突破哪些瓶颈？在传统行业加速智能化转型的今天，过去靠“搬砖头、扎钢筋、浇混凝土、装模板”的建筑行业如何实现智能化？这些问题是业内各方从业者都在思考并做创新实践的。

在以见的思考中，对建筑业而言，智能建造是指在建造过程中充分利用人工智能技术和相关自动化技术，通过应用智能化系统，提高建造的智能化水平，减少建造过程对人工的依赖，从而使建造的品质和效率更高，同时，在建筑的全生命周期内实现效率提升、决策更优、节能减碳的目标。

今年以来，以ChatGPT为典范的大模型技术走向台前，大模型是一种人工智能技术，它能够通过大量数据训练，学习到复杂的关系和模式，并加以推断和决策。在传统行业加速智能化转型的今天，大模型技术在建筑工程领域具有广阔的应用前景，同时，辅以已经相对成熟的计算机视觉技术和传统深度学习技术，对于各类工程数据的智能化处理，可以帮助建筑行业提高效率、降低成本、提升质量。

在整个建筑行业，有多个技术提供商提供相关解决方案来管理数据，但他们通常互不兼容。如果所有数据源能够相互关联，将可以充分释放基于人工智能的解决方案的能力，首先，重要的数据类别之一就是现场的图像与视频，以见在计算机视觉技术方向有诸多实践，主要有以下三个维度：

1. 图片与视频流加载、分析与处理

实时解析图片（JPG，PNG）与视频推流（RTSP，RTMP，HLS）。

2.计算机视觉算法与技术的图像强化

支持边缘检测、区域识别和计算机视觉技术分析。

3.深度学习技术

可训练深度学习技术，支持安全帽识别、施工现场设备、智能工艺工法比对等智能算法。

目标检测

基于施工现场自然图像，提供一系列施工场地目标检测能力。

边缘检测：基于自然场景图像，对物体边缘轮廓进行提取。

安全帽检测：基于施工现场拍摄图片，检测生产现场人员是否规范佩戴安全帽。

口罩检测：基于施工现场拍摄图片，检测进场人员是否佩戴口罩。

裂纹检测：基于施工环境图像，对建筑表面、工件进行裂纹检测。

钢筋检测：基于施工现场钢筋图像，对图像中的钢筋进行检测并统计数量。

行人检测：基于施工现场，找出图像或视频中的所有行人。

图像分割

基于施工现场自然图像，对比目标检测，模型支持像素级语义分割。

室内图像语义分割：基于室内装修场景图像，将图像分割为背景、天花板、墙体、地板四种类别。

SAM，即Segment Anything Model图像大模型分割：利用了图像大模型技术，通过对图像进行像素级别的分析和识别，可以将图像中的人物、动物、车辆、建筑物等不同物体进行精确的分割。

区域安全检测

基于施工现场安全规范，提供一系列施工场地安全检测能力。

危险区域检测：基于施工场景图像，手工标定危险区域，检测进入危险区域的施工人员并标记报警。

OCR文本识别

将图像中的文字与图纸内容，智能识别成可编辑的文字或数据信息，有效代替人工录入信息。

CAD图纸识别：通过识别CAD图纸中的轴网及尺寸，将CAD图纸1:1还原到现实环境中，可以进行比对施工现场与设计图纸的差异。

我们做以上基于计算机视觉技术的实践，主要是为了解决工程现场的管理问题和数据处理问题：施工场地每天都会进行风险评估并采取措施减轻风险。有成百上千位分包商同时处理不同的交易；这会产生数千个需要管理的问题，一切都会不断改变。基于计算机视觉的技术重点了解施工经理、项目经理和负责人每天要应对的挑战，以便通过人工智能管理这些问题以及改进流程的方式。

更进一步，智能化的技术可以将问题带来的所有风险汇总发送给负责的总包或者分包商。它会考虑关于总包或分包商的多个因素，例如他们过去的问题管理行为、当前的工作量以及他们负责的问题的重要性。然后，算法可以为项目中的每个分包商分配一个“风险分数”，这是指示当前项目遇到风险程度的指标，以便施工经理能更好地确定时间优先级，从而与这些团队更紧密地合作。

现在每天都会在施工现场拍摄大量的照片和视频。每个建筑工人都有一部带摄像头的手机，为他们创建的每个问题拍摄照片与视频几乎已经成为标准做法。考虑到照片与视频过多，使用计算机视觉技术提供良好的解决方案来管理照片与视频或利用照片与视频的信息获取更好的洞察分析，能产生大量价值。

● ChatGPT/GPT3.5 turbo接入以见开发者平台：

我们很早就关注到GPT为例的大模型技术对企业级软件生产与优化过程中的价值，因此，在年初，我们即在以见开发者平台上接入GPT3.5 turbo and GPT4 API为以见内部同事提供ChatGPT服务，如为开发团队提升代码与算法标准模块提示、为市场团队提升文案和文本类内容生成效率、为产品团队提升行业梳理效率和行业调研效率等，功能自2023年3月上线，下一步我们考虑的是接入GPT4 turbo，并支持更长的上下文。

我们对大模型技术的观察与思考

● 建筑行业两类数据的价值最大：

一类是2D和3D的基础数据，如CAD图纸和BIM模型，这类数据的结构化并未完成，行业也没有成熟的数据集，因此作为预训练的数据进入到目前LLM的技术体系还未有技术实践和产品实践。

另一类数据是建筑业主方企业和大型施工总包单位在业务流程中沉淀的项目数据，财务数据，人力数据，集采数据，质量数据，规则数据等，这类数据结构化较为容易，但业主方和施工总包本身信息化还未闭环，也没有意识、动力、能力做数据治理和沉淀，同样无法做生成式AI及大模型应用，因此，通过技术宣传和价值布道补充体系缺失和意识缺失是即为重要的。

我们看到的机会

● 2D和3D建筑基础数据的结构化和向量化：

以见目前处理并应用了行业内大量的BIM模型，如何将BIM数据这些数据有效进入LLM的技术体系，我们会考虑开源向量索引引擎+MongoDB的实践，积极探索prompt to BIM model，提升BIM模型生成的效率。

● 以见产品一见®AR建筑平台中：

模型处理数据，工单报验数据，进度数据，运维与巡检数据，这些业务流程数据正在逐步积累中，我们期待这部分数据和复杂业务流程能够产生生成式AI的价值。

我们的实践与落地

● 一见®AR建筑平台积极拥抱LLM:

以见面向建筑全生命周期的一见®AR建筑平台中，流程化的功能包括：模型数据处理，工单报验数据提报，进度数据集成，运维与巡检数据；在数据的分析，数据的处理，人机进行数据交互的过程，可以与大模型对文本，图像，流程信息的智能化结合，我们在探索在线场景接入GPT等LLM模型，离线场景接入基于LLaMA等可蒸馏的LLM，提升BIM+AR整体软件可用性和效能，为客户传递更大价值。