什么是非结构化数据?

什么是非结构化数据?
最新回答
你继续你的骄傲

2021-02-04 20:55:50

非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。常见的非结构化数据包括word、pdf、ppt及各种格式的图片、视频等。

除了非结构化数据,还有结构化数据和半结构化数据。结构化数据是指关系模型数据,以关系数据库表形式管理的数据,如企业ERP、OA、HR里的数据。半结构化数据是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等。

对于这三种异构数据的处理,主要关注点在于数据的融合、处理和管理。针对多元结构化数据的融合,主要关注在数据的ETL处理以及时效性上。需要做到不同类型的字段映射,新增表字段时,需要新增列,进行二次处理规范时,支持字段转换,并保证三大范式,数据同步的时效性需要根据具体业务场景来确认。

针对半结构化、非结构化数据的处理,由于数据分散,缺乏统一管理,需要借助专业工具。处理方法有两种:一是提取关键信息到结构化数据中进行二次利用,如半结构化(json、xml)、excel、csv数据,结构相对统一;二是从word、PDF等文件中提取关键信息,对于单个文本,市面上有些工具可能可以实现,但对大批量数据,可能需要通过程序自定义正则表达式进行关键信息提取。数据处理较为复杂,综合考虑数据价值和投入产出比,可使用专业工具如FineDataLink,支持结构化/半结构化数据的融合集成,面向ETL数据处理场景,提高数据使用价值。

若需要备份历史文件,可使用FTP或SFTP将文件备份存储到文件服务器,进行文件业务分类、文件名、路径的统一管理,提供统一入口,并通过权限管理方式提供下载使用。