cover_image

一家文档智能公司的长期主义

图片
文|林得苗,庖丁科技创始人

今年是庖丁科技的第 6 年。
对于高科技创业公司而言,最重要的是秉承「好钢用在刀刃上」的原则,谨慎地制定公司发展计划,集中研发资源,在某一项技术上做到极致。
不少朋友问过我:在创业之初,为什么选择死磕表格识别这项技术
庖丁科技又是如何在「文档智能」这一新兴赛道上卡住身位,不仅让头部机构买单,甚至还突破了金融行业传统的 IT 合作方式,以按年付费的模式采购技术和产品?
一路走来,更多时间里我们都在埋头做事、打磨产品。最近阅读《跨越鸿沟》一书,其中观点刚好验证了公司这几年的实践和成长。妨借此契机,复盘经验,讲述一些背后的思考。
本文将分享以下内容:
  1. 故事的开始

  2. 并不轻松的决定

  3. 好技术的标准

  4. 解决疑难杂症

  5. 尊重用户


1

   

故事的开始
在创立之初,庖丁科技无疑是幸运的。
创始团队以深度学习等 AI 前沿技术见长,在开始研发公司的第一款产品前,我们思考的原点始终是:
Start by identifying a problem. Don't start with an idea.
为了解决金融行业的审核痛点,2017 年,庖丁科技的首个产品 AutoDoc 诞生了。
AutoDoc 能够基于人工智能模型自动复核金融文档,对其中的语义尤其是数据进行核查。
它代替人工进行了大量数据处理核查工作,避免信息披露文件出现小数点错位、财务数据不一致等错误,更好地满足监管需求,大幅降低了合规风险。
彼时,市面上没有类似的产品,AutoDoc 又能切实解决难题。我们发布了第一篇功能介绍,想要低调地试水,却意外得到了金融业内人士的热情转发,多个券商联系合作。我们也成功签约了几家客户。
第一批种子客户,最初复核的文档主要是 Word 格式。通过 API 直接读取 Word 中的表格和段落,再加上公司自主研发的自然语言处理和表格语义理解的技术,我们很顺利就完成了第一版本,准确率和效果均得到了客户的认可。
《跨越鸿沟》书中提到,高科技企业的「早期市场」「主流市场」之间存在着一条巨大的鸿沟,能否顺利越过并进入主流市场,决定了产品的成败。
图片
种子客户属于图中的「革新者」,在 AutoDoc 仅支持 Word 格式、单一文档内部勾稽关系核查时就决心采用新技术。然而在接洽更多客户时,我们发现,主流市场持观望态度,他们需要更成熟的「整体产品」
客户对「整体产品」的期待中,提及最多的是,希望 AutoDoc 能很好地支持 PDF 和扫描的比对,并支持比对整套文档,包括主文档和辅助材料的一致性检查。
在金融行业,过半数据和表格困在 PDF 里,只能手动摘录和对比。PDF 存储的是视觉信息,能让信息无损耗地流通,却给数据的再次利用造成了困难。
最初,我们想得比较简单。
PDF 格式诞生于 1992 年,已经有将近 30 年的历史。
我们原以为,这样历史悠久的技术,提取段落和表格一定有成熟的解决方案,拿来即用就可以。团队只需要专注于当时最擅长的自然语言处理和表格语义理解就好了。
很遗憾,情况不是我们想的这样。
我们尝试了市面上能找到的技术和产品,包括开源的、免费的和商业产品,但结果却都不能让人满意:
乱码、格式混乱、数据重叠……
识别效果距离客户的期望,还有很大的差距。
图片

2

   

并不轻松的决定
那么问题来了:我们要投入研发力量解决这些问题吗?
对于当时只有十余名研发工程师的小团队来说,all in 表格识别等 PDF 解决方案,并不是一个轻松的决定。
大公司没能做出成熟易用的表格识别功能。背后的原因,究竟是他们力有未逮,还是这件事情的投入产出比本就不高呢?
从 PDF 里提取表格和文字,刚需、但低频。这决定了用户留存数据不会太好看。再加上单次价格不高,即使我们技术做得很好,也很难靠服务个人用户来养活团队。
同时,我们也深知,在拥抱新技术时,金融行业内的前瞻者向来不吝巨资。
经过深入地思考和分析,最终我们决定去赌一次:这是我们必须跨过去的坎,不然团队就没有可想像的未来。
只有解决了 PDF 的问题,我们的技术和产品才能跨越「早期市场」和「大众市场」之间的鸿沟。
我和联合创始人都是做技术出身。我们始终坚信,公司的立足之本,源于持续的技术创新。
比起大厂,小公司的优势在于业务聚焦,能够在一项技术上钻之弥深,把现有的能力边界再突破一点点。
对于一家长期主义的公司而言,构筑竞争壁垒的是「基础技术」。它能够让我们有底气在激烈的商业竞争中静水流深,集中资源用高杠杆撬动一个长板。
下定决心后,我们却没有制定一个明确的研发上线时间表,或者说,无法制定。
技术的创新,需要有超乎寻常的耐心、持之以恒的努力,有时还需要幸运之神的光顾。
我们用了 2 年时间跨越这些技术的门槛。
团队逐一突破了无线框表格识别、元素块识别、自然语言上的公式提取、OCR 技术、长篇副文档编辑器,并将技术打磨成型,凝结到 PDFlux 这款产品中
2019 年,PDFlux 初版产品上线了。
作为「整体产品」的重要部分,PDFlux 的基础能力帮我们拿下了更多的行业客户。虽不敢说已经成功跨越了鸿沟,但确实在金融行业内获得了一定的知名度。
与此同时,C 端的客户虽然没有指数级的爆发性增长,用户总量不大,但我们经常在深夜看到收款提醒,还有用户支付了上千元;甚至在世界杯决赛期间,还有用户支付费用。这让我们更加坚信了 PDFlux 产品的价值。

3

   

好技术的标准
今年夏天,国内知名办公软件厂商在新品发布会上,也向公众展示了自研的手机拍照并识别表格的能力,确实给我们带来了一定的压力。
我们不禁思考:和市面上的产品相比,PDFlux 真的更好用吗?
说实话,最初我们也没有足够的底气。我们并没有对从「输入图片」到「表格识别结果」进行过端到端的评测。
此前,团队只对 OCR、表格外框识别、表格内线识别,每个步骤进行了单独的技术评测。
同时,研发阶段我们主要收集了大量金融领域的文档来训练模型,而实际场景中,用户上传的文档可能千差万别:从资产负债表到大熊猫的喂养事宜,从个人简历到流水记录。
PDFlux 能游刃有余地应对各种真实文档吗?
因此,我们决定进行一次系统性综合评测,来衡量真实场景下的表格识别效果。
参与测评的软件,除了 PDFlux,均来自国内外知名互联网公司或软件提供商:
  • 国内 3 款:Y品牌,B品牌,W品牌

  • 国外 1 款:N品牌

这些产品都可以通过公开链接直接访问。我们无法评测那些不能公开访问(包括需要留下联系方式,表示会后续联系)的产品。


向上滑动查看评测方法


# 评测样本的选取

我们随机找到了 100 位用户,征询同意并签署保密协议后,从他们的日常文件中收集到了百余份参与评测的材料。

再从每份文档中随机抽取 2 页,一共采集 200 个含表格页面,作为评测的样本。这里,每个页面都是一张图片。

样本覆盖了有框线/无框线表格、扫描件/照片、英文/中文、有水印/有印章、金融类/非金融类等多种场景。


# 标准答案的制作

对于每个待评测页面,标注团队人工整理了一份表格识别的标准答案,包括:框出页面上的每个表格区域,对每个表格区域添加内线(若需要则合并单元格),并标注每个表格格子中的文本。

表格识别的标准答案,用于和 5 款产品的识别结果进行比对。


# 评测指标的计算

技术团队制定了客观的评测指标。

具体讲,我们以每个表格格子中的字符串为目标,评测识别结果相对于标准答案的准确率(precision)、召回率(recall),以及综合了准确率和召回率的 F1-Score。

1. 准确率(precision):识别正确的字符串个数 / 识别出来的字符串总量。

仅仅看准确率是不够的,倘若 100 个字符中只识别出来了 1 个,就算识别正确,也没有什么意义。

2. 召回率(recall):识别正确的字符串个数 / 实际上的字符串总量。

召回率度量的是识别结果是否完整。

3. F1 分数(F1-Score):F1 = (2*精确率*召回率) / (精确率 + 召回率)

显然,表格识别的各种错误,包括:外框识别错误、内线识别错误、以及 OCR 文字识别错误,都会影响以上的评测指标。



4

   

解决疑难杂症
我们的测评覆盖了表格识别会遇到的各类「疑难杂症」,最终得出了以下结果:
  • 有框线表格:各款产品均表现良好

  • 无框线表格PDFlux,N品牌识别更准

  • 金融类表格:PDFlux,N品牌数据更准

  • 复杂排版:PDFlux,W品牌识别更好

  • 照片扫描件:PDFlux,N品牌效果更好

  • 印章干扰:PDFlux 不仅可以避免印章干扰识别表格,还能提取印文

图片

从三项指标来说,PDFlux 均显著领先其他产品:准确率超过了 91.89%,召回率也接近 90%
图片

4.1 有框线表格
对于格式整齐的有线框表格5 款产品的识别效果都很好。
唯一的小瑕疵是,W品牌提取的数字格式需要手动调整,N品牌文字之间的空格需要手动删除。
其余 3 款产品提取的数据和格式基本不需要二次操作,可直接使用。
图片
图片
图片
图片
图片
图片
图片

左右滑动查看处理效果

图片

4.2 无框线表格
PDFluxN品牌 的识别效果比较理想。
W品牌的识别基本准确,偶有细微错误需要手动调整。
B品牌的识别结果中出现了部分格式错误;而Y品牌几乎将全部数据放在同一个单元格中,也无法识别出表头和负债明细。
图片
图片
图片
图片
图片
图片
图片

左右滑动查看处理效果

图片

4.3 复杂排版表格
B品牌、Y品牌和N品牌均存在漏识别或多识别单元格的情况。
W品牌PDFlux 的识别效果较为理想。
图片
图片
图片
图片
图片
图片
图片

左右滑动查看处理效果

图片

4.4 金融类表格
PDFlux 对金融类表格进行了专门训练,即使是复杂的财务三大表,准确率也可达到 93.6%,召回率为 91.31%,F-Score 为 91.89%。
N品牌W品牌 的处理效果也相当不错,F1-Score 分别为 83.31% 和 70.81%,实际应用中,这两款产品均具备可用性。
图片
而对于非金融类表格,PDFlux、N品牌、W品牌的可用性均较高。
图片

4.5 拍照识别
对于较为模糊的拍照图片,5 款产品的表现均有待加强
PDFlux 和 N品牌识别提取后,需要人工校准一下,而其余产品的可用性则不高。
  • B品牌,Y品牌和W品牌:部分结构错乱

  • Y品牌,W品牌出现了乱码

  • PDFlux,N品牌可以较为准确识别出照片中的表格格式;但是在其中文字、数字内容的识别上,PDFlux 的准确率更高一些,达到了 90%

图片
图片
图片
图片
图片
图片
图片

左右滑动查看处理效果

图片

4.6 印章识别
除了可以屏蔽印章干扰,准确识别表格,PDFlux 还做了一个功能:提取印文
这是个贴合投行律所业务场景的产品设计:底稿普遍为盖章扫描件,且「公司名称」和「印章存在性检查」均为合规性检查的一部分。
图片

5

   

尊重用户
经此测评,我们对自研的表格识别技术更有信心了。
除了技术过硬外,一款好的产品,还需要满足以下条件:
  • 简单易用

  • 可靠稳定

  • 尊重用户的时间,帮用户解决问题

因此,团队决定,PDFlux 按效果付费
识别不收费,只有当你满意预览结果,并点击复制提取时,我们才消耗积分。每次处理仅消耗 1 积分,也就是 0.1 元钱。
且每日登录时,用户还可以获赠一定的积分,每日都有 5-15 次的免费处理额度。对于一个并不高频的需求来说,相信大部分用户已足够使用。
图片
虽然,在计算机识别内容时,算力费用就已经产生了。无论用户复制与否,我们的成本是一样的。
这是一种压力,也是我们对自己的要求:PDFlux 要解决用户的实际问题。
我们的「解决问题的能力」也得到了企业客户的认可,现阶段客户包括港交所、深交所、中金公司、华泰联合证券、中国银行等 50 多家大型机构。
易用、可靠、稳定的「表格识别」,为全链路的文档智能应用提供了基础能力。
看似微小低频的功能,但以匠人之心,将技术打磨到极致,它能够释放的生产力是巨大的。若以年计算,可节省数万人天的人力。

6

   

结语
在表格识别等基础技术的基础上,我们还开发了文档智能复核、文档智能撰写等一系列文档智能产品。
我们希望个人用户也能和企业用户一样,享受到便宜好用的表格识别服务。
我们也希望和同路人一起,推动表格识别等基础软件的发展。
作为技术出身的团队,我们深知做好一个行业的落地应用已经很不容易,尤其涉及到特定行业的专业表格时,需要非常多的业务认知和领域知识。
我们欢迎各个行业的伙伴们一同探索文档智能(Document AI)基础技术的更多落地场景,如需试用 API 或 SDK,请随时联系我们
做难而正确的事,未来我们会继续加大研发上的投入,努力实现更多技术突破。
在 90 多年前,凯恩斯曾预言,21 世纪高水准的机器自动化可以完成大部分低价值工作,人们一周只需要工作 15 个小时。
消除所有繁琐的文本工作,让 Paper Work 变成 Happy Work

我们会继续为之而努力。

如想体验产品,欢迎联系我们:
官网https://paodingai.com
邮箱:contact@paodingai.com
电话:010-58426539
⬇️ 点击「阅读原文」,立即申请试用




联系我们

相关产品

PDFlux SDK
开箱即用的 PDF 工具包PDFlux SDK
了解更多
Hunter
智能语义搜索引擎Hunter
了解更多
Glazer
庖丁智能撰写Glazer
了解更多
Scriber
文档信息抽取平台Scriber
了解更多