1.功能描述:
百度地址识别精准提取快递填单文本中的姓名、电话、地址信息,通过自然语言处理辅助地址识别做自动补充和纠正,生成标准规范的结构化信息,大幅提升企业效率。
地址信息提取:精准提取文本填单中的地址信息,并按省、市、区、街道、详细地址的格式结构化输出
地址纠正:针对地址信息中用户填错的省、市、区、街道等字段内容进行辅助纠正
地址补全:结合地图POI数据,帮助补全用户在地址填写步骤中缺失的地理位置信息
姓名信息提取:精准提取文本填单信息中收件人或寄件人的名称,并输出结构化信息
电话信息提取:精准提取文本填单信息中寄件人或收件人的联系方式,并输出结构化信息
2.平台接入
具体接入方式比较简单,可以参考我的另一个帖子,这里就不重复了:
http://ai.baidu.com/forum/topic/show/943327
3.调用攻略(Python3)及评测
3.1首先认证授权:
在开始调用任何API之前需要先进行认证授权,具体的说明请参考:
http://ai.baidu.com/docs#/Auth/top
具体Python3代码如下:
# -*- coding: utf-8 -*-
#!/usr/bin/env pythonimport urllib
import base64
import json
#client_id 为官网获取的AK, client_secret 为官网获取的SK
client_id =【百度云应用的AK】
client_secret =【百度云应用的SK】#获取token
def get_token():
host = 'https://ai.baidu.com/ai-doc/NLP/vk3pmn49r说明的比较清晰,这里就不重复了。
大家需要注意的是:
API访问URL:https://aip.baidubce.com/rpc/2.0/nlp/v1/address Python3调用代码如下:
#调用百度地址接口
def address(content):
token=get_token()
url = 'https://aip.baidubce.com/rpc/2.0/nlp/v1/address'
params = dict()
params['text'] = content
params = json.dumps(params).encode('utf-8')
access_token = token
begin = time.perf_counter()
url = url + "?access_token=" + access_token
request = urllib.request.Request(url=url, data=params)
request.add_header('Content-Type', 'application/json')
response = urllib.request.urlopen(request)
content = response.read()
end = time.perf_counter()
print('处理时长:'+'%.2f'%(end-begin)+'秒')
if content:
content=content.decode('GBK')
data = json.loads(content)
#print ('原文')
#print ('省:',data['text'])
print ('地址')
print ('省:',data['province'])
print ('市:',data['city'])
print ('区:',data['county'])
print ('街道:',data['town'])
print ('详细地址:',data['detail'])
print ('联系人')
print ('姓名:',data['person'])
print ('联系方式:',data['phonenum'])
4.功能评测:
具体效果如下:
5.测试结论和建议
测试下来,整体识别效果不错。百度地址识别的很准确,速度也很快,用起来非常的方便。对于对地址需要快速识别的行业会非常的有帮助。比如可以用于快递单据识别,解析并提取快递单据中的文本信息,标准规范的输出结构化信息,包含姓名、电话、地址,其中地址能够自动将街道及行政区的信息补全,帮助快递或电商企业提高单据处理效率