在 IBM-Watson Knowledge Studio 中下载 ML 注释
Downloading ML annotations in IBM-Watson Knowledge Studio
我在使用 WKS 的 NLP 应用程序中工作,经过训练后,得到的结果相当低。
我想知道是否有一种方法可以下载带有实体分类的注释文档,包括训练集和测试集,这样我就可以自动详细识别,关键区别在哪里,所以我可以修复它们。
人工标注的,可在"Assets" / "Documents" -> 下载文档集(右侧按钮)下载。
下面的Python代码,让你看看里面的数据:
import json
import zipfile
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('documents.json') as arch:
data = arch.read()
documents = json.loads(data)
print(json.dumps(documents,indent=2,separators=(',',':')))
df_documentos = pd.DataFrame(None)
i = 0
for documento in documents:
df_documentos.at[i,'name'] = documento['name']
df_documentos.at[i,'text'] = documento['text']
df_documentos.at[i,'status'] = documento['status']
df_documentos.at[i,'id'] = documento['id']
df_documentos.at[i,'createdDate'] = '{:14.0f}'.format(documento['createdDate'])
df_documentos.at[i,'modifiedDate'] = '{:14.0f}'.format(documento['modifiedDate'])
i += 1
df_documentos
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('sets.json') as arch:
data = arch.read()
sets = json.loads(data)
print(json.dumps(sets,indent=2,separators=(',',':')))
df_sets = pd.DataFrame(None)
i = 0
for set in sets:
df_sets.at[i,'type'] = set['type']
df_sets.at[i,'name'] = set['name']
df_sets.at[i,'count'] = '{:6.0f}'.format(set['count'])
df_sets.at[i,'id'] = set['id']
df_sets.at[i,'createdDate'] = '{:14.0f}'.format(set['createdDate'])
df_sets.at[i,'modifiedDate'] = '{:14.0f}'.format(set['modifiedDate'])
i += 1
df_sets
然后可以循环读取压缩文件"gt"文件夹下的JSON个文件,得到详细的分句、分词和注释。
我需要的是能够通过 TEST 文档下载机器学习模型产生的注释,这些注释在 "Machine Learning Model" / "Performance" / "View Decoding Results" 中可见。
有了这个,我将能够识别可能导致修改类型字典和注释标准的特定偏差。
抱歉,此功能当前不可用。
您可以通过以下方式提交功能请求URL:
https://ibm-data-and-ai.ideas.aha.io/?project=WKS
谢谢。
我在使用 WKS 的 NLP 应用程序中工作,经过训练后,得到的结果相当低。
我想知道是否有一种方法可以下载带有实体分类的注释文档,包括训练集和测试集,这样我就可以自动详细识别,关键区别在哪里,所以我可以修复它们。
人工标注的,可在"Assets" / "Documents" -> 下载文档集(右侧按钮)下载。
下面的Python代码,让你看看里面的数据:
import json
import zipfile
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('documents.json') as arch:
data = arch.read()
documents = json.loads(data)
print(json.dumps(documents,indent=2,separators=(',',':')))
df_documentos = pd.DataFrame(None)
i = 0
for documento in documents:
df_documentos.at[i,'name'] = documento['name']
df_documentos.at[i,'text'] = documento['text']
df_documentos.at[i,'status'] = documento['status']
df_documentos.at[i,'id'] = documento['id']
df_documentos.at[i,'createdDate'] = '{:14.0f}'.format(documento['createdDate'])
df_documentos.at[i,'modifiedDate'] = '{:14.0f}'.format(documento['modifiedDate'])
i += 1
df_documentos
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('sets.json') as arch:
data = arch.read()
sets = json.loads(data)
print(json.dumps(sets,indent=2,separators=(',',':')))
df_sets = pd.DataFrame(None)
i = 0
for set in sets:
df_sets.at[i,'type'] = set['type']
df_sets.at[i,'name'] = set['name']
df_sets.at[i,'count'] = '{:6.0f}'.format(set['count'])
df_sets.at[i,'id'] = set['id']
df_sets.at[i,'createdDate'] = '{:14.0f}'.format(set['createdDate'])
df_sets.at[i,'modifiedDate'] = '{:14.0f}'.format(set['modifiedDate'])
i += 1
df_sets
然后可以循环读取压缩文件"gt"文件夹下的JSON个文件,得到详细的分句、分词和注释。
我需要的是能够通过 TEST 文档下载机器学习模型产生的注释,这些注释在 "Machine Learning Model" / "Performance" / "View Decoding Results" 中可见。
有了这个,我将能够识别可能导致修改类型字典和注释标准的特定偏差。
抱歉,此功能当前不可用。
您可以通过以下方式提交功能请求URL: https://ibm-data-and-ai.ideas.aha.io/?project=WKS
谢谢。