知识库问答答案的evaluation一般都可以使用什么方法?

在基于知识库的问答中,答案生成之后一般需要做evaluation来确定答案是否符合提问。那么这个过程都可以使用什么方法?每种方法都有什么优劣呢?

我在这块研究不多,不过这个应该是个很好的话题,尤其对于生产化部署。如果你找到了一些方案,欢迎开专题展开讲讲。