在生物技术行业,生物序列的重要性不可小觑,它们是创新的核心。因为用传统的关键字搜索可能会漏掉关键信息,从而增加研发风险。因此,用序列来搜索常常被用于进行专利FTO和查新。
现今的生物序列搜索主要依赖于同源序列比对法,通过在序列库中找寻相似序列以获得全面的结果。然而,有一种特殊的序列不容忽视,我们称之为通式序列。
所谓的通式序列,是指那些在描述生物序列(如核酸序列、蛋白序列)时,使用特殊符号表示一类或多类碱基或氨基酸的序列。例如,在核酸中的'N'表示任一碱基,'R'表示嘌呤(A或G),'Y'表示嘧啶(C或T)等等。在蛋白序列中,'X'表示任一氨基酸,'B'表示天冬氨酸(D)或酰胺氨酸(N)等等。
由于这种通式序列的存在,使得在进行生物信息学的搜索匹配时,增大了匹配的难度和复杂性。因为我们需要将搜索的序列与目标序列的每一种可能性进行比对,这样才能确保不遗漏任何可能的匹配情况。
对于序列FTO来说,如果在其中存在通式序列,可能会增加其匹配的风险。因为需考虑多种可能性,增加了实验的难度和不确定性。因此,如果我们只是使用传统的序列同源性检索算法,在遇到这种通式序列时,我们可能会错过许多潜在的目标序列,因为这些算法通常只能识别和比较具体的序列,而不能理解和处理这种具有通配符或简并符的通式序列。换句话说,通式序列是一种以更抽象、更通用的方式来描述和保护生物序列信息的策略,可以广泛用于生物医学、生物工程、生物学等领域的专利申请和保护中。
为了解决通式序列带来的漏检风险,智慧芽的算法工程团队使用了他们自主研发的NLP、CV、实体识别和指代消解技术等手段,创建了一个深度学习模型。此模型可以解析和识别序列表和专利全部文本中的通式序列以及其相关的替代信息,并以此来构建通式序列的搜索库。
此库利用特别设计的序列比对算法,不仅可以进行通式序列搜索,而且能够提供真正的相似度返回。这将更进一步减轻专利FTO和查新工作的疏漏风险。
考虑到通式序列可能存在的变化规模估计超过了一百亿,传统的对齐序列算法不能满足实时搜索的需求。因此,智慧芽提供了深度定制的对齐算法,它可以在搜索过程中动态加载通式序列的替代信息,以实现精确搜索并控制搜索时间在合理的范围内。在扫描阶段,智慧芽开发了压缩算法,以创建用于启发式搜索的词表,从而极大地降低了无义的比较,提高了搜索效率。在比对查询序列与目标序列时,智慧芽的专家级算法通过加入通式替代信息,使得比对和查询结果更加准确,结果简洁明了,直接显示查询序列与目标序列在不同变体下的最佳比较结果。
智慧芽生物序列的Bio数据库新添通式序列检索的强大功能,标志着专利领域的巨大转型。对于研究人员和检索人员来说,这是一款极其强效的工具,点击图片立即使用。