自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="en1fw"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

高效打造知識圖譜，使用LlamaIndex Relik實現(xiàn)實體關(guān)聯(lián)和關(guān)系抽取精華

發(fā)布于 2024-8-20 10:00

瀏覽

0收藏

文本信息轉(zhuǎn)化為知識圖譜的技術(shù)，自問世以來一直是研究界的寵兒。大型語言模型（LLMs）的興起讓這個領(lǐng)域受到更多關(guān)注，但LLMs的成本之高令人卻步。然而，通過對小型模型微調(diào)優(yōu)化，我們可以找到一種更經(jīng)濟(jì)高效的解決方案。

今天向大家介紹Relik，這是由羅馬大學(xué)（Sapienza University of Rome）自然語言處理團(tuán)隊精心研發(fā)的快速、輕量級信息提取框架。

1 信息提取流程

在不依賴LLMs的情況下，信息提取流程通常包括：

高效打造知識圖譜，使用LlamaIndex Relik實現(xiàn)實體關(guān)聯(lián)和關(guān)系抽取-AI.x社區(qū)

上圖呈現(xiàn)了信息提取的完整流程。始于一段簡單的文本輸入：“Tomaz likes to write blog posts. He is particularly interested in drawing diagrams.”。流程首先進(jìn)行指代消解，將“Tomaz”和“He”識別為同一人。緊接著，命名實體識別（NER）技術(shù)辨識出“Tomaz”、“Blog”和“Diagram”等關(guān)鍵實體。

隨后，實體鏈接環(huán)節(jié)將這些識別出的實體與數(shù)據(jù)庫或知識庫中的相應(yīng)條目相對應(yīng)。例如，“Tomaz”對應(yīng)到“Tomaz Bratanic (Q12345)”，“Blog”對應(yīng)到“Blog (Q321)”。然而，"Diagram"在知識庫中未找到匹配項。

接下來，關(guān)系提取步驟進(jìn)一步分析實體間的聯(lián)系，如識別出“Tomaz”與“Blog”之間存在“WRITES”關(guān)系，說明Tomaz撰寫博客；“Tomaz”與“Diagram”之間存在“INTERESTED_IN”關(guān)系，表明他對圖表有興趣。

最后，這些經(jīng)過結(jié)構(gòu)化的實體和關(guān)系信息被整合進(jìn)知識圖譜中，為后續(xù)的數(shù)據(jù)分析或信息檢索提供了有序且易于訪問的資源。

在沒有大型語言模型（LLMs）支持的情況下，信息提取工作通常依賴一系列專業(yè)模型來分別處理指代消解、命名實體識別、實體鏈接和關(guān)系提取等任務(wù)。整合這些模型需要付出額外的工作和細(xì)致的調(diào)整，但這種方法能夠有效降低成本。通過使用和優(yōu)化這些小型、特定任務(wù)的模型，可以在整體上減少系統(tǒng)的構(gòu)建和維護(hù)成本。

代碼可在 GitHub 上獲?。篽ttps://github.com/tomasonjo/blogs/blob/master/llm/llama_relik.ipynb

2 環(huán)境搭建與數(shù)據(jù)準(zhǔn)備

推薦使用獨立的Python環(huán)境，例如Google Colab，以便管理項目依賴項。

接下來配置Neo4j圖數(shù)據(jù)庫以存儲解析出的數(shù)據(jù)。推薦使用Neo4j Aura（https://neo4j.com/cloud/platform/aura-graph-database/），它提供便捷的免費云服務(wù)，且與Google Colab筆記本完美兼容。

完成數(shù)據(jù)庫的搭建后，可通過LlamaIndex建立數(shù)據(jù)庫連接。

from llama_index.graph_stores.neo4j import Neo4jPGStore

username="neo4j"
password="rubber-cuffs-radiator"
url="bolt://54.89.19.156:7687"

graph_store = Neo4jPGStore(
    username=username,
    password=password,
    url=url,
    refresh_schema=False
)

數(shù)據(jù)集

這里使用一個新聞數(shù)據(jù)集進(jìn)行分析，這個數(shù)據(jù)集是通過Diffbot API（https://www.diffbot.com/data/article/）獲取的。

import pandas as pd

NUMBER_OF_ARTICLES = 100
news = pd.read_csv(
    "https://raw.githubusercontent.com/tomasonjo/blog-datasets/main/news_articles.csv"
)
news = news.head(NUMBER_OF_ARTICLES)

3 技術(shù)實現(xiàn)

信息提取流程首先從指代消解著手，其任務(wù)是識別文本中指代相同實體的不同表述。

據(jù)了解，目前可用于指代消解的開源模型相對較少。經(jīng)過嘗試比較，這里選擇使用spaCy的Coreferee（https://spacy.io/universe/project/coreferee）。需要注意的是，使用Coreferee可能會遇到一些依賴性問題。

加載spaCy中的指代消解模型，使用以下代碼實現(xiàn)：

import spacy, coreferee

coref_nlp = spacy.load('en_core_web_lg')
coref_nlp.add_pipe('coreferee')

Coreferee模型能夠識別文本中指代相同實體或?qū)嶓w組的表達(dá)式集群。為了根據(jù)這些識別出的集群對文本進(jìn)行重寫，需要自定義函數(shù)來實現(xiàn)這一過程。

def coref_text(text):
    coref_doc = coref_nlp(text)
    resolved_text = ""

    for token in coref_doc:
        repres = coref_doc._.coref_chains.resolve(token)
        if repres:
            resolved_text += " " + "and".join(
                [
                    t.text
                    if t.ent_type_ == ""
                    else [e.text for e in coref_doc.ents if t in e][0]
                    for t in repres
                ]
            )
        else:
            resolved_text += " " + token.text

    return resolved_text

測試下這個函數(shù)，確保模型和依賴項設(shè)置正確：

print(
    coref_text("Tomaz is so cool. He can solve various Python dependencies and not cry")
)

在這個例子中，模型成功識別出“Tomaz”和“He”實際上指向同一實體。通過應(yīng)用coref_text函數(shù)，將“Tomaz”替換“He”。

請注意，這種重寫機制并不總能生成完全符合語法規(guī)則的句子，因為它采用了一種直接的替換邏輯來處理文本中的實體集群。盡管如此，對于大多數(shù)應(yīng)用場景，這種方法已經(jīng)足夠有效。

現(xiàn)在把這一指代消解技術(shù)應(yīng)用于我們的新聞數(shù)據(jù)集，并將其轉(zhuǎn)換為LlamaIndex文檔格式：

from llama_index.core import Document

news["coref_text"] = news["text"].apply(coref_text)
documents = [
    Document(text=f"{row['title']}: {row['coref_text']}")
    for i, row in news.iterrows()
]

實體鏈接和關(guān)系提取

Relik庫集成了實體鏈接和關(guān)系提取兩大功能，能夠?qū)⑦@兩種技術(shù)融合應(yīng)用。實體鏈接時，Relik以維基百科為依托，實現(xiàn)文本實體與百科條目的精準(zhǔn)對應(yīng)。

高效打造知識圖譜，使用LlamaIndex Relik實現(xiàn)實體關(guān)聯(lián)和關(guān)系抽取-AI.x社區(qū)

將實體鏈接到維基百科

在關(guān)系提取方面，Relik通過辨識和定義文本中實體間的關(guān)系，幫助我們將原始的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為有序的結(jié)構(gòu)化信息。

高效打造知識圖譜，使用LlamaIndex Relik實現(xiàn)實體關(guān)聯(lián)和關(guān)系抽取-AI.x社區(qū)

關(guān)系提取

如果你使用的是Colab的免費版本，請選擇relik-ie/relik-relation-extraction-small模型，這個模型專門負(fù)責(zé)關(guān)系提取。如果有Colab Pro版本，或者打算在本地更高性能的機器上運行，那么可以嘗試relik-ie/relik-cie-small模型，它不僅包含關(guān)系提取，還能進(jìn)行實體鏈接的功能。

from llama_index.extractors.relik.base import RelikPathExtractor

relik = RelikPathExtractor(
    model="relik-ie/relik-relation-extraction-small"
)

# 在Pro Collab上使用GPU
# relik = RelikPathExtractor(
#    model="relik-ie/relik-cie-small", model_cnotallow={"skip_metadata": True, "device":"cuda"}
# )

此外，我們必須定義將用于嵌入實體的嵌入模型，以及用于問答流程的LLM：

import os

from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.llms.openai import OpenAI

os.environ["OPENAI_API_KEY"] = "sk-"

llm = OpenAI(model="gpt-4o", temperature=0.0)
embed_model = OpenAIEmbedding(model_name="text-embedding-3-small")

注意在構(gòu)建知識圖譜的過程中，不會使用大型語言模型（LLM）。

4 知識圖譜的構(gòu)建與應(yīng)用

目前，一切準(zhǔn)備工作已經(jīng)就緒。接下來，可以創(chuàng)建PropertyGraphIndex實例，并將新聞文檔作為數(shù)據(jù)輸入，整合進(jìn)知識圖譜中。

此外，為了提取文檔中的關(guān)系，需要將relik模型設(shè)置為kg_extractors參數(shù)的值。

from llama_index.core import PropertyGraphIndex

index = PropertyGraphIndex.from_documents(
    documents,
    kg_extractors=[relik],
    llm=llm,
    embed_model=embed_model,
    property_graph_store=graph_store,
    show_progress=True,
)

構(gòu)建圖后，可以打開Neo4j瀏覽器來驗證導(dǎo)入的圖。通過運行以下Cypher語句獲得類似的可視化：

MATCH p=(:__Entity__)--(:__Entity__)
RETURN p LIMIT 250

結(jié)果：

高效打造知識圖譜，使用LlamaIndex Relik實現(xiàn)實體關(guān)聯(lián)和關(guān)系抽取-AI.x社區(qū)

5 問答功能實現(xiàn)

使用LlamaIndex，現(xiàn)在可以輕松地進(jìn)行問答。只需利用系統(tǒng)自帶的圖檢索器，便能夠直接提出問題：

query_engine = index.as_query_engine(include_text=True)

response = query_engine.query("What happened at Ryanair?")
print(str(response))

這就是定義的 LLM 和嵌入模型發(fā)揮作用的地方。

6 總結(jié)

不依賴大型語言模型構(gòu)建知識圖譜是切實可行，具有成本效益且效率高。通過優(yōu)化調(diào)整如Relik框架中的小型、任務(wù)專精的模型，檢索增強型生成應(yīng)用便能高效提取信息。

實體鏈接作為關(guān)鍵步驟，確保了識別出的實體能夠準(zhǔn)確映射到知識庫中的對應(yīng)條目，從而維持了知識圖譜的完整性與實用性。

借助Relik框架和Neo4j平臺，我們能夠構(gòu)建出功能強大的知識圖譜，這些圖譜可以助力復(fù)雜的數(shù)據(jù)分析和檢索任務(wù)，而且避免了部署大型語言模型所帶來的高昂成本。這種方法不僅讓先進(jìn)的數(shù)據(jù)處理工具變得更加親民，也推動了信息提取流程的創(chuàng)新與效率。

本文轉(zhuǎn)載自 ??AI科技論談??，作者：小AI

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

基于知識圖譜的少樣本和零樣本學(xué)習(xí)綜述

mb5f8eba9bdb0af ? 3099瀏覽 ? 0回復(fù)
基于規(guī)則學(xué)習(xí)的關(guān)系模式知識圖譜嵌入研究

mb5f8eba9bdb0af ? 3683瀏覽 ? 0回復(fù)
基于預(yù)訓(xùn)練模型的知識圖譜嵌入編輯

mb5f8eba9bdb0af ? 2758瀏覽 ? 0回復(fù)
怎么看大模型、RAG、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系？

玄姐聊AGI ? 5571瀏覽 ? 0回復(fù)
基于 Kimi 一鍵整理實體及其關(guān)系，并制作知識圖譜

wsp_ping ? 4115瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識圖譜，引領(lǐng)多模態(tài)實體鏈接新紀(jì)元

AI論文解讀 ? 4139瀏覽 ? 0回復(fù)
利用LlamaIndex和本地PDF文檔，輕松打造知識圖譜GraphRAG

小虎哦哦 ? 3861瀏覽 ? 0回復(fù)
知識圖譜與大模型的深度結(jié)合策略剖析

玄姐聊AGI ? 3999瀏覽 ? 0回復(fù)
采用RAG和知識圖譜克服人工智能幻覺問題

51CTO內(nèi)容精選 ? 2480瀏覽 ? 0回復(fù)
基于知識圖譜的LangChain應(yīng)用實戰(zhàn)

ermulong ? 2763瀏覽 ? 0回復(fù)
一文讀懂GraphRAG大模型知識圖譜

數(shù)字化助推器 ? 4005瀏覽 ? 0回復(fù)
什么是知識圖譜和AI多模態(tài)推理

數(shù)字化助推器 ? 2494瀏覽 ? 0回復(fù)
小白也能讀懂的GraphRAG知識圖譜全流程解析，多圖預(yù)警！

AI博物院 ? 6789瀏覽 ? 0回復(fù)
高效抽取PDF文件打造RAG，從LlamaParse轉(zhuǎn)向PymuPDF4llm

AI科技論談 ? 2857瀏覽 ? 0回復(fù)
GraphRAG+Langchain實現(xiàn)大模型知識圖譜

數(shù)字化助推器 ? 2448瀏覽 ? 0回復(fù)
“大模型+知識圖譜”雙輪驅(qū)動的見解、技術(shù)和評估 - 英偉達(dá)的GraphRAG

知識圖譜科技 ? 2766瀏覽 ? 0回復(fù)
從數(shù)據(jù)孤島到智能系統(tǒng)：RAG和知識圖譜的協(xié)同作用

51CTO內(nèi)容精選 ? 2473瀏覽 ? 0回復(fù)
RecKG: 面向推薦系統(tǒng)的標(biāo)準(zhǔn)化知識圖譜研究與實現(xiàn)

頓數(shù)AI ? 1880瀏覽 ? 0回復(fù)
KGGen用語言模型從純文本中提取知識圖譜

ceesoft ? 2569瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Qwen3震撼發(fā)布，問鼎開源寶座，教你快速上手 2025-05-07 07:03:56發(fā)布
擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 2025-05-07 07:01:14發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復(fù)

Qwen3震撼發(fā)布，問鼎開源寶座，教你快速上手 0回復(fù)

Qwen3震撼發(fā)布，問鼎開源寶座，教你快速上手 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

上一篇：從原理到挑戰(zhàn)，梳理AI智能體應(yīng)用

下一篇：基于GPT-4o-mini，使用LangChain打造AI搜索智能體

社區(qū)精華內(nèi)容

目錄

<cite id="e9pty"><rp id="e9pty"><form id="e9pty"></form></rp></cite>

<legend id="e9pty"><track id="e9pty"></track></legend>