Text Similarity

Text Similarity Calculation in NLP

\\\\n

Text similarity calculation is a fundamental task in Natural Language Processing (NLP), aimed at quantifying the degree of similarity between two text segments. This technology has wide applications in information retrieval, question answering systems, plagiarism detection, recommendation systems, and many other fields.

\\\\n

Core Concepts

\\\\n

Semantic Similarity: Measures how close texts are in meaning
Lexical Similarity: Measures the degree of surface vocabulary overlap between texts
Vector Space Model: Represents texts as vectors in high-dimensional space
Distance Metrics: Calculates the distance or similarity between vectors

\\\\n

Common Text Similarity Calculation Methods

\\\\n

1. Word Frequency-based Methods

\\\\n

Bag of Words Model

\\\\n

Example

\\\\n

from sklearn.feature_extraction.text import CountVectorizer\\\\n\\\\ncorpus =[\\\\n\\\\n'ILikeNatural Language Processing',\\\\n\\\\n'IlovelearnNLPtechnology',\\\\n\\\\n'textSimilarityComputeVeryInteresting'\\\\n\\\\n]\\\\n\\\\nvectorizer = CountVectorizer()\\\\n\\\\n X = vectorizer.fit_transform(corpus)\\\\n\\\\nprint(X.toarray())\\\\n

\\\\n

TF-IDF Method

\\\\n

Example

\\\\n

from sklearn.feature_extraction.text import TfidfVectorizer\\\\n\\\\ntfidf = TfidfVectorizer()\\\\n\\\\n tfidf_matrix = tfidf.fit_transform(corpus)\\\\n\\\\nprint(tfidf_matrix.toarray())\\\\n

\\\\n

2. Word Vector-based Methods

\\\\n

Word2Vec Similarity

\\\\n

Example

\\\\n

from gensim.models import Word2Vec\\\\n\\\\nsentences =[\\\\n\\\\n['I','Like','Natural Language Processing'],\\\\n\\\\n['I','love','learn','NLP','technology'],\\\\n\\\\n['text','Similarity','Compute','Very','Interesting']\\\\n\\\\n]\\\\n\\\\nmodel = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)\\\\n\\\\n vector = model.wv['Natural Language Processing']# Obtain word vectors\\\\n

\\\\n

Sentence Vector Calculation

\\\\n

Example

\\\\n

import numpy as np\\\\n\\\\ndef sentence_vector(sentence, model):\\\\n\\\\n vectors =[model.wvfor word in sentence if word in model.wv]\\\\n\\\\nreturn np.mean(vectors, axis=0)if vectors else np.zeros(model.vector_size)\\\\n\\\\nsentence_vec1 = sentence_vector(['I','Like','Natural Language Processing'], model)\\\\n\\\\n sentence_vec2 = sentence_vector(['I','love','NLP'], model)\\\\n

\\\\n

3. Pre-trained Model-based Methods

\\\\n

BERT Similarity Calculation

\\\\n

Example

\\\\n

from transformers import BertTokenizer, BertModel\\\\n\\\\nimport torch\\\\n\\\\ntokenizer = BertTokenizer.from_pretrained('bert-base-chinese')\\\\n\\\\n model = BertModel.from_pretrained('bert-base-chinese')\\\\n\\\\ninputs = tokenizer("This is an example sentence", return_tensors="pt")\\\\n\\\\n outputs = model(**inputs)\\\\n\\\\n last_hidden_states = outputs.last_hidden_state\\\\n

\\\\n

Similarity Metrics

\\\\n

Common Distance Measurement Methods

\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n\\\\n

Method Name	Formula	Characteristics
Cosine Similarity	cos(θ) = (A·B)/(\|A\|\|B\|)	Ignores vector length, focuses on direction
Euclidean Distance	√Σ(Ai-Bi)²	Considers absolute vector position
Manhattan Distance	Σ\|Ai-Bi\|	Insensitive to outliers
Jaccard Similarity	\|A∩B\|/\|A∪B\|	Suitable for set similarity

\\\\n

Code Implementation Example

\\\\n

Example

\\\\n

from sklearn.metrics.pairwise import cosine_similarity\\\\n\\\\n# ComputeCosine Similarity\\\\n\\\\n similarity = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])\\\\n\\\\nprint(f"textSimilarity: {similarity:.4f}")\\\\n

\\\\n

Practical Application Examples

\\\\n

News Title Similarity Detection

\\\\n

Example

\\\\n

import pandas as pd\\\\n\\\\nfrom sklearn.metrics.pairwise import cosine_similarity\\\\n\\\\n# Sample data\\\\n\\\\n titles =[\\\\n\\\\n"Apple releases new iPhone model",\\\\n\\\\n"Apple launches latest smartphone",\\\\n\\\\n"Microsoft reports quarterly earnings",\\\\n\\\\n"Google announces new AI plan"\\\\n\\\\n]\\\\n\\\\n# ComputeSimilaritymatrix\\\\n\\\\n tfidf = TfidfVectorizer()\\\\n\\\\n tfidf_matrix = tfidf.fit_transform(titles)\\\\n\\\\n similarities = cosine_similarity(tfidf_matrix)\\\\n\\\\n# Display results\\\\n\\\\n df = pd.DataFrame(similarities, columns=titles, index=titles)\\\\n\\\\nprint(df)\\\\n

\\\\n

Result Analysis

\\\\n

 Apple releases new iPhone model Apple launches latest smartphone Microsoft reports quarterly earnings Google announces new AI planApple releases new iPhone model 1.000000 0.723417 0.000000 0.000000Apple launches latest smartphone 0.723417 1.000000 0.000000 0.000000Microsoft reports quarterly earnings 0.000000 0.000000 1.000000 0.204598Google announces new AI plan 0.000000 0.000000 0.204598 1.000000\\\\n

\\\\n

Advanced Techniques and Challenges

\\\\n

1. Handling Texts with Semantic Similarity but Different Vocabulary

\\\\n

Example

\\\\n

text1 ="ILikecat"\\\\n\\\\n text2 ="IDislike dogs"\\\\n\\\\n# Low surface similarity, but semantically both express an attitude toward animals\\\\n

\\\\n

2. Solving Polysemy Problems

\\\\n

Example

\\\\n

# "Apple"Can refer to either fruit or company\\\\n\\\\n text1 ="AppleVerySweet"\\\\n\\\\n text2 ="Apple's market cap hits record high"\\\\n

\\\\n

3. Long Text Similarity Calculation

\\\\n

Best Practice Recommendations

\\\\n

\\\\n
Data Preprocessing is Important
\\\\n
- Standardize case
- Remove stop words
- Stemming/Lemmatization
\\\\n
\\\\n
Choose Methods Based on Scenarios
\\\\n
- Short texts: BERT and other pre-trained models
- Long documents: TF-IDF + Cosine Similarity
- Real-time systems: Lightweight models like Word2Vec
\\\\n
\\\\n
Consider Computational Efficiency
\\\\n
- Use Approximate Nearest Neighbor (ANN) algorithms for large-scale data
- Consider using efficient similarity search libraries like Faiss
\\\\n
\\\\n
Continuous Evaluation and Optimization
\\\\n
- Establish human evaluation sets
- Monitor production environment performance
- Regularly update models
\\\\n

\\\\n

Recommended Learning Resources

\\\\n

YouTip

Text Similarity

Text Similarity Calculation in NLP

Core Concepts

Common Text Similarity Calculation Methods

1. Word Frequency-based Methods

Bag of Words Model

Example

TF-IDF Method

Example

2. Word Vector-based Methods

Word2Vec Similarity

Example

Sentence Vector Calculation

Example

3. Pre-trained Model-based Methods

BERT Similarity Calculation

Example

Similarity Metrics

Common Distance Measurement Methods

Code Implementation Example

Example

Practical Application Examples

News Title Similarity Detection

Example

Result Analysis

Advanced Techniques and Challenges

1. Handling Texts with Semantic Similarity but Different Vocabulary

Example

2. Solving Polysemy Problems

Example

3. Long Text Similarity Calculation

Best Practice Recommendations

Recommended Learning Resources

📂 Categories