বাংলা নাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, টোকেনাইজেশন এবং ভেক্টরাইজেশন

বাংলা নাচারাল ল্যাঙ্গুয়েজ প্রসেসিং

মেশিন লার্নিং বা ডিপ লার্নিং মডেলের যেকোন ভাষাকে বুঝতে হলে তাকে শুরুতে মানুষের মতো হাটি হাটি পা পা করে বুঝতে হয়। আমি এখানে শুরুতে অক্ষরের কথা বলবো না কারণ মেশিন সংখ্যা ছাড়া বোঝেনা। তবে, এর জন্য শুরুতে একটা বড় বাক্যকে ভেঙ্গে ছোট ছোট মিনিংফুল শব্দে ভাগ করে নিতে হয়, যাতে একেকটা শব্দের সাথে আরেকটা শব্দের সম্পর্ক বুঝতে পারে। এই যে বড় বড় বাক্যকে ভেঙ্গে ছোট ছোট মিনিংফুল ইউনিটে ভাগ করাকে আমরা বলছি টোকেনাইজেশন।

যেহেতু মেশিন সংখ্যা ছাড়া বোঝেনা, সেখানে এই ছোট ছোট ইউনিটে ভাগ করা শব্দগুলোকে আমরা পাল্টে ফেলব অঙ্কের সংখ্যাতে। এটাকে আমরা বলছি ভেক্টরাইজেশন।

১. টোকেনাইজেশন

২. ভেক্টরাইজেশন

sentences = ['আমি মাঝে মধ্যেই ফিরে যাই পুরানো কিছু ক্লাসিক বইয়ে', 'বিশেষ করে বেসিক ঝালাই করার জন্য']

import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!

True

from sklearn.feature_extraction.text import CountVectorizer

# ট্রান্সফরমেশন তৈরি করি
vectorizer = CountVectorizer()

# টোকেনাইজ এবং ভোকাবুলারি তৈরি করি
vectorizer.fit(sentences)

# সামারি দেখি
vectorizer.vocabulary_

{'আম': 0, 'কর': 1, 'জন': 2, 'বইয়': 3, 'মধ': 4}

import warnings
warnings.filterwarnings("ignore")

# ইউনিকোডে দেখুন নিচের লিঙ্কে
# https://jrgraphix.net/r/Unicode/0980-09FF

from nltk import word_tokenize

vectorizer = CountVectorizer(encoding='utf-8', tokenizer=word_tokenize)

vectorizer.fit(sentences)
vectorizer.vocabulary_

{'আমি': 0,
 'করার': 1,
 'করে': 2,
 'কিছু': 3,
 'ক্লাসিক': 4,
 'জন্য': 5,
 'ঝালাই': 6,
 'পুরানো': 7,
 'ফিরে': 8,
 'বইয়ে': 9,
 'বিশেষ': 10,
 'বেসিক': 11,
 'মধ্যেই': 12,
 'মাঝে': 13,
 'যাই': 14}

print(vectorizer.vocabulary_)

{'আমি': 0, 'মাঝে': 13, 'মধ্যেই': 12, 'ফিরে': 8, 'যাই': 14, 'পুরানো': 7, 'কিছু': 3, 'ক্লাসিক': 4, 'বইয়ে': 9, 'বিশেষ': 10, 'করে': 2, 'বেসিক': 11, 'ঝালাই': 6, 'করার': 1, 'জন্য': 5}

vectorizer.transform(sentences).toarray()

array([[1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1],
       [0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0]])

vec = CountVectorizer()
x = vec.fit_transform(sentences).toarray()
print(x.shape)
print(vec.get_feature_names())

(2, 5)
['আম', 'কর', 'জন', 'বইয়', 'মধ']

# ইউনিকোডে দেখুন নিচের লিঙ্কে
# https://jrgraphix.net/r/Unicode/0980-09FF

vectorizer = CountVectorizer(encoding='utf-8', token_pattern=r'[\u0980-\u09ff]+')
vectorizer.fit(sentences)
vectorizer.vocabulary_

{'আমি': 0,
 'করার': 1,
 'করে': 2,
 'কিছু': 3,
 'ক্লাসিক': 4,
 'জন্য': 5,
 'ঝালাই': 6,
 'পুরানো': 7,
 'ফিরে': 8,
 'বইয়ে': 9,
 'বিশেষ': 10,
 'বেসিক': 11,
 'মধ্যেই': 12,
 'মাঝে': 13,
 'যাই': 14}

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer =TfidfVectorizer(encoding='utf-8', tokenizer=word_tokenize)

vectorizer.fit(sentences)
vectorizer.vocabulary_

{'আমি': 0,
 'করার': 1,
 'করে': 2,
 'কিছু': 3,
 'ক্লাসিক': 4,
 'জন্য': 5,
 'ঝালাই': 6,
 'পুরানো': 7,
 'ফিরে': 8,
 'বইয়ে': 9,
 'বিশেষ': 10,
 'বেসিক': 11,
 'মধ্যেই': 12,
 'মাঝে': 13,
 'যাই': 14}

vectorizer.transform(sentences).toarray()

array([[0.33333333, 0.        , 0.        , 0.33333333, 0.33333333,
        0.        , 0.        , 0.33333333, 0.33333333, 0.33333333,
        0.        , 0.        , 0.33333333, 0.33333333, 0.33333333],
       [0.        , 0.40824829, 0.40824829, 0.        , 0.        ,
        0.40824829, 0.40824829, 0.        , 0.        , 0.        ,
        0.40824829, 0.40824829, 0.        , 0.        , 0.        ]])

print(vectorizer.idf_)

[1.40546511 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511
 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511
 1.40546511 1.40546511 1.40546511]

vector = vectorizer.transform([sentences[0]])
# এনকোডেড ভেক্টরকে সামারাইজ করি
print(vector.shape)
print(vector.toarray())

(1, 15)
[[0.33333333 0.         0.         0.33333333 0.33333333 0.
  0.         0.33333333 0.33333333 0.33333333 0.         0.
  0.33333333 0.33333333 0.33333333]]

cities = ['ঢাকা', 'বার্লিন', 'কুমিল্লা', 'শিকাগো', 'সিঙ্গাপুর']
cities

['ঢাকা', 'বার্লিন', 'কুমিল্লা', 'শিকাগো', 'সিঙ্গাপুর']

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
city_labels = encoder.fit_transform(cities)
city_labels

array([1, 2, 0, 3, 4])

from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse=False)
city_labels = city_labels.reshape((5, 1))
encoder.fit_transform(city_labels)

array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bn_nlp_token_vector.md

bn_nlp_token_vector.md

বাংলা নাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, টোকেনাইজেশন এবং ভেক্টরাইজেশন

Files

bn_nlp_token_vector.md

Latest commit

History

bn_nlp_token_vector.md

File metadata and controls

বাংলা নাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, টোকেনাইজেশন এবং ভেক্টরাইজেশন