머신러닝 기법을 이용하여 Youtube Live의 스트리밍에서 실시간으로 유해/악성 댓글을 필터링합니다.
스트리밍 방송에서 실시간으로 발생하는 댓글에 대해 혐오성 여부를 판단하고, 필터링함으로써 댓글 청정도 개선
- Docker
- EC2
- 유튜브 댓글 크롤링 라이브러리인 Pytchat을 사용하여 라이브 방송의 댓글을 수집하여 Kafka 클러스터로 메세지를 보냅니다.
- 메세지들은 해당 방송의 Topic에 적재됩니다.
- Spark에서 Topic의 메세지들을 가져와 전처리를 진행합니다.
- 전처리가 진행된 텍스트를 FastAPI로 요청을 보내 추론 결과를 받아옵니다.
- Google Colab Pro+
Accuracy | F1 | |
---|---|---|
KoBERT | 0.621 | 0.649 |
SoongsilBERT | 0.501 | 0.378 |
KoELECTRA | 0.843 | 0.843 |
- Make Youtube Developer Account and prepare API Key.
- Create the
config.ini
file as shown below.
# config.ini
[youtube]
api_key = 'xxxxxxxxxxxxxxxxxxxxxxxxxx'
- Execute with the following command (수정 중)
$ make dependency
$ make run
(학생설계형_팀형) Realtime-Troll-Filtering / ANTI-TROLL Team, 2023