- 基于论文摘要的文本分类与关键词抽取挑战赛
赛题地址:https://challenge.xfyun.cn/topic/info?type=abstract-of-the-paper&option=ssgy&ch=ZuoaKcY
NLP演示全流程PPT:PPT网址
这个赛题分为两个子任务:
- 从论文标题、摘要作者等信息,判断该论文是否属于医学领域的文献。
- 从论文标题、摘要作者等信息,提取出该论文关键词。
- 任务1看作是一个文本二分类问题。需要根据对论文摘要等信息,训练模型,将论文按医学领域的文献和非医学领域的文献两个类别分类。
- 任务2看作是一个文本关键词提取。需要从给定的论文中识别和提取出与论文内容相关的关键词
任务1(文献领域分类)是一个二分类问题,可以用机器学习或者深度学习来实现。即一种是使用传统的特征提取方法(如TF-IDF/BOW)结合机器学习模型,另一种是使用预训练的BERT模型进行建模。
-
机器学习
- 数据预处理:文本清洗(如去除特殊字符、标点符号)、分词等操作。
常见工具:NLP工具包(如NLTK或spaCy)
- 特征提取:量化数据,使用TF-IDF(词频-逆文档频率)或BOW(词袋模型)方法将文本转换为向量表示。
TF-IDF可以计算文本中词语的重要性,而BOW则简单地统计每个词语在文本中的出现次数。
可以使用scikit-learn库的TfidfVectorizer或CountVectorizer来实现特征提取。- 构建训练集、测试集与验证集:训练集与验证集训练好模型,最后预测测试集的结果
注意,辨别好三者的关系
- 选择机器学习模型:根据实际情况选择适合的机器学习模型,
- 调参以获得更好的性能。
https://datawhaler.feishu.cn/docx/EVoodR6WroWZxXxa3a0cukIanRO
谷歌Colab(只是深度学习部分)
一键运行:https://colab.research.google.com/github/Swinden/Study/blob/main/demo1.ipynb
百度AI Studio
一键运行:https://aistudio.baidu.com/aistudio/projectdetail/6522950?sUid=377372&shared=1&ts=1689827255213
- 运行时,可以选择CPU2核8G 或 V100 16G的配置
- 总运行时间大约需要 6min 或 2min,请耐心等待
- 遇到缺少数据集文件/数据集地址错误,fork最新版本,重新运行
- 视频演示:AI夏令营:开营仪式|实践全流程基础演示_哔哩哔哩_bilibili,对应的NLP章节