中文正则表达式

2023. 8. 27. 22:54컴퓨터/데이터활용

新闻来源:英伟达市值一夜暴涨5000亿,黄仁勋坐稳AI铁王座

如果要调查中文新闻,怎么会用wordcloud?

与英文不同,提取中文文本需要新的正则表达式,就是 r'[a-zA-Z0-9가-힇ㄱ-ㅎㅏ-ㅣぁ-ゔァ-ヴー々〆〤一-龥]+'。

url = 'https://raw.githubusercontent.com/Revivekirin/dataset/Revivekirin/dataset/zhongwen.txt'
res = requests.get(url)
words2 = re.findall(r'[a-zA-Z0-9가-힇ㄱ-ㅎㅏ-ㅣぁ-ゔァ-ヴー々〆〤一-龥]+', res.text)
print(words2[:50])

 

输出:

['钛媒体注', '本文来源于微信公众号中国企业家杂志', 'ID', 'iceo', 'com', 'cn', '作者', '赵东山', '编辑', '李薇', '钛媒体经授权发布', '30岁开始创业', '60岁的AI教父黄仁勋', '在今年等来他的高光时刻', '伴随着AI大模型在全球的大爆发', '黄仁勋创办的英伟达', '因为提供性能强劲的生成式AI芯片成为最大赢家', '黄仁勋的身家也水涨船高', '北京时间8月24日凌晨', '英伟达公布其截至2023年7月31日的最新季度财报显示', '当季公司营收创历史新高', '达135', '1亿美元', '同比增长101', '净利润达61', '88亿美元', '同比增长843', '其毛利率也达到惊人的70', '1', '因为业绩的超预期表现', '当日英伟达股价涨3', '17', '报收471', '16美元', '股', '市值再创新高', '达1', '16万亿美元', '财报发布后的盘后交易中', '英伟达股价一度涨超10', '目前回落在6', '58', '股价破500美元', '这意味着', '英伟达市值一夜大涨约750亿美元', '约合5453亿元人民币', '事实上', '今年以来', '英伟达的股价已上涨了两倍多', '彭博亿万富豪榜实时排名显示']

看来要找道区分汉语单词的方法!!