中文正则表达式
2023. 8. 27. 22:54ㆍ컴퓨터/데이터활용
新闻来源:英伟达市值一夜暴涨5000亿,黄仁勋坐稳AI铁王座
如果要调查中文新闻,怎么会用wordcloud?
与英文不同,提取中文文本需要新的正则表达式,就是 r'[a-zA-Z0-9가-힇ㄱ-ㅎㅏ-ㅣぁ-ゔァ-ヴー々〆〤一-龥]+'。
url = 'https://raw.githubusercontent.com/Revivekirin/dataset/Revivekirin/dataset/zhongwen.txt'
res = requests.get(url)
words2 = re.findall(r'[a-zA-Z0-9가-힇ㄱ-ㅎㅏ-ㅣぁ-ゔァ-ヴー々〆〤一-龥]+', res.text)
print(words2[:50])
输出:
['钛媒体注', '本文来源于微信公众号中国企业家杂志', 'ID', 'iceo', 'com', 'cn', '作者', '赵东山', '编辑', '李薇', '钛媒体经授权发布', '30岁开始创业', '60岁的AI教父黄仁勋', '在今年等来他的高光时刻', '伴随着AI大模型在全球的大爆发', '黄仁勋创办的英伟达', '因为提供性能强劲的生成式AI芯片成为最大赢家', '黄仁勋的身家也水涨船高', '北京时间8月24日凌晨', '英伟达公布其截至2023年7月31日的最新季度财报显示', '当季公司营收创历史新高', '达135', '1亿美元', '同比增长101', '净利润达61', '88亿美元', '同比增长843', '其毛利率也达到惊人的70', '1', '因为业绩的超预期表现', '当日英伟达股价涨3', '17', '报收471', '16美元', '股', '市值再创新高', '达1', '16万亿美元', '财报发布后的盘后交易中', '英伟达股价一度涨超10', '目前回落在6', '58', '股价破500美元', '这意味着', '英伟达市值一夜大涨约750亿美元', '约合5453亿元人民币', '事实上', '今年以来', '英伟达的股价已上涨了两倍多', '彭博亿万富豪榜实时排名显示']
看来要找道区分汉语单词的方法!!
'컴퓨터 > 데이터활용' 카테고리의 다른 글
뉴스 스크래핑하기 (0) | 2023.08.29 |
---|---|
request, wordcloud를 이용하여 txt 파일 정리하기 (0) | 2023.08.29 |
K-NN 알고리즘_농구선수 포지션 예측 (0) | 2023.08.25 |
K-NN알고리즘 (0) | 2023.08.25 |