계산 시간 단어에서 나타나 에 맞 열

0

질문

나는 열과 함께 몇 가지 긴 문자열과 필요한 계산하는 가장 많이 사용되는 단어에다.

내가 필요로 작동하는 무언가 다음과 같이 https://towardsdatascience.com/very-simple-python-script-for-extracting-most-common-words-from-a-story-1e3570d0b9d0. 말 부분에서 적어도...

그리고 그것은 매우 중요 내가 할 수있는 옵션을 블랙리스트를 어떤 단어를 지나는 계산합니다.

google-bigquery
2021-11-23 18:33:36
1

최고의 응답

2

도 아래 간단한 접근 방식

with blacklist as (
  select 'with' word union all 
  select 'that' union all
  select 'add more as you see needed'
)
select lower(word) word, count(*) frequency
from data, unnest(regexp_extract_all(col, r'[\w]*')) word
where length(word) > 3  
and word not in (select word from blacklist)
group by word
order by frequency desc     

 
2021-11-23 22:40:30

스 할 수 있습니다....어,포르투갈어,이 문제가 있는 것입니까? 또 어쩌면 나는 바로 substituion 에서 당신의 코드 아
Murilo

),블랙리스트로(선택 가진'word union 모든'을 선택하는'연합의 모든 추가'를 선택합으로 더 많은 당신이 볼 필요한')를 선택합(단어)word count()주파수에서 T0,unnest(regexp_extract_all(T0.열,r'[\w]'))단어는 곳에 길이(단어)>3 단지(선택하는 단어에서 블랙리스트)그룹에 의해 단어 순서 주파수에 의해 desc///나이..
Murilo

-보다 구체적으로 검색하십시오 당신이 무엇을 의미로"할 수 있습니다."? 를 제공 예를 입력 데이터입니다. 등등....
Mikhail Berlyant

내 나쁜,내가 이 메시지가 나타나"이 쿼리를 반환하지 않은 결과".
Murilo

결코 마음,내가에서 원래의 쿼리,그것은 완벽하게 작동하는 지금,당신이 너무 감사
Murilo

감사에 대한 확인. 기쁜 그것은 당신을 위해 작동합니다. 을 고려한 투표에 대한 답하는 경우 그것은 도움이:o)
Mikhail Berlyant

btw,임의 결과를 보면 그 코드를 절단하는 낱말을 포함"브라질 편지처럼""Ç""×""인",거기에 그것을 만들 수 있는 방법을 고려한다. 에 같은 단어를"의 개인정보 보",그것은"으로 계산 informa"
Murilo

확인 할 수 있는 것을 확인합니다. 그러나 한편 체크 내에서 다른 답변을 치료하는 방법이스,등등. 그것이 있어야에서 적어도 몇 가지 답변 관련된:o)
Mikhail Berlyant

다른 언어로

이 페이지는 다른 언어로되어 있습니다

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................